Added PUE and fixed bad model params

stefancosquer · stefancosquer · commit 6cee1aaee987 · 2025-09-05T10:31:12.000+02:00
diff --git a/docs/methodology/ai.md b/docs/methodology/ai.md
@@ -204,19 +204,19 @@ import { AIPlayGround } from '@site/src/components/ai-playground';
 
 Cette section propose une comparaison de méthodologies disponibles pour l’évaluation des impacts environnementaux des modèles d’IA générative. Elle met en évidence leurs périmètres, leurs forces et leurs limites, afin de situer la méthodologie D4B par rapport aux approches existantes.
 
-| Caractéristique                                           | Full ACV (Google, 2025)[^3][^4]                                                                                 | Ecologits[^14]                                                                        | Méthodologie D4B                                                                |
-|-----------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------|---------------------------------------------------------------------------------|
-| Type d’approche                                           | Mesure full-stack : CPU/DRAM, machines idle, datacenter overhead, eau, ACV partielle du hardware                | Evaluation bottom-up appliqué à l’inférence uniquement (usage + fabrication)          | Modélisation FLOPs → GPUh → Impacts                                             |
-| Périmètre                                                 | Fabrication (partielle), usage (tous composants serveur), infrastructure datacenter, eau, émissions Scope 2/3   | Usage infra + fabrication, inférence seulement                                        | Usage entraînement, fine tuning, inférence + fabrication GPU et serveur         |
-| Granularité & mesure                                      | Très fine : mesures réelles sur production Gemini, énergie, eau, émissions                                      | Moyenne haute, open data multi-critères (GWP, PE, ADPe) agrégés par appel API         | Moyenne modérée : dépend des données disponibles (FLOPs, TDP, ...)              |
-| Accessibilité                                             | Faible : données internes Google peu explicitées                                                                | Elevée : code open-source, API ouverte                                                | Elevée : méthodes et hypothèses documentées publiquement                        |
-| Reproductibilité                                          | Faible : instrumentation propriétaire et données internes                                                       | Forte : outil public, calculs transparents et reproductibles                          | Moyenne à élevée : si les données d’entrée sont estimables                      |
-| Transparence                                              | Moyenne : publication méthode mais accès aux données limité                                                     | Forte : codes, hypothèses et modèle open source                                       | Forte : toutes les formules et sources sont explicitées                         |
-| Précision (sur inférence)                                 | Très élevée : vrai déploiement mesuré, inclut spectre complet d’énergie                                         | Moyenne : repose sur modèles simplifiés et hypothèses généralisées                    | Moyenne à élevée selon la précision des paramètres choisis                      |
-| Applicabilité                                             | Limitée : spécifique à l’infrastructure Google et inférence                                                     | Moyenne : inférence sur divers fournisseurs, mais pas entraînement                    | Très large : entraînement, fine tuning, inférence sur base publique             |
-| Usages visés                                              | Analyse interne, reporting fin, communication                                                                   | Évaluation publique, sensibilisation, comparateur multi-fournisseurs                  | Recherche, évaluation interne, FinOps, Green AI                                 |
-| Résultats chiffrés<br/>(Prompt moyen, environ 400 jetons) | ~0,03 gCO2e<br/>~0,24 Wh<br/>Gemini                                                                             | ~40 gCO2e<br/>~95 Wh<br/>LLama 3.1 405b                                               | ~0,1 gCO2e<br/>~0,5 Wh<br/>LLama 3.1 405b<br/>(cf. [Application](#application)) |
-| Limites clés                                              | Données propriétaires, ne couvre pas l’entraînement, se concentre sur l'inférence, biais sur le “prompt median” | Périmètre limité (inférence seule), possible surestimation du fait de l'extrapolation | Dépend fortement des hypothèses (MFU, durée de vie)                             |
+| Caractéristique                                           | Full ACV (Google, 2025)[^3][^4]                                                                                 | Ecologits[^14]                                                                        | Méthodologie D4B                                                                  |
+|-----------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|
+| Type d’approche                                           | Mesure full-stack : CPU/DRAM, machines idle, datacenter overhead, eau, ACV partielle du hardware                | Evaluation bottom-up appliqué à l’inférence uniquement (usage + fabrication)          | Modélisation FLOPs → GPUh → Impacts                                               |
+| Périmètre                                                 | Fabrication (partielle), usage (tous composants serveur), infrastructure datacenter, eau, émissions Scope 2/3   | Usage infra + fabrication, inférence seulement                                        | Usage entraînement, fine tuning, inférence + fabrication GPU et serveur           |
+| Granularité & mesure                                      | Très fine : mesures réelles sur production Gemini, énergie, eau, émissions                                      | Moyenne haute, open data multi-critères (GWP, PE, ADPe) agrégés par appel API         | Moyenne modérée : dépend des données disponibles (FLOPs, TDP, ...)                |
+| Accessibilité                                             | Faible : données internes Google peu explicitées                                                                | Elevée : code open-source, API ouverte                                                | Elevée : méthodes et hypothèses documentées publiquement                          |
+| Reproductibilité                                          | Faible : instrumentation propriétaire et données internes                                                       | Forte : outil public, calculs transparents et reproductibles                          | Moyenne à élevée : si les données d’entrée sont estimables                        |
+| Transparence                                              | Moyenne : publication méthode mais accès aux données limité                                                     | Forte : codes, hypothèses et modèle open source                                       | Forte : toutes les formules et sources sont explicitées                           |
+| Précision (sur inférence)                                 | Très élevée : vrai déploiement mesuré, inclut spectre complet d’énergie                                         | Moyenne : repose sur modèles simplifiés et hypothèses généralisées                    | Moyenne à élevée selon la précision des paramètres choisis                        |
+| Applicabilité                                             | Limitée : spécifique à l’infrastructure Google et inférence                                                     | Moyenne : inférence sur divers fournisseurs, mais pas entraînement                    | Très large : entraînement, fine tuning, inférence sur base publique               |
+| Usages visés                                              | Analyse interne, reporting fin, communication                                                                   | Évaluation publique, sensibilisation, comparateur multi-fournisseurs                  | Recherche, évaluation interne, FinOps, Green AI                                   |
+| Résultats chiffrés<br/>(Prompt moyen, environ 400 jetons) | ~0,03 gCO2e<br/>~0,24 Wh<br/>Gemini                                                                             | ~40 gCO2e<br/>~95 Wh<br/>LLama 3.1 405b                                               | ~0,12 gCO2e<br/>~0,27 Wh<br/>LLama 3.1 405b<br/>(cf. [Application](#application)) |
+| Limites clés                                              | Données propriétaires, ne couvre pas l’entraînement, se concentre sur l'inférence, biais sur le “prompt median” | Périmètre limité (inférence seule), possible surestimation du fait de l'extrapolation | Dépend fortement des hypothèses (MFU, durée de vie)                               |
 
 Ces résultats montrent que chaque approche a un positionnement spécifique : Google privilégie la précision mais reste fermé et non reproductible, Ecologits mise sur la transparence et la simplicité mais au prix d’une surestimation possible, tandis que la méthodologie D4B propose un compromis reproductible et adaptable aux différents contextes d’usage mais dépend de la précision des données d'entrée.
 
diff --git a/src/components/ai-playground.tsx b/src/components/ai-playground.tsx
@@ -15,10 +15,10 @@ const COLORS = [
 
 const MODELS = [
   {
-    label: "LLama 3.1 450b",
-    value: "llama-3.1-450",
+    label: "LLama 3.1 405b",
+    value: "llama-3.1-405",
     architecture: "dense",
-    parameters: [450e9, 450e9],
+    parameters: [405e9, 405e9],
   },
   {
     label: "LLama 3.1 70b",
@@ -198,6 +198,7 @@ const compute = ({
   height: number;
   steps: number;
 }): Result => {
+  const pue = 1.2;
   const lifespan = 5 * 365.25 * 24;
   const { gwp } = REGIONS.find(({ value }) => region === value);
   const {
@@ -277,11 +278,11 @@ const compute = ({
     enclosure: 0,
     total: 0,
   };
-  wh.gpu = gpu_hours * gpu_power;
-  wh.cpu = (gpu_hours * (cpu_count * cpu_power)) / gpu_count;
-  wh.ram = (gpu_hours * (ram * ram_power)) / gpu_count;
-  wh.storage = (gpu_hours * (ssd * ssd_power)) / gpu_count;
-  wh.enclosure = (gpu_hours * enclosure_power) / gpu_count;
+  wh.gpu = gpu_hours * gpu_power * pue;
+  wh.cpu = ((gpu_hours * (cpu_count * cpu_power)) / gpu_count) * pue;
+  wh.ram = ((gpu_hours * (ram * ram_power)) / gpu_count) * pue;
+  wh.storage = ((gpu_hours * (ssd * ssd_power)) / gpu_count) * pue;
+  wh.enclosure = ((gpu_hours * enclosure_power) / gpu_count) * pue;
   wh.total = wh.cpu + wh.gpu + wh.ram + wh.storage + wh.enclosure;
 
   const energy = {
diff --git a/src/format.ts b/src/format.ts
@@ -1,5 +1,15 @@
 export const UNITS = {
-  flops: ["FLOPS", "kFLOPS", "MFLOPS", "GFLOPS", "TFLOPS", "PFLOPS"],
+  flops: [
+    "FLOPS",
+    "kFLOPS",
+    "MFLOPS",
+    "GFLOPS",
+    "TFLOPS",
+    "PFLOPS",
+    "EFLOPS",
+    "ZFLOPS",
+    "YFLOPS",
+  ],
   wh: ["Wh", "kWh", "MWh", "GWh", "TWh", "PWh"],
   gwp: ["gCO2e", "kgCO2e", "tCO2e", "ktCO2e", "MtCO2e", "GtCO2e"],
   tokens: ["tokens/s"],