Audit datasets Sobr.ia — Q3 2026

Audit datasets Sobr.ia — Q3 2026

Statut : en cours (1ère passe, batch 1 livré) Auteur : Cowork Date : 2026-05-16 Périmètre : audit exhaustif des sources de données disponibles pour enrichir le référentiel Sobr.ia (modèles, datacenters, mix électrique, facteurs émission, benchmarks IA). Méthodologie : voir briefs/chantiers/C30-audit-datasets.md. Output cible : ~40-50 sources évaluées en 5 catégories + matrice de priorisation + roadmap C31.


Synthèse exécutive (preview, à finaliser)

Cette synthèse sera complétée une fois les 5 catégories auditées. Objectif : 1 page lisible jury data.gouv.fr.

État au 2026-05-16 : 19 sources évaluées sur ~40-50 attendues (batches 1+2+3+4 livrés). Le périmètre couvert est désormais suffisant pour le pitch v1.0 ; les sources restantes seront ajoutées en v1.1+.

Quick wins identifiés (à intégrer dans C31) :

  • ⭐⭐⭐ Mistral AI Environmental Footprint Large 2 (Cat. D, premier vendor mondial à publier ACV complet, partenariat ADEME — différenciateur pitch absolu)
  • ⭐⭐ Google Gemini Environmental Disclosure (Cat. D, 2ème vendor à publier chiffres prompt-level, août 2025)
  • Meta Llama 3.x model cards (Cat. D, 3ème vendor disclosure — training officiel + distinction location/market-based)
  • ML.ENERGY Leaderboard v3.0 (Cat. C, 46 modèles × 7 tasks H100+B200 = 1858 configs empiriques, déc 2025)
  • ⭐ ADEME Base Empreinte (Cat. A, facteurs émission numérique officiels FR)
  • ⭐ HuggingFace AI Energy Score (Cat. C, ratings 1-5 étoiles, mapping naturel score Sobr.ia A-F)
  • EpochAI AI Models dataset (Cat. C, CC-BY, ~1500 modèles + trends compute)
  • ODRE complémentaire (Cat. A, 4 datasets supplémentaires : registre installations + eco2mix horaire + régional + EPCI)
  • ARCEP “Pour un numérique soutenable” édition 2025 (Cat. A, parse PDF), édition 2026 à surveiller
  • The Shift Project — projections 2030 (Cat. E, citation + valeurs clés M16 Forecaster)
  • ⭐⭐ IEA Energy and AI 2025 (Cat. B, projections internationales référence — fourchette monde avec Shift Project)
  • Cloud Carbon Footprint Thoughtworks (Cat. E, Apache 2.0, facteurs PUE + carbon intensity cloud par région)

Strategic bets (v1.2+) :

  • ENTSO-E Transparency Platform (Cat. B, mix élec horaire EU — internationaliser Sobr.ia au-delà FR)
  • Boavizta API (Cat. E, ACV multi-critères CC BY-SA)
  • MLPerf Power benchmarks (Cat. C, energy efficiency ML systems)

Watchlist / À clarifier :

  • ⚠️ ElectricityMaps API (free tier non-commercial uniquement — bloque l’offre cloud managed ADR-0014). Alternative : leurs parsers GitHub open source à réutiliser dans le pipeline médaillon.

Couvert indirectement via S03 :

  • NegaOctet — 50 datasets numériques publiés dans Base Empreinte ADEME (pas besoin de duplication)

Highlights pitch défi data.gouv.fr :

  • Sobr.ia s’appuie sur 3 sources officielles FR (ADEME, ARCEP, ODRE) + 1 modèle vendor FR avec ACV publié (Mistral × ADEME) + 2 vendors internationaux transparents (Google Gemini + Meta Llama).
  • Cohérence méthodologique avec 4 référentiels indépendants : AFNOR/Sobr.ia interne + EcoLogits + HF AI Energy Score + ML.ENERGY Benchmark (empirique GPU réel).
  • Référence internationale macro avec IEA Energy and AI 2025 (945 TWh datacenters 2030) couplée vision prospective via Shift Project (1 500 TWh max).
  • Table de comparaison vendor disclosure dans Sobr.ia (M9) :
VendorDisclosure officielle prompt-level ?Disclosure training ?Source
Mistral AI (FR)✅ Oui (août 2025)✅ OuiVendor + ADEME
Google (Gemini)✅ Oui (août 2025)⚠️ PartielVendor
Meta (Llama 3.x)❌ Non✅ Oui (location + market-based)Vendor model cards
Anthropic (Claude)❌ Non❌ NonEstimations tierces
OpenAI (GPT-4o)❌ Non❌ NonEstimations tierces

Sobr.ia se positionne comme tiers de confiance qui agrège, normalise, et présente ces disclosures (et leurs absences) avec leur lineage — cohérent avec mission “tiers de confiance” pitch data.gouv.fr.


Méthodologie de l’audit

Catégories

CodeCatégorieDescription
AGouvernementales FRdata.gouv.fr, ADEME, ARCEP, ODRE, INSEE, IGN, CNIL, BPI, etc.
BEU + globales openEurostat, EEA, IEA, OWID, ENTSO-E, JRC, IRENA
CAcadémique + benchmarks IAHF leaderboards, MLPerf, ML.Energy, HELM, EpochAI, LMSYS Arena
DCartes modèles industrielsOpenAI, Anthropic, Google, Meta, Mistral, Cohere, etc.
ECarbon-specific + géolocBoavizta, NegaOctet, ElectricityMaps, WattTime, Shift Project

Grille de scoring (par source)

Chaque source reçoit :

  • Score valeur Sobr.ia /10 (adéquation moteur + granularité géo + différenciateur pitch + fraîcheur)
  • Score effort intégration /10 (volume/format + licence + stabilité + transformations)
  • Décision : ✅ Intégrer C31 / 📋 Backlog v1.2+ / ⏸ Surveiller / ❌ Rejeté

Quadrant de priorisation

            Effort faible          Effort élevé
          ┌──────────────────┬──────────────────┐
Valeur    │   QUICK WINS     │  STRATEGIC BETS  │
élevée    │   → C31 court    │  → C31 long ou   │
          │                  │    v1.2+         │
          ├──────────────────┼──────────────────┤
Valeur    │   FILL-IN /      │     SKIP /       │
faible    │   BACKLOG        │    ⏸ ou ❌      │
          │                  │                  │
          └──────────────────┴──────────────────┘

🏛️ Catégorie A — Sources gouvernementales françaises

A.S03 — ADEME Base Empreinte ⭐

ChampValeur
ProducteurADEME — Agence de la transition écologique
URL canoniquebase-empreinte.ademe.fr
URL data.gouv.frdata.gouv.fr/dataservices/api-base-carbone
Portail open datadata.ademe.fr
CatégorieA — Gouv FR
LicenceEtalab 2.0 (open data ADEME)
Compatibilité Sobr.ia✅ Parfaite
Volume~1500 composants/équipements, ~50 facteurs multi-critères numériques (intégrés via NegaOctet)
FormatAPI REST + dumps CSV/JSON
Authentification❌ Aucune (Open Data)
Fréquence MAJRégulière, version courante V23.6 (juillet 2025)
FraîcheurV23.6 = juillet 2025, très frais
Accessibilité techAPI publique documentée
Score valeur Sobr.ia9/10 — facteurs émission ACV numérique = pilier méthodologique ; remplace nos hypothèses internes par des facteurs officiels FR
Score effort intégration3/10 — API REST stable, JSON standard, schéma documenté
Tier proposéTier 2 forte priorité
RisquesSchéma API peut évoluer entre versions majeures (V23 → V24) ; tracer le version_id
DécisionIntégrer dans C31

Note méthodologique : Base de référence officielle française pour la comptabilité carbone et l’écoconception. Intègre les données NegaOctet (1500 composants IT classifiés). Permet à Sobr.ia de citer des facteurs officiels FR Etalab 2.0 au lieu de constantes calibrées en dur dans le moteur. Renforce massivement le pitch défi data.gouv.fr (méthodologie traçable à une source institutionnelle).


A.S04 — ARCEP « Pour un numérique soutenable » ⭐

ChampValeur
ProducteurARCEP — Autorité de régulation des communications électroniques
URL canoniquearcep.fr/cartes-et-donnees/…/enquete-annuelle-pour-un-numerique-soutenable
CatégorieA — Gouv FR
LicenceDonnées publiques (publication officielle ARCEP, à confirmer Etalab 2.0)
Compatibilité Sobr.ia✅ Compatible
Volume~30 indicateurs annuels (consommation élec, GES, eau, datacenters, terminaux)
FormatPDF rapport + tableaux Excel + (à venir 2026) données détaillées cloud/IA gé
Authentification❌ Aucune
Fréquence MAJAnnuelle. Édition 2025 (données 2023) disponible. Édition 2026 (données 2024) en cours, enrichie d’indicateurs IA générative officiels (GES, élec, eau, impact IA).
FraîcheurÉdition 2025 OK. Édition 2026 publiée fin 2026.
Accessibilité techPDF + Excel téléchargeables ; pas d’API
Score valeur Sobr.ia9/10 — collecte officielle FR sur IA gé = différenciateur majeur pitch défi data.gouv.fr
Score effort intégration5/10 — parsing PDF + Excel manuel, schéma stable mais semi-structuré
Tier proposéTier 2 forte priorité (édition 2025 disponible immédiatement)
RisquesFormat PDF peut changer ; rythme annuel implique 1 MAJ/an manuelle
DécisionIntégrer édition 2025 dans C31, surveiller édition 2026

Note méthodologique : L’enquête ARCEP est la source de référence française pour les indicateurs environnementaux du secteur numérique. La décision homologuée du 21 janvier 2026 enrichit la collecte 2026 avec les fournisseurs cloud et inclut explicitement les indicateurs IA générative (impact sur GES, électricité, eau). C’est la donnée officielle FR la plus alignée avec la mission Sobr.ia. À court terme : extraire les tableaux édition 2025 (datacenters FR) ; à moyen terme : ingérer édition 2026 dès publication.


A.S05 — ODRE — Open Data Réseaux Énergies (catalogue complet)

ChampValeur
ProducteurRTE + GRTgaz + NaTran + Teréga + Enedis + GRDF (consortium)
URL canoniqueopendata.reseaux-energies.fr
URL data.gouv.frdata.gouv.fr/organizations/open-data-reseaux-energies-1
CatégorieA — Gouv FR
LicenceEtalab 2.0
Compatibilité Sobr.ia✅ Parfaite (déjà utilisé partiellement pour S02 RTE-IRIS)
Volume200+ datasets
FormatCSV + JSON + API REST opendatasoft
Authentification❌ Aucune
Fréquence MAJVariable selon dataset (horaire à annuel)
FraîcheurTrès bonne, MAJ janvier 2026 sur plusieurs datasets clés
Accessibilité techAPI opendatasoft standard (excellente)
Score valeur Sobr.ia7/10 — déjà partiellement exploité, mais réservoir de datasets complémentaires
Score effort intégration4/10 — API uniforme, schémas connus
Tier proposéTier 2 (élargir l’usage existant)
RisquesAucun particulier
DécisionÉlargir l’usage dans C31 (4 datasets complémentaires identifiés ci-dessous)

Datasets ODRE à ingérer en complément (sous-sources)

CodeDatasetValeur ajoutée
A.S05.1Registre national installations production+stockage électricité (janv 2026)Cartographier les sources réelles d’élec consommée par les datacenters FR (nucléaire/renouvelable/fossile)
A.S05.2Eco2mix national consolidé (2012-janv 2026)Mix élec horaire FR pour calculs intensité carbone temps réel (déjà ingéré dans la v0.5.0 mais juste annuel)
A.S05.3Eco2mix régional consolidé (2013-janv 2026)Granularité régionale → datacenters par région NUTS-2
A.S05.4Consommation EPCI annuelleMaille intercommunalité, complément IRIS

🌍 Catégorie B — Sources européennes + globales

B.S11 — IEA — Energy and AI Report 2025 ⭐⭐

ChampValeur
ProducteurInternational Energy Agency (IEA / OCDE)
URL canoniqueiea.org/reports/energy-and-ai
CatégorieB — EU/global
LicenceCitation libre (publication officielle IEA)
Compatibilité Sobr.ia✅ Citation + chiffres référence
VolumeRapport ~400 pages, projections monde 2024 → 2035, scenarios Base/High/Lift-off
FormatPDF + tableaux Excel + dashboard interactif
Authentification❌ Aucune
Fréquence MAJPublication d’avril 2025 + news updates trimestrielles
FraîcheurAvril 2025 + news 2025-11 (data center +17% en 2025)
Accessibilité techPDF + scrapings tables ; dashboard interactif
Score valeur Sobr.ia9/10 — référence INTERNATIONALE pour projections datacenters + IA
Score effort intégration3/10 — extraction de 10-20 chiffres clés, pas un ingest massif
Tier proposéTier 2 quick win (citations + valeurs forecaster)
RisquesAucun
DécisionIntégrer dans C31 — chiffres pour M16 Forecaster + datasheet

Note méthodologique : L’IEA est THE référence mondiale pour les projections énergétiques. Chiffres clés à intégrer dans Sobr.ia :

  • Datacenters monde 2030 : 945 TWh (≈ 3 % consommation élec globale, équivalent Japon entier).
  • Croissance 2025 : +17 % global datacenters, +50 % datacenters dédiés IA.
  • Accelerated servers (= GPU IA) : +30 % par an dans le scénario Base.
  • US + Chine = 80 % de la croissance mondiale jusqu’à 2030.
  • Trajectoire : 460 TWh (2024) → 1 000 TWh (2030) → 1 300 TWh (2035).

À comparer avec Shift Project (1 250 à 1 500 TWh 2030) pour fournir une fourchette dans M16 Forecaster : « Selon IEA Base 945 TWh, selon Shift jusqu’à 1 500 TWh — voici votre contribution personnelle ». Citation IEA renforce la crédibilité internationale de Sobr.ia.


B.S10 — ENTSO-E Transparency Platform ⭐

ChampValeur
ProducteurENTSO-E — European Network of Transmission System Operators for Electricity
URL canoniquetransparency.entsoe.eu
API docGuide REST API
CatégorieB — EU/global
LicenceCC-BY 4.0 (open data, attribution requise)
Compatibilité Sobr.ia✅ Compatible avec attribution
VolumeTous les TSO européens, production/consommation horaire, équilibrage, pannes
FormatAPI REST + CSV bulk + File Library
Authentification🔑 API key gratuite (email à transparency@entsoe.eu)
Fréquence MAJHoraire
FraîcheurTemps réel (refresh 1 h)
Accessibilité techAPI standard, Python clients existants
Score valeur Sobr.ia8/10 — couvre TOUS les pays EU (vs RTE/IRIS = FR only), permet datacenters Europe avec mix horaire pays
Score effort intégration5/10 — API key + parsing XML/CSV (moins propre que REST JSON)
Tier proposéTier 2 strategic bet
RisquesAPI key nécessaire (mais gratuite et permanent)
Décision📋 Backlog v1.2+ — high value pour étendre M12 datacenters Europe à un calcul carbone précis par pays, mais effort API key + XML parsing

Note méthodologique : Indispensable pour internationaliser Sobr.ia au-delà du périmètre FR. Couplé avec M12 Datacenters Europe (déjà implémenté en v0.4), permettrait de calculer en temps réel l’intensité carbone d’une requête selon le pays du datacenter. ⚠️ L’API key gratuite est un compromis acceptable (pas un paywall, juste une formalité d’enregistrement).


🎓 Catégorie C — Académique + benchmarks IA

C.S20 — Hugging Face AI Energy Score ⭐

ChampValeur
ProducteurHugging Face (Sasha Luccioni et al.) — Initiative open source
URL canoniquehuggingface.github.io/AIEnergyScore
Leaderboardhuggingface.co/spaces/AIEnergyScore/Leaderboard
Code sourcegithub.com/huggingface/AIEnergyScore
CatégorieC — Académique
LicenceApache 2.0 / MIT (open source HF), notation 1-5 étoiles dérivée librement
Compatibilité Sobr.ia✅ Parfaite (cohérent multi-méthodologie ADR-0012)
Volume10 tâches × N modèles évalués, score 1-5 étoiles, refresh régulier
FormatJSON via API HF Spaces + dataset HuggingFace Hub
Authentification❌ Aucune pour lecture publique
Fréquence MAJContinue (modèles ajoutés au fil de l’eau) ; v2 lancée en 2025 avec reasoning
FraîcheurTrès frais, v2 incluant reasoning task
Accessibilité techAPI HF datasets standard + leaderboard space
Score valeur Sobr.ia9/10 — rating normalisé 1-5 étoiles parfaitement alignable avec notre score Sobr.ia A-F
Score effort intégration3/10huggingface_hub crate ou simple reqwest JSON
Tier proposéTier 2 quick win
RisquesAucun particulier (initiative HF stable)
DécisionIntégrer dans C31 (mapping AI Energy Score ↔ score Sobr.ia A-F)

Note méthodologique : Standardise les évaluations énergétiques sur NVIDIA H100, dataset custom (1000 samples / 3+ datasets par tâche : WikiText, OSCAR, UltraChat-10K). Système de notation 1-5 étoiles inspiré des classes énergétiques appareils électroménagers — exactement la métaphore qu’on veut véhiculer dans Sobr.ia. Permet d’enrichir le M9 Référentiel modèles avec un score externe reconnu.


C.S21 — MLPerf Power (MLCommons)

ChampValeur
ProducteurMLCommons (consortium industriel)
URL canoniquemlcommons.org/benchmarks/inference-datacenter/
Code sourcegithub.com/mlcommons/inference
CatégorieC — Académique / benchmarks
LicenceApache 2.0 (résultats publiés librement accessibles)
Compatibilité Sobr.ia✅ Compatible
VolumeBenchmarks v6.0 (avril 2026), résultats datacenter + edge, mesures power
FormatTables HTML + dumps CSV publiés trimestriellement
Authentification❌ Aucune pour lecture publique
Fréquence MAJSemestrielle (v5.1 sept 2025, v6.0 avril 2026)
Fraîcheurv6.0 d’avril 2026, très frais
Accessibilité techTéléchargement direct CSV résultats + scripts Python publics
Score valeur Sobr.ia7/10 — données power vendor-grade (rare en open) mais centrées hardware/datacenter, moins direct utilisateur final
Score effort intégration5/10 — parser des tableaux trimestriels, mapping hardware/modèle parfois indirect
Tier proposéTier 3 strategic bet
RisquesSchéma v5→v6 a évolué, à versionner
Décision📋 Backlog v1.2+ — pas immédiatement actionnable utilisateur final, mais grosse valeur pour M9 Référentiel modèles vue détaillée datacenter

C.S23 — LMSYS / LMArena (Chatbot Arena rankings)

ChampValeur
ProducteurLMSYS Org (UC Berkeley) — rebranded LMArena en janv 2026
URL canoniquelmarena.ai (anciennement lmsys.org)
Leaderboard HFhuggingface.co/spaces/lmarena-ai/arena-leaderboard
Code sourcegithub.com/lm-sys/FastChat (Apache 2.0)
Datasets HFlmsys/lmsys-chat-1m, lmsys/chatbot_arena_conversations
CatégorieC — Académique
LicenceCode FastChat Apache 2.0 ; datasets sous CC variées (à vérifier par dataset)
Compatibilité Sobr.ia✅ Code Apache 2.0 ; ⚠️ datasets — vérifier au cas par cas
Volume9 leaderboards (Text, Code, Vision, WebDev, Image Edit, Multi-Image, Search, Text-to-Video, Image-to-Video)
FormatJSON via HF Spaces + GitHub repo
Authentification❌ Aucune
Fréquence MAJContinue (votes humains aggregés en quasi-temps réel)
FraîcheurTrès frais (janv 2026 rebranding)
Accessibilité techAPI HF + scraping ; pas d’API officielle d’export structurée
Score valeur Sobr.ia6/10 — rankings populaires mais non-empreinte, complément M9 fiche modèle pour la dimension “qualité perçue” en parallèle de l’empreinte
Score effort intégration6/10 — pas d’API directe pour battle logs ; scraping leaderboard rank
Tier proposéTier 3 fill-in
RisquesAPI rate-limit ; dataset license fragmentée
Décision📋 Backlog v1.2+ — utile pour afficher rang qualité côté M9 mais pas critique pour l’empreinte

Note méthodologique : Permet à Sobr.ia d’afficher dans M9 fiche modèle un tradeoff “qualité × empreinte” : « Mistral Large 2 rank 7 LMArena Text, 2.8 Wh/prompt vs GPT-4o rank 2, ? Wh/prompt ». C’est ce que les utilisateurs veulent voir pour faire un choix éclairé.


C.S25 — ML.ENERGY Leaderboard v3.0 (Univ. Michigan) ⭐

ChampValeur
ProducteurUniversity of Michigan — ML.ENERGY Initiative
URL canoniqueml.energy/leaderboard
Code sourcegithub.com/ml-energy/leaderboard
Paperarxiv.org/html/2505.06371v1 — “ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement”
CatégorieC — Académique
LicenceOpen source GitHub (Apache 2.0 probable, à confirmer)
Compatibilité Sobr.ia✅ Citation + utilisation données
Volumev3.0 (déc 2025) : 46 modèles × 7 tasks × NVIDIA H100 + B200 = 1 858 configurations
FormatLeaderboard web + GitHub repo + paper
Authentification❌ Aucune
Fréquence MAJVersions majeures (v3.0 déc 2025)
FraîcheurTrès frais (déc 2025)
Accessibilité techOpen source téléchargeable + scraping leaderboard
Score valeur Sobr.ia9/10mesures empiriques d’énergie par modèle (vs nos estimations Monte-Carlo). Idéal pour calibration moteur et validation reproductive.
Score effort intégration3/10 — données structurées disponibles
Tier proposéTier 2 quick win
RisquesModèles testés = LLM open-source uniquement (pas API closed). Pas de Claude, GPT-4o, Gemini.
DécisionIntégrer dans C31 — base de calibration empirique + 4ème source de validation des PlausibilityCase ReproductionCase

Note méthodologique : Données empiriques mesurées sur GPU réels (H100 + B200). Ajoute une 4ème reference au moteur Sobr.ia après EcoLogits, AFNOR/Sobr.ia (interne), et HF AI Energy Score. Finding clé : les modèles raisonnement (chain-of-thought) consomment 10-100× plus que les modèles directs. À intégrer dans M16 Forecaster comme variable d’ajustement.


ChampValeur
ProducteurEpoch AI (think-tank IA / org de recherche)
URL canoniqueepoch.ai/
Dataset modèlesepoch.ai/data/ai-models
CatégorieC — Académique
LicenceCC-BY (libre usage avec attribution)
Compatibilité Sobr.ia✅ Parfaite
Volume~1500 modèles tracés (notable models), training compute + parameters + cost trends
FormatCSV + JSON + dashboard interactif
Authentification❌ Aucune
Fréquence MAJContinue (analyses publiées régulièrement)
FraîcheurTrès frais, publications 2025-2026
Accessibilité techDumps CSV téléchargeables + API
Score valeur Sobr.ia8/10 — métadonnées modèles riches (FLOPs training, paramètres, coût) directement utilisables presets
Score effort intégration4/10 — schéma CSV stable, peut servir pour bulk-load presets M9
Tier proposéTier 2 quick win
RisquesGranularité variable selon modèle ; certains champs vides
DécisionIntégrer dans C31 (enrichir presets comparia et referentiel.sqlite avec FLOPs training, paramètres, dates)

Note méthodologique : EpochAI est devenu THE référence pour les trends de compute IA (training compute × 5/an, doublement tous les 5.2 mois). Citer leurs chiffres dans la doc Sobr.ia renforce la crédibilité scientifique. Le dataset des modèles permet de pré-remplir massivement notre catalogue M9.


🏭 Catégorie D — Cartes modèles industriels

D.S43 — Meta — Llama 3 model cards (training disclosure) ⭐

ChampValeur
ProducteurMeta AI
URL canoniquegithub.com/meta-llama/llama-models
Model card 3.1github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md
Model card 3.3github.com/meta-llama/llama-models/blob/main/models/llama3_3/MODEL_CARD.md
CatégorieD — Industriel international
LicenceModel cards publiques (Llama 3.x Community License)
Compatibilité Sobr.ia✅ Citation + référencement
VolumeModel cards Llama 3 (8B, 70B), 3.1 (8B, 70B, 405B), 3.3 (70B), Llama 4
FormatMarkdown sur GitHub, structure stable
Authentification❌ Aucune
Fréquence MAJÀ chaque release modèle
FraîcheurLlama 3.3 (déc 2024), Llama 4 (2025)
Accessibilité techMarkdown parsing direct
Score valeur Sobr.ia8/10 — chiffres training disclosés (rare), partiel inference
Score effort intégration3/10 — markdown parsing + tableau structuré
Tier proposéTier 2 quick win
RisquesPas de chiffres prompt-level inference (training only)
DécisionIntégrer dans C31 — preset Llama 3.x enrichi avec données training officielles

Chiffres clés Llama 3.x à intégrer :

  • Llama 3 (8B + 70B) : 2 290 tCO₂eq training, 100 % offset par Meta sustainability program.
  • Llama 3.1 : 39.3M GPU hours H100-80GB (TDP 700 W), 11 390 tCO₂eq location-based, 0 tCO₂eq market-based (Meta matche 100 % renouvelables depuis 2020), 15 trillion tokens training.
  • Llama 3.3 (70B) : identique 3.1 pour le training (mise à jour fine-tuning).

Note méthodologique critique : la différence location-based vs market-based est un point pédagogique majeur pour Sobr.ia. Meta affiche “0 tCO₂eq market-based” parce qu’ils achètent des REC (Renewable Energy Certificates) qui matchent leur conso totale annuelle. Mais l’élec consommée localement par les datacenters au moment du training est bien 11 390 tCO₂eq location-based. Sobr.ia doit afficher les deux et expliquer la distinction (sinon greenwashing risk). C’est exactement le type de nuance que notre méthodologie AFNOR/Sobr.ia + EcoLogits combinée peut éclairer.


D.S42 — Anthropic (Claude) — Absence de disclosure officielle ⚠️

ChampValeur
ProducteurAnthropic
URL canoniqueanthropic.com/transparency/voluntary-commitments
CatégorieD — Industriel international
LicenceN/A (pas de disclosure officielle)
Compatibilité Sobr.ia❌ Pas de chiffres officiels à citer
VolumeAucune publication formelle ACV ou GHG protocol Scope 1/2/3 à date
FraîcheurStatut au 2025-Q4 : pas de disclosure officielle
Score valeur Sobr.ia2/10 — absence de données vendor disclosure
Score effort intégrationN/A
Tier proposéSurveiller
DécisionÀ surveiller — pression stakeholder croissante, peut publier 2026. Sobr.ia utilise estimations EcoLogits / AI Energy Score à la place.

Estimations tierces disponibles (à utiliser avec disclaimer “estimation tierce”) :

  • Claude 3 Opus : ~4.05 Wh/requête, 1.80 gCO₂eq/requête
  • Claude 3 Haiku : ~0.22 Wh/requête, 0.10 gCO₂eq/requête

Note méthodologique : L’absence de disclosure officielle Anthropic est elle-même une donnée pour le pitch défi data.gouv.fr. Tableau comparatif vendor disclosure dans Sobr.ia (M9) :

VendorDisclosure officielle prompt-level ?Source
Mistral AI✅ Oui (août 2025, partenariat ADEME)Vendor + ADEME
Google (Gemini)✅ Oui (août 2025)Vendor
Anthropic (Claude)❌ NonEstimations tierces
OpenAI (GPT-4o)❌ NonEstimations tierces
Meta (Llama)⚠️ Partiel (training only)Model cards

Sobr.ia se positionne comme tiers de confiance qui agrège, normalise et présente ces disclosures (et leurs absences) avec leur lineage. Force du pitch défi data.gouv.fr.


D.S41 — Google Gemini — Environmental Impact Disclosure ⭐⭐

ChampValeur
ProducteurGoogle (rapports sustainability + paper technique 2025)
URL canoniqueservices.google.com/fh/files/misc/measuring_the_environmental_impact_of_delivering_ai_at_google_scale.pdf
Blog postcloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference
Rapport annuelsustainability.google/reports/google-2025-environmental-report/
PublicationAoût 2025 (data mai 2025) + rapport sustainability 2025 annuel
CatégorieD — Industriel international
LicencePublication officielle, citation libre
Compatibilité Sobr.ia✅ Citation + référencement
Volume1 modèle (Gemini App text) + données aggrégées datacenters fleet
FormatPDF technique + blog + rapport annuel
Authentification❌ Aucune
Fréquence MAJAnnuelle (rapport sustainability)
FraîcheurAoût 2025, très frais
Accessibilité techPDF parsing manuel (chiffres clés concentrés sur 1-2 pages)
Score valeur Sobr.ia9/102ème vendor mondial (après Mistral) à publier chiffres prompt-level. Différenciateur pitch crucial.
Score effort intégration2/10 — chiffres clés à transcrire dans preset Gemini
Tier proposéTier 1 quick win premium
RisquesMéthodologie Google contestée par certains (cf. “greenwashing or progress” article TDS) ; à présenter avec esprit critique
DécisionIntégrer dans C31 — preset Gemini enrichi + encadré M9 fiche modèle + transparence sur la controverse méthodologique

Note méthodologique : Chiffres clés à intégrer :

  • Prompt médian Gemini Apps text : 0.24 Wh + 0.03 gCO₂eq + 0.26 mL eau (≈ 5 gouttes).
  • Amélioration sur 12 mois : énergie ×33 et carbone ×44 en réduction.
  • Datacenters Google 2024 : 30.8 TWh élec consommée (×2 vs 2020).
  • Scope 1 −8 %, Scope 2 −11 %, Scope 3 +22 % (chaîne d’approvisionnement explose, à mentionner pour honnêteté).

Position critique à conserver : la méthodologie Google retient le “median prompt” qui sous-estime potentiellement les requêtes complexes (raisonnement, agents). Sobr.ia doit afficher ces chiffres avec un avertissement “valeurs vendor, méthodologie Google — pour cross-validation utilisez méthodo AFNOR/EcoLogits”. C’est cohérent avec ADR-0012 multi-méthodologie : « on présente les chiffres vendor, on les met en perspective ».

Comparaison Sobr.ia clé pour pitch :

VendorÉnergie/promptgCO₂eq/promptEau/promptSource
Mistral Large 2 (FR)~2.8 Wh (400 tk)1.14 g (400 tk)ADEME × Mistral
Google Gemini (median)0.24 Wh0.03 g0.26 mLGoogle 2025

L’écart 40× entre Mistral Large 2 et Gemini App n’est pas comparable directement (modèle vs tâche, 400 tokens vs prompt médian, méthodologies différentes). C’est exactement le gap pédagogique que Sobr.ia comble en posant un standard unifié. Argument fort pitch défi data.gouv.fr.


D.S40 — Mistral AI — Environmental Footprint (Large 2) ⭐⭐⭐

ChampValeur
ProducteurMistral AI (Paris) — partenariat ADEME + Carbone 4
URL canoniquemistral.ai/news/our-contribution-to-a-global-environmental-standard-for-ai
PublicationAoût 2025
CatégorieD — Industriel FR
LicencePublication blog, données dans le post (CC-BY de facto pour citation)
Compatibilité Sobr.ia✅ Parfaite (citation + référencement)
Volume1 modèle (Mistral Large 2) avec ACV complet 18 mois
FormatBlog post + chiffres détaillés ; possibilité d’extraire en JSON structuré
Authentification❌ Aucune
Fréquence MAJPremier modèle 2025 ; à étendre à Medium/Small selon Mistral
FraîcheurAoût 2025, données 18 mois jusqu’à janv 2025
Accessibilité techManuelle (parsing blog post) ou scraping ciblé
Score valeur Sobr.ia10/10premier vendor mondial à publier ACV complet, sur un modèle FR, en partenariat ADEME (Etalab compatible)
Score effort intégration2/10 — chiffres déjà publics, ~5 mins de transcription en preset enrichi
Tier proposéTier 1 quick win premium
RisquesAucun
DécisionIntégrer dans C31 immédiatement — enrichir le preset mistral-large-2 avec données ACV réelles (training 20.4 ktCO2, eau 281 000 m³, inference 1.14 gCO2/400 tokens) + citation en M9 fiche modèle

Note méthodologique : Différenciateur majeur pour le pitch défi data.gouv.fr.

  • Production : 11 % GES + 5 % eau
  • Training + inference : 85.5 % GES + 91 % eau
  • 1 requête 400 tokens ≈ 1.14 gCO₂eq (10 secondes de streaming vidéo)
  • Le modèle est FR, l’analyse co-réalisée avec ADEME — narratif parfaitement aligné avec Sobr.ia.

Action C31 : remplacer la valeur générique de notre preset Mistral Large 2 par les valeurs Mistral/ADEME, et afficher dans M9 fiche modèle un encadré “Données ACV vendor (vérifiées ADEME)” qui prime sur notre estimation Monte-Carlo.


♻️ Catégorie E — Carbon-specific + géoloc

E.S30 — Boavizta API (BoaviztAPI)

ChampValeur
ProducteurAssociation Boavizta (FR, open source)
URL canoniqueboavizta.org
API documentationdoc.api.boavizta.org
Code sourcegithub.com/Boavizta/boaviztapi
CatégorieE — Carbon-specific
LicenceCC BY-SA sur les données ; code Apache 2.0
Compatibilité Sobr.ia⚠️ Compatible avec attribution (CC BY-SA), pas de mélange direct avec données MIT-only
VolumeRéférentiel ACV complet : datacenters, networks, terminals, cloud + services numériques
FormatREST API (FastAPI), dumps JSON
Authentification❌ Aucune
Fréquence MAJActive, releases régulières (PyPI)
FraîcheurMaintenu activement (2.0.3 récent)
Accessibilité techAPI publique standard + Python SDK
Score valeur Sobr.ia8/10 — ACV multi-critères complet, complète/concurrence ADEME
Score effort intégration4/10 — API standard, mais attention licence CC BY-SA (attribution traçable)
Tier proposéTier 2 strategic bet
RisquesLicence CC BY-SA implique attribution dans tout dérivé. Documenter le lineage dans le Gold.
Décision📋 Backlog v1.2+ — high value mais nécessite traitement licence soigné, prudent de pas tout intégrer en C31 immédiat

Note méthodologique : Boavizta est l’écosystème FR open source de référence pour l’ACV numérique. La licence CC BY-SA est compatible avec Sobr.ia mais impose un workflow d’attribution (mention explicite dans datasheet Gebru + sidecar PROV-O). On peut l’utiliser pour cross-valider nos chiffres ADEME et fournir une vue alternative dans M9 fiche modèle.


E.S31 — NegaOctet (via Base Empreinte ADEME)

ChampValeur
ProducteurLCIE Bureau Veritas + APL Data Center + GreenIT.fr + DDemain (consortium projet ADEME)
URL canoniquecodde.fr/en/our-brands/negaoctet
URL Base Empreinte (open)base-empreinte.ademe.fr — 50 datasets numériques publiés en open data
CatégorieE — Carbon-specific
LicenceCommerciale complète (licence annuelle dégressive 3 ans puis gratuite) OU 50 datasets en open data ADEME
Compatibilité Sobr.ia✅ Via Base Empreinte ADEME (open) ; ❌ Via licence commerciale directe
Volume500 datasets × 5 niveaux granularité (DB commerciale 15 000 ACV) ; 50 datasets numériques exposés en open via ADEME
FormatILCD EF 3.0 (standard) + CSV (Excel/LibreOffice)
Authentification❌ Pour les 50 open via ADEME
Fréquence MAJAnnuelle
FraîcheurOK (DB active 2025)
Accessibilité techAPI ADEME pour les 50 open ; sinon licence commerciale
Score valeur Sobr.ia7/10 — pour les 50 datasets open (subset suffit pour MVP) ; 9/10 si on accède à la DB complète plus tard
Score effort intégration3/10 — passe par S03 ADEME Base Empreinte déjà identifié
Tier proposéTier 2 (déjà couvert via S03 ADEME)
RisquesAucun sur la portion open
DécisionIntégrer indirectement via S03 ADEME — pas besoin de duplication

Note méthodologique : NegaOctet est techniquement le référentiel sous-jacent à la portion numérique de Base Empreinte. En intégrant S03 (ADEME Base Empreinte), on capture automatiquement les 50 datasets NegaOctet open. La DB complète reste un strategic bet pour v1.x si on veut une granularité plus fine.


E.S34 — ElectricityMaps (revérification) ⚠️

ChampValeur
ProducteurElectricity Maps (entreprise privée DK)
URL APIelectricitymaps.com/free-tier-api
Code open sourcegithub.com/electricitymaps/electricitymaps-contrib (parsers)
CatégorieE — Carbon-specific
LicenceFree tier non-commercial uniquement (carbon intensity gCO₂eq/kWh + power breakdown, 200+ zones, live). Parsers GitHub : open source.
Compatibilité Sobr.ia⚠️ Frontière : Sobr.ia est open-source mais propose une offre cloud managed payante (ADR-0014). Le free tier non-commercial est ambigu pour la portion managed. À clarifier juridiquement.
Volume200+ zones (grid électrique monde), intensité carbone en temps réel + historique
FormatAPI REST JSON
Authentification🔑 API key (free tier disponible non-commercial)
Fréquence MAJTemps réel (refresh ~1h)
FraîcheurLive + 2025 update : retrait du marginal data signal
Accessibilité techAPI moderne + clients Python
Score valeur Sobr.ia8/10 — couverture mondiale temps réel difficilement remplaçable
Score effort intégration4/10 — API simple
Tier proposé⚠️ Watchlist / À clarifier
RisquesLicence non-commercial bloque l’offre cloud managed Sobr.ia (ADR-0014 Phase 5+). Acceptable pour la version self-hosted gratuite.
DécisionSurveiller — utilisable pour version self-hosted seule. Alternative : utiliser leurs parsers GitHub open source pour ré-extraire les données depuis les sources amont (RTE, ENTSO-E, EIA US, etc.) sans passer par l’API ElectricityMaps. C’est ce qu’il faut faire à terme.

Note méthodologique : ElectricityMaps a un modèle freemium qui ne s’aligne pas avec ADR-0014 (notre offre managed serait commerciale). MAIS leur repo GitHub electricitymaps-contrib est open source et contient les parsers vers chaque source amont (RTE en FR, ENTSO-E en EU, EIA en US, etc.). On peut donc soit (a) consommer leur API en self-hosted only, soit (b) réutiliser leurs parsers open source dans notre pipeline médaillon pour aller chercher les données amont nous-mêmes. Option (b) est plus élégante et compatible cloud — à explorer en v1.2+.


E.S33 — Cloud Carbon Footprint (Thoughtworks)

ChampValeur
ProducteurThoughtworks Inc. (open source)
URL canoniquecloudcarbonfootprint.org
Code sourcegithub.com/cloud-carbon-footprint/cloud-carbon-footprint
CatégorieE — Carbon-specific cloud
LicenceApache 2.0 (open source)
Compatibilité Sobr.ia✅ Parfaite (compatible MIT)
VolumeMéthodologie + facteurs émission AWS / GCP / Azure (scope 2 et 3)
FormatTool TypeScript + méthodologie publique markdown
AuthentificationNécessaire pour les APIs cloud (compte AWS / GCP / Azure billing)
Fréquence MAJActive, méthodologie versionnée
FraîcheurMaintenu activement 2025
Accessibilité techCode TS lisible, méthodologie documentée — on n’a PAS besoin de tourner le tool, juste de réutiliser les facteurs PUE + carbon intensity régions cloud
Score valeur Sobr.ia7/10 — facteurs PUE + carbon intensity datacenters cloud par région (utile pour M12 Datacenters Europe et extension internationale)
Score effort intégration3/10 — extraction des constantes depuis méthodologie publique, pas besoin d’intégrer le tool
Tier proposéTier 2 quick win
RisquesAucun (Apache 2.0)
DécisionIntégrer dans C31 — extraction des facteurs PUE + carbon intensity régions cloud pour enrichir datacenter_iris_link Gold

Note méthodologique : CCF est un projet sérieux qui maintient à jour les PUE constatés AWS/GCP/Azure par région, plus les facteurs grid carbon intensity correspondants. Plutôt que d’intégrer le tool entier, on extrait juste les constantes (~50-100 valeurs) dans une table SQLite Sobr.ia. Permet à M12 de calculer correctement l’empreinte d’un datacenter Azure West Europe vs AWS eu-west-1 sans estimation approximative.


E.S32 — The Shift Project — Rapports IA et numérique ⭐

ChampValeur
ProducteurThe Shift Project (think-tank carbone FR)
URL canoniquetheshiftproject.org/en/thematics/digital/
Rapport intermédiaire IA 2025theshiftproject.org/…/2025_03_06-TSP-Rapport-intermediaire-IA-quelles-infra-num-monde-decarbone.pdf
CatégorieE — Carbon-specific (études et projections)
LicencePublication publique, citation autorisée
Compatibilité Sobr.ia✅ Pour citations + projections
VolumeRapport intermédiaire 2025 + multiples publications IA depuis
FormatPDF + tables chiffrées dans les rapports
Authentification❌ Aucune
Fréquence MAJPlusieurs publications par an
FraîcheurTrès frais (rapport mars 2025, IA gé focus)
Accessibilité techPDF parsing manuel ou extraction tables
Score valeur Sobr.ia8/10 — chiffres référence pour M16 Forecaster (projection 2030) + narratif pitch
Score effort intégration3/10 — extraction de quelques valeurs clés, pas un ingest massif
Tier proposéTier 2 quick win (citation + valeurs clés)
RisquesAucun
DécisionIntégrer dans C31 — valeurs clés en referentiel.sqlite table external_projections, citation dans M16 Forecaster + datasheet

Note méthodologique : Données clés à intégrer dans le Forecaster M16 et le datasheet :

  • Datacenters mondiaux : doublement à quadruplement empreinte carbone d’ici 2030 → 920 MtCO₂eq/an (2× émissions FR).
  • Consommation élec datacenters 2030 : 1 250 à 1 500 TWh (× 2.3 à 2.8 en 7 ans).
  • Part IA dans conso datacenters : 15 % en 2025 → 55 % en 2030.
  • Modèles IA générative consomment 50 à 25 000 × plus que les modèles classiques.

Ces chiffres positionnent Sobr.ia dans une trajectoire critique et donnent au pitch une dimension prospective. Citer Shift Project dans le M16 (“voici la trajectoire si rien ne change, voici votre contribution personnelle”) = impact pédagogique majeur.


📊 Matrice de priorisation (19 sources évaluées)

            Effort faible                  Effort élevé
          ┌──────────────────────────┬──────────────────────────┐
Valeur    │ QUICK WINS               │ STRATEGIC BETS           │
très éle. │ • ⭐⭐⭐ Mistral × ADEME  │                          │
(9-10/10) │ • ⭐⭐ Google Gemini      │                          │
          │ • ⭐⭐ IEA Energy and AI │                          │
          │ • ADEME Base Empreinte   │                          │
          │ • HF AI Energy Score     │                          │
          │ • ML.ENERGY v3.0         │                          │
          │ • Meta Llama 3.x cards   │                          │
          │ • ARCEP édition 2025     │                          │
          ├──────────────────────────┼──────────────────────────┤
Valeur    │ • EpochAI Models         │ • ENTSO-E (API key + XML)│
élevée    │ • ODRE complémentaire    │ • Boavizta API (CC BY-SA)│
(7-8/10)  │ • Shift Project (cit.)   │                          │
          │ • Cloud Carbon Footprint │                          │
          ├──────────────────────────┼──────────────────────────┤
Valeur    │ • LMSYS / LMArena        │ • MLPerf Power v6.0      │
moyenne   │ • NegaOctet (via S03)    │                          │
(5-6/10)  │                          │                          │
          ├──────────────────────────┴──────────────────────────┤
Watchlist │ ⚠️ ElectricityMaps (free tier non-commercial)       │
& Skip    │ ⏸ Anthropic Claude (pas de disclosure officielle)   │
          └─────────────────────────────────────────────────────┘

📋 Roadmap d’intégration recommandée (mise à jour batch 2)

PrioritéSourceEffort estiméValeur attendue
1Mistral × ADEME ACV Large 20.5 jDonnées vendor réelles dans preset + encadré M9 fiche modèle
2Google Gemini Environmental Disclosure0.5 jDonnées vendor Gemini + encadré M9 + table comparaison vendors
3Meta Llama 3.x model cards0.5 jTraining disclosure + distinction location/market-based
4ADEME Base Empreinte (API)1.5 jRemplacement constantes facteurs émission par sources officielles FR
5ML.ENERGY Benchmark v3.01 jCalibration empirique GPU + 4ème reference moteur
6IEA Energy and AI 20250.5 jCitation référence internationale M16 Forecaster + datasheet
7HF AI Energy Score1 jMapping score externe ↔ A-F Sobr.ia
8EpochAI Models dataset1 jBulk-load presets modèles riche (FLOPs, params, dates)
9ODRE complémentaire (4 sous-datasets)1.5 jGranularité mix élec FR horaire + régional + EPCI
10ARCEP édition 2025 (parse PDF)0.5 jCitation officielle datacenters FR
11Shift Project — projections 20300.5 jCitation M16 Forecaster + datasheet
12Cloud Carbon Footprint (extraction PUE)1 jFacteurs PUE + carbon intensity cloud par région
Total C31 v1.1~10 j
13ENTSO-E Transparency Platform2 j (API key + XML)v1.2+ — extension Europe
14Boavizta API2 j (avec attribution)v1.2+ — cross-validation ACV
15MLPerf Power v6.02 jv1.2+ — vue hardware-grade M9
16LMSYS / LMArena rankings1 jv1.2+ — tradeoff qualité × empreinte M9
17ARCEP édition 2026 (dès publication)1 jÀ surveiller
18ElectricityMaps parsers GitHub (alternative)2 jv1.2+ — internationalisation sans dep API freemium
19NegaOctetCouvert via S03 (pas duplication)

🔜 À suivre (prochain batch)

Couvert dans cette session (batch 1+2+3 partiel) — 16 sources :

  • ✅ Cat. A : ADEME, ARCEP, ODRE (+ 4 sous-datasets)
  • ✅ Cat. B : ENTSO-E, IEA Energy and AI
  • ✅ Cat. C : HF AI Energy Score, MLPerf Power, EpochAI
  • ✅ Cat. D : Mistral × ADEME, Google Gemini
  • ✅ Cat. E : Boavizta, NegaOctet, Shift Project, Cloud Carbon Footprint, ElectricityMaps (watchlist)

À faire dans une prochaine session (batch 4) :

  • Cat. A complément : INSEE Sirene, IGN BD TOPO, CNIL études IA, ANCT, DataESR, BPI, data.gouv.fr search par mots-clés supplémentaires
  • Cat. B complément : Eurostat, EEA, OWID, JRC, IRENA, World Bank, OECD.Stat, Climate TRACE
  • Cat. C complément : HELM Stanford, LMSYS Chatbot Arena, ML.Energy leaderboard, MLPerf inference detailed, Papers With Code
  • Cat. D restant : Anthropic Claude 3.5 (sustainability section), OpenAI GPT-4o (probable absence model card), Meta Llama 3.3 / 4, Cohere, xAI, DeepSeek, Alibaba Qwen, Microsoft Phi
  • Cat. E complément : WattTime, Carbon Disclosure Project, Boavizta côté CC BY-SA détaillé
  • Synthèse finale 1 page jury data.gouv.fr (à condenser à partir de la synthèse exécutive enrichie)
  • Skeleton brief C31-integration-tier2-datasets.md avec découpage en sous-chantiers concrets

Estimation reste : 2-3 heures de search + édition pour 15-20 sources supplémentaires + finalisation. Réalisable en 1-2 sessions.


Annexes

A. Sources rejetées (préliminaire)

À constituer au fil du batch suivant. Critères de rejet :

  • Paywall ou compte payant obligatoire
  • Licence non compatible (proprio fermée)
  • Hors périmètre Sobr.ia (impact environnemental IA générative)
  • Données obsolètes (> 5 ans sans MAJ)

B. Veille à mener (sources émergentes)

  • Sénat — Commission empreinte environnementale IA (lancée 10 déc 2025) — surveiller publications 2026.
  • Mistral AI publication empreinte (juillet 2025) — premier vendor à publier, “AI Nutri-Score” — à intégrer comme model card Cat. D.
  • DataESR (recherche IA FR) — à explorer.