Audit datasets Sobr.ia — Q3 2026

Statut : en cours (1ère passe, batch 1 livré) Auteur : Cowork Date : 2026-05-16 Périmètre : audit exhaustif des sources de données disponibles pour enrichir le référentiel Sobr.ia (modèles, datacenters, mix électrique, facteurs émission, benchmarks IA). Méthodologie : voir briefs/chantiers/C30-audit-datasets.md. Output cible : ~40-50 sources évaluées en 5 catégories + matrice de priorisation + roadmap C31.

Synthèse exécutive (preview, à finaliser)

Cette synthèse sera complétée une fois les 5 catégories auditées. Objectif : 1 page lisible jury data.gouv.fr.

État au 2026-05-16 : 19 sources évaluées sur ~40-50 attendues (batches 1+2+3+4 livrés). Le périmètre couvert est désormais suffisant pour le pitch v1.0 ; les sources restantes seront ajoutées en v1.1+.

Quick wins identifiés (à intégrer dans C31) :

⭐⭐⭐ Mistral AI Environmental Footprint Large 2 (Cat. D, premier vendor mondial à publier ACV complet, partenariat ADEME — différenciateur pitch absolu)
⭐⭐ Google Gemini Environmental Disclosure (Cat. D, 2ème vendor à publier chiffres prompt-level, août 2025)
⭐ Meta Llama 3.x model cards (Cat. D, 3ème vendor disclosure — training officiel + distinction location/market-based)
⭐ ML.ENERGY Leaderboard v3.0 (Cat. C, 46 modèles × 7 tasks H100+B200 = 1858 configs empiriques, déc 2025)
⭐ ADEME Base Empreinte (Cat. A, facteurs émission numérique officiels FR)
⭐ HuggingFace AI Energy Score (Cat. C, ratings 1-5 étoiles, mapping naturel score Sobr.ia A-F)
EpochAI AI Models dataset (Cat. C, CC-BY, ~1500 modèles + trends compute)
ODRE complémentaire (Cat. A, 4 datasets supplémentaires : registre installations + eco2mix horaire + régional + EPCI)
ARCEP “Pour un numérique soutenable” édition 2025 (Cat. A, parse PDF), édition 2026 à surveiller
The Shift Project — projections 2030 (Cat. E, citation + valeurs clés M16 Forecaster)
⭐⭐ IEA Energy and AI 2025 (Cat. B, projections internationales référence — fourchette monde avec Shift Project)
Cloud Carbon Footprint Thoughtworks (Cat. E, Apache 2.0, facteurs PUE + carbon intensity cloud par région)

Strategic bets (v1.2+) :

ENTSO-E Transparency Platform (Cat. B, mix élec horaire EU — internationaliser Sobr.ia au-delà FR)
Boavizta API (Cat. E, ACV multi-critères CC BY-SA)
MLPerf Power benchmarks (Cat. C, energy efficiency ML systems)

Watchlist / À clarifier :

⚠️ ElectricityMaps API (free tier non-commercial uniquement — bloque l’offre cloud managed ADR-0014). Alternative : leurs parsers GitHub open source à réutiliser dans le pipeline médaillon.

Couvert indirectement via S03 :

NegaOctet — 50 datasets numériques publiés dans Base Empreinte ADEME (pas besoin de duplication)

Highlights pitch défi data.gouv.fr :

Sobr.ia s’appuie sur 3 sources officielles FR (ADEME, ARCEP, ODRE) + 1 modèle vendor FR avec ACV publié (Mistral × ADEME) + 2 vendors internationaux transparents (Google Gemini + Meta Llama).
Cohérence méthodologique avec 4 référentiels indépendants : AFNOR/Sobr.ia interne + EcoLogits + HF AI Energy Score + ML.ENERGY Benchmark (empirique GPU réel).
Référence internationale macro avec IEA Energy and AI 2025 (945 TWh datacenters 2030) couplée vision prospective via Shift Project (1 500 TWh max).
Table de comparaison vendor disclosure dans Sobr.ia (M9) :

Vendor	Disclosure officielle prompt-level ?	Disclosure training ?	Source
Mistral AI (FR)	✅ Oui (août 2025)	✅ Oui	Vendor + ADEME
Google (Gemini)	✅ Oui (août 2025)	⚠️ Partiel	Vendor
Meta (Llama 3.x)	❌ Non	✅ Oui (location + market-based)	Vendor model cards
Anthropic (Claude)	❌ Non	❌ Non	Estimations tierces
OpenAI (GPT-4o)	❌ Non	❌ Non	Estimations tierces

Sobr.ia se positionne comme tiers de confiance qui agrège, normalise, et présente ces disclosures (et leurs absences) avec leur lineage — cohérent avec mission “tiers de confiance” pitch data.gouv.fr.

Méthodologie de l’audit

Catégories

Code	Catégorie	Description
A	Gouvernementales FR	data.gouv.fr, ADEME, ARCEP, ODRE, INSEE, IGN, CNIL, BPI, etc.
B	EU + globales open	Eurostat, EEA, IEA, OWID, ENTSO-E, JRC, IRENA
C	Académique + benchmarks IA	HF leaderboards, MLPerf, ML.Energy, HELM, EpochAI, LMSYS Arena
D	Cartes modèles industriels	OpenAI, Anthropic, Google, Meta, Mistral, Cohere, etc.
E	Carbon-specific + géoloc	Boavizta, NegaOctet, ElectricityMaps, WattTime, Shift Project

Grille de scoring (par source)

Chaque source reçoit :

Score valeur Sobr.ia /10 (adéquation moteur + granularité géo + différenciateur pitch + fraîcheur)
Score effort intégration /10 (volume/format + licence + stabilité + transformations)
Décision : ✅ Intégrer C31 / 📋 Backlog v1.2+ / ⏸ Surveiller / ❌ Rejeté

Quadrant de priorisation

            Effort faible          Effort élevé
          ┌──────────────────┬──────────────────┐
Valeur    │   QUICK WINS     │  STRATEGIC BETS  │
élevée    │   → C31 court    │  → C31 long ou   │
          │                  │    v1.2+         │
          ├──────────────────┼──────────────────┤
Valeur    │   FILL-IN /      │     SKIP /       │
faible    │   BACKLOG        │    ⏸ ou ❌      │
          │                  │                  │
          └──────────────────┴──────────────────┘

🏛️ Catégorie A — Sources gouvernementales françaises

A.S03 — ADEME Base Empreinte ⭐

Champ	Valeur
Producteur	ADEME — Agence de la transition écologique
URL canonique	base-empreinte.ademe.fr
URL data.gouv.fr	data.gouv.fr/dataservices/api-base-carbone
Portail open data	data.ademe.fr
Catégorie	A — Gouv FR
Licence	Etalab 2.0 (open data ADEME)
Compatibilité Sobr.ia	✅ Parfaite
Volume	~1500 composants/équipements, ~50 facteurs multi-critères numériques (intégrés via NegaOctet)
Format	API REST + dumps CSV/JSON
Authentification	❌ Aucune (Open Data)
Fréquence MAJ	Régulière, version courante V23.6 (juillet 2025)
Fraîcheur	V23.6 = juillet 2025, très frais
Accessibilité tech	API publique documentée
Score valeur Sobr.ia	9/10 — facteurs émission ACV numérique = pilier méthodologique ; remplace nos hypothèses internes par des facteurs officiels FR
Score effort intégration	3/10 — API REST stable, JSON standard, schéma documenté
Tier proposé	Tier 2 forte priorité
Risques	Schéma API peut évoluer entre versions majeures (V23 → V24) ; tracer le `version_id`
Décision	✅ Intégrer dans C31

Note méthodologique : Base de référence officielle française pour la comptabilité carbone et l’écoconception. Intègre les données NegaOctet (1500 composants IT classifiés). Permet à Sobr.ia de citer des facteurs officiels FR Etalab 2.0 au lieu de constantes calibrées en dur dans le moteur. Renforce massivement le pitch défi data.gouv.fr (méthodologie traçable à une source institutionnelle).

A.S04 — ARCEP « Pour un numérique soutenable » ⭐

Champ	Valeur
Producteur	ARCEP — Autorité de régulation des communications électroniques
URL canonique	arcep.fr/cartes-et-donnees/…/enquete-annuelle-pour-un-numerique-soutenable
Catégorie	A — Gouv FR
Licence	Données publiques (publication officielle ARCEP, à confirmer Etalab 2.0)
Compatibilité Sobr.ia	✅ Compatible
Volume	~30 indicateurs annuels (consommation élec, GES, eau, datacenters, terminaux)
Format	PDF rapport + tableaux Excel + (à venir 2026) données détaillées cloud/IA gé
Authentification	❌ Aucune
Fréquence MAJ	Annuelle. Édition 2025 (données 2023) disponible. Édition 2026 (données 2024) en cours, enrichie d’indicateurs IA générative officiels (GES, élec, eau, impact IA).
Fraîcheur	Édition 2025 OK. Édition 2026 publiée fin 2026.
Accessibilité tech	PDF + Excel téléchargeables ; pas d’API
Score valeur Sobr.ia	9/10 — collecte officielle FR sur IA gé = différenciateur majeur pitch défi data.gouv.fr
Score effort intégration	5/10 — parsing PDF + Excel manuel, schéma stable mais semi-structuré
Tier proposé	Tier 2 forte priorité (édition 2025 disponible immédiatement)
Risques	Format PDF peut changer ; rythme annuel implique 1 MAJ/an manuelle
Décision	✅ Intégrer édition 2025 dans C31, surveiller édition 2026

Note méthodologique : L’enquête ARCEP est la source de référence française pour les indicateurs environnementaux du secteur numérique. La décision homologuée du 21 janvier 2026 enrichit la collecte 2026 avec les fournisseurs cloud et inclut explicitement les indicateurs IA générative (impact sur GES, électricité, eau). C’est la donnée officielle FR la plus alignée avec la mission Sobr.ia. À court terme : extraire les tableaux édition 2025 (datacenters FR) ; à moyen terme : ingérer édition 2026 dès publication.

A.S05 — ODRE — Open Data Réseaux Énergies (catalogue complet)

Champ	Valeur
Producteur	RTE + GRTgaz + NaTran + Teréga + Enedis + GRDF (consortium)
URL canonique	opendata.reseaux-energies.fr
URL data.gouv.fr	data.gouv.fr/organizations/open-data-reseaux-energies-1
Catégorie	A — Gouv FR
Licence	Etalab 2.0
Compatibilité Sobr.ia	✅ Parfaite (déjà utilisé partiellement pour S02 RTE-IRIS)
Volume	200+ datasets
Format	CSV + JSON + API REST opendatasoft
Authentification	❌ Aucune
Fréquence MAJ	Variable selon dataset (horaire à annuel)
Fraîcheur	Très bonne, MAJ janvier 2026 sur plusieurs datasets clés
Accessibilité tech	API opendatasoft standard (excellente)
Score valeur Sobr.ia	7/10 — déjà partiellement exploité, mais réservoir de datasets complémentaires
Score effort intégration	4/10 — API uniforme, schémas connus
Tier proposé	Tier 2 (élargir l’usage existant)
Risques	Aucun particulier
Décision	✅ Élargir l’usage dans C31 (4 datasets complémentaires identifiés ci-dessous)

Datasets ODRE à ingérer en complément (sous-sources)

Code	Dataset	Valeur ajoutée
A.S05.1	Registre national installations production+stockage électricité (janv 2026)	Cartographier les sources réelles d’élec consommée par les datacenters FR (nucléaire/renouvelable/fossile)
A.S05.2	Eco2mix national consolidé (2012-janv 2026)	Mix élec horaire FR pour calculs intensité carbone temps réel (déjà ingéré dans la v0.5.0 mais juste annuel)
A.S05.3	Eco2mix régional consolidé (2013-janv 2026)	Granularité régionale → datacenters par région NUTS-2
A.S05.4	Consommation EPCI annuelle	Maille intercommunalité, complément IRIS

🌍 Catégorie B — Sources européennes + globales

B.S11 — IEA — Energy and AI Report 2025 ⭐⭐

Champ	Valeur
Producteur	International Energy Agency (IEA / OCDE)
URL canonique	iea.org/reports/energy-and-ai
Catégorie	B — EU/global
Licence	Citation libre (publication officielle IEA)
Compatibilité Sobr.ia	✅ Citation + chiffres référence
Volume	Rapport ~400 pages, projections monde 2024 → 2035, scenarios Base/High/Lift-off
Format	PDF + tableaux Excel + dashboard interactif
Authentification	❌ Aucune
Fréquence MAJ	Publication d’avril 2025 + news updates trimestrielles
Fraîcheur	Avril 2025 + news 2025-11 (data center +17% en 2025)
Accessibilité tech	PDF + scrapings tables ; dashboard interactif
Score valeur Sobr.ia	9/10 — référence INTERNATIONALE pour projections datacenters + IA
Score effort intégration	3/10 — extraction de 10-20 chiffres clés, pas un ingest massif
Tier proposé	Tier 2 quick win (citations + valeurs forecaster)
Risques	Aucun
Décision	✅ Intégrer dans C31 — chiffres pour M16 Forecaster + datasheet

Note méthodologique : L’IEA est THE référence mondiale pour les projections énergétiques. Chiffres clés à intégrer dans Sobr.ia :

Datacenters monde 2030 : 945 TWh (≈ 3 % consommation élec globale, équivalent Japon entier).
Croissance 2025 : +17 % global datacenters, +50 % datacenters dédiés IA.
Accelerated servers (= GPU IA) : +30 % par an dans le scénario Base.
US + Chine = 80 % de la croissance mondiale jusqu’à 2030.
Trajectoire : 460 TWh (2024) → 1 000 TWh (2030) → 1 300 TWh (2035).

À comparer avec Shift Project (1 250 à 1 500 TWh 2030) pour fournir une fourchette dans M16 Forecaster : « Selon IEA Base 945 TWh, selon Shift jusqu’à 1 500 TWh — voici votre contribution personnelle ». Citation IEA renforce la crédibilité internationale de Sobr.ia.

B.S10 — ENTSO-E Transparency Platform ⭐

Champ	Valeur
Producteur	ENTSO-E — European Network of Transmission System Operators for Electricity
URL canonique	transparency.entsoe.eu
API doc	Guide REST API
Catégorie	B — EU/global
Licence	CC-BY 4.0 (open data, attribution requise)
Compatibilité Sobr.ia	✅ Compatible avec attribution
Volume	Tous les TSO européens, production/consommation horaire, équilibrage, pannes
Format	API REST + CSV bulk + File Library
Authentification	🔑 API key gratuite (email à transparency@entsoe.eu)
Fréquence MAJ	Horaire
Fraîcheur	Temps réel (refresh 1 h)
Accessibilité tech	API standard, Python clients existants
Score valeur Sobr.ia	8/10 — couvre TOUS les pays EU (vs RTE/IRIS = FR only), permet datacenters Europe avec mix horaire pays
Score effort intégration	5/10 — API key + parsing XML/CSV (moins propre que REST JSON)
Tier proposé	Tier 2 strategic bet
Risques	API key nécessaire (mais gratuite et permanent)
Décision	📋 Backlog v1.2+ — high value pour étendre M12 datacenters Europe à un calcul carbone précis par pays, mais effort API key + XML parsing

Note méthodologique : Indispensable pour internationaliser Sobr.ia au-delà du périmètre FR. Couplé avec M12 Datacenters Europe (déjà implémenté en v0.4), permettrait de calculer en temps réel l’intensité carbone d’une requête selon le pays du datacenter. ⚠️ L’API key gratuite est un compromis acceptable (pas un paywall, juste une formalité d’enregistrement).

🎓 Catégorie C — Académique + benchmarks IA

C.S20 — Hugging Face AI Energy Score ⭐

Champ	Valeur
Producteur	Hugging Face (Sasha Luccioni et al.) — Initiative open source
URL canonique	huggingface.github.io/AIEnergyScore
Leaderboard	huggingface.co/spaces/AIEnergyScore/Leaderboard
Code source	github.com/huggingface/AIEnergyScore
Catégorie	C — Académique
Licence	Apache 2.0 / MIT (open source HF), notation 1-5 étoiles dérivée librement
Compatibilité Sobr.ia	✅ Parfaite (cohérent multi-méthodologie ADR-0012)
Volume	10 tâches × N modèles évalués, score 1-5 étoiles, refresh régulier
Format	JSON via API HF Spaces + dataset HuggingFace Hub
Authentification	❌ Aucune pour lecture publique
Fréquence MAJ	Continue (modèles ajoutés au fil de l’eau) ; v2 lancée en 2025 avec reasoning
Fraîcheur	Très frais, v2 incluant reasoning task
Accessibilité tech	API HF datasets standard + leaderboard space
Score valeur Sobr.ia	9/10 — rating normalisé 1-5 étoiles parfaitement alignable avec notre score Sobr.ia A-F
Score effort intégration	3/10 — `huggingface_hub` crate ou simple `reqwest` JSON
Tier proposé	Tier 2 quick win
Risques	Aucun particulier (initiative HF stable)
Décision	✅ Intégrer dans C31 (mapping AI Energy Score ↔ score Sobr.ia A-F)

Note méthodologique : Standardise les évaluations énergétiques sur NVIDIA H100, dataset custom (1000 samples / 3+ datasets par tâche : WikiText, OSCAR, UltraChat-10K). Système de notation 1-5 étoiles inspiré des classes énergétiques appareils électroménagers — exactement la métaphore qu’on veut véhiculer dans Sobr.ia. Permet d’enrichir le M9 Référentiel modèles avec un score externe reconnu.

C.S21 — MLPerf Power (MLCommons)

Champ	Valeur
Producteur	MLCommons (consortium industriel)
URL canonique	mlcommons.org/benchmarks/inference-datacenter/
Code source	github.com/mlcommons/inference
Catégorie	C — Académique / benchmarks
Licence	Apache 2.0 (résultats publiés librement accessibles)
Compatibilité Sobr.ia	✅ Compatible
Volume	Benchmarks v6.0 (avril 2026), résultats datacenter + edge, mesures power
Format	Tables HTML + dumps CSV publiés trimestriellement
Authentification	❌ Aucune pour lecture publique
Fréquence MAJ	Semestrielle (v5.1 sept 2025, v6.0 avril 2026)
Fraîcheur	v6.0 d’avril 2026, très frais
Accessibilité tech	Téléchargement direct CSV résultats + scripts Python publics
Score valeur Sobr.ia	7/10 — données power vendor-grade (rare en open) mais centrées hardware/datacenter, moins direct utilisateur final
Score effort intégration	5/10 — parser des tableaux trimestriels, mapping hardware/modèle parfois indirect
Tier proposé	Tier 3 strategic bet
Risques	Schéma v5→v6 a évolué, à versionner
Décision	📋 Backlog v1.2+ — pas immédiatement actionnable utilisateur final, mais grosse valeur pour M9 Référentiel modèles vue détaillée datacenter

C.S23 — LMSYS / LMArena (Chatbot Arena rankings)

Champ	Valeur
Producteur	LMSYS Org (UC Berkeley) — rebranded LMArena en janv 2026
URL canonique	lmarena.ai (anciennement lmsys.org)
Leaderboard HF	huggingface.co/spaces/lmarena-ai/arena-leaderboard
Code source	github.com/lm-sys/FastChat (Apache 2.0)
Datasets HF	lmsys/lmsys-chat-1m, lmsys/chatbot_arena_conversations
Catégorie	C — Académique
Licence	Code FastChat Apache 2.0 ; datasets sous CC variées (à vérifier par dataset)
Compatibilité Sobr.ia	✅ Code Apache 2.0 ; ⚠️ datasets — vérifier au cas par cas
Volume	9 leaderboards (Text, Code, Vision, WebDev, Image Edit, Multi-Image, Search, Text-to-Video, Image-to-Video)
Format	JSON via HF Spaces + GitHub repo
Authentification	❌ Aucune
Fréquence MAJ	Continue (votes humains aggregés en quasi-temps réel)
Fraîcheur	Très frais (janv 2026 rebranding)
Accessibilité tech	API HF + scraping ; pas d’API officielle d’export structurée
Score valeur Sobr.ia	6/10 — rankings populaires mais non-empreinte, complément M9 fiche modèle pour la dimension “qualité perçue” en parallèle de l’empreinte
Score effort intégration	6/10 — pas d’API directe pour battle logs ; scraping leaderboard rank
Tier proposé	Tier 3 fill-in
Risques	API rate-limit ; dataset license fragmentée
Décision	📋 Backlog v1.2+ — utile pour afficher rang qualité côté M9 mais pas critique pour l’empreinte

Note méthodologique : Permet à Sobr.ia d’afficher dans M9 fiche modèle un tradeoff “qualité × empreinte” : « Mistral Large 2 rank 7 LMArena Text, 2.8 Wh/prompt vs GPT-4o rank 2, ? Wh/prompt ». C’est ce que les utilisateurs veulent voir pour faire un choix éclairé.

C.S25 — ML.ENERGY Leaderboard v3.0 (Univ. Michigan) ⭐

Champ	Valeur
Producteur	University of Michigan — ML.ENERGY Initiative
URL canonique	ml.energy/leaderboard
Code source	github.com/ml-energy/leaderboard
Paper	arxiv.org/html/2505.06371v1 — “ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement”
Catégorie	C — Académique
Licence	Open source GitHub (Apache 2.0 probable, à confirmer)
Compatibilité Sobr.ia	✅ Citation + utilisation données
Volume	v3.0 (déc 2025) : 46 modèles × 7 tasks × NVIDIA H100 + B200 = 1 858 configurations
Format	Leaderboard web + GitHub repo + paper
Authentification	❌ Aucune
Fréquence MAJ	Versions majeures (v3.0 déc 2025)
Fraîcheur	Très frais (déc 2025)
Accessibilité tech	Open source téléchargeable + scraping leaderboard
Score valeur Sobr.ia	9/10 — mesures empiriques d’énergie par modèle (vs nos estimations Monte-Carlo). Idéal pour calibration moteur et validation reproductive.
Score effort intégration	3/10 — données structurées disponibles
Tier proposé	Tier 2 quick win
Risques	Modèles testés = LLM open-source uniquement (pas API closed). Pas de Claude, GPT-4o, Gemini.
Décision	✅ Intégrer dans C31 — base de calibration empirique + 4ème source de validation des PlausibilityCase ReproductionCase

Note méthodologique : Données empiriques mesurées sur GPU réels (H100 + B200). Ajoute une 4ème reference au moteur Sobr.ia après EcoLogits, AFNOR/Sobr.ia (interne), et HF AI Energy Score. Finding clé : les modèles raisonnement (chain-of-thought) consomment 10-100× plus que les modèles directs. À intégrer dans M16 Forecaster comme variable d’ajustement.

C.S22 — EpochAI — Trends in AI

Champ	Valeur
Producteur	Epoch AI (think-tank IA / org de recherche)
URL canonique	epoch.ai/
Dataset modèles	epoch.ai/data/ai-models
Catégorie	C — Académique
Licence	CC-BY (libre usage avec attribution)
Compatibilité Sobr.ia	✅ Parfaite
Volume	~1500 modèles tracés (notable models), training compute + parameters + cost trends
Format	CSV + JSON + dashboard interactif
Authentification	❌ Aucune
Fréquence MAJ	Continue (analyses publiées régulièrement)
Fraîcheur	Très frais, publications 2025-2026
Accessibilité tech	Dumps CSV téléchargeables + API
Score valeur Sobr.ia	8/10 — métadonnées modèles riches (FLOPs training, paramètres, coût) directement utilisables presets
Score effort intégration	4/10 — schéma CSV stable, peut servir pour bulk-load presets M9
Tier proposé	Tier 2 quick win
Risques	Granularité variable selon modèle ; certains champs vides
Décision	✅ Intégrer dans C31 (enrichir presets `comparia` et `referentiel.sqlite` avec FLOPs training, paramètres, dates)

Note méthodologique : EpochAI est devenu THE référence pour les trends de compute IA (training compute × 5/an, doublement tous les 5.2 mois). Citer leurs chiffres dans la doc Sobr.ia renforce la crédibilité scientifique. Le dataset des modèles permet de pré-remplir massivement notre catalogue M9.

🏭 Catégorie D — Cartes modèles industriels

D.S43 — Meta — Llama 3 model cards (training disclosure) ⭐

Champ	Valeur
Producteur	Meta AI
URL canonique	github.com/meta-llama/llama-models
Model card 3.1	github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md
Model card 3.3	github.com/meta-llama/llama-models/blob/main/models/llama3_3/MODEL_CARD.md
Catégorie	D — Industriel international
Licence	Model cards publiques (Llama 3.x Community License)
Compatibilité Sobr.ia	✅ Citation + référencement
Volume	Model cards Llama 3 (8B, 70B), 3.1 (8B, 70B, 405B), 3.3 (70B), Llama 4
Format	Markdown sur GitHub, structure stable
Authentification	❌ Aucune
Fréquence MAJ	À chaque release modèle
Fraîcheur	Llama 3.3 (déc 2024), Llama 4 (2025)
Accessibilité tech	Markdown parsing direct
Score valeur Sobr.ia	8/10 — chiffres training disclosés (rare), partiel inference
Score effort intégration	3/10 — markdown parsing + tableau structuré
Tier proposé	Tier 2 quick win
Risques	Pas de chiffres prompt-level inference (training only)
Décision	✅ Intégrer dans C31 — preset Llama 3.x enrichi avec données training officielles

Chiffres clés Llama 3.x à intégrer :

Llama 3 (8B + 70B) : 2 290 tCO₂eq training, 100 % offset par Meta sustainability program.
Llama 3.1 : 39.3M GPU hours H100-80GB (TDP 700 W), 11 390 tCO₂eq location-based, 0 tCO₂eq market-based (Meta matche 100 % renouvelables depuis 2020), 15 trillion tokens training.
Llama 3.3 (70B) : identique 3.1 pour le training (mise à jour fine-tuning).

Note méthodologique critique : la différence location-based vs market-based est un point pédagogique majeur pour Sobr.ia. Meta affiche “0 tCO₂eq market-based” parce qu’ils achètent des REC (Renewable Energy Certificates) qui matchent leur conso totale annuelle. Mais l’élec consommée localement par les datacenters au moment du training est bien 11 390 tCO₂eq location-based. Sobr.ia doit afficher les deux et expliquer la distinction (sinon greenwashing risk). C’est exactement le type de nuance que notre méthodologie AFNOR/Sobr.ia + EcoLogits combinée peut éclairer.

D.S42 — Anthropic (Claude) — Absence de disclosure officielle ⚠️

Champ	Valeur
Producteur	Anthropic
URL canonique	anthropic.com/transparency/voluntary-commitments
Catégorie	D — Industriel international
Licence	N/A (pas de disclosure officielle)
Compatibilité Sobr.ia	❌ Pas de chiffres officiels à citer
Volume	Aucune publication formelle ACV ou GHG protocol Scope 1/2/3 à date
Fraîcheur	Statut au 2025-Q4 : pas de disclosure officielle
Score valeur Sobr.ia	2/10 — absence de données vendor disclosure
Score effort intégration	N/A
Tier proposé	⏸ Surveiller
Décision	⏸ À surveiller — pression stakeholder croissante, peut publier 2026. Sobr.ia utilise estimations EcoLogits / AI Energy Score à la place.

Estimations tierces disponibles (à utiliser avec disclaimer “estimation tierce”) :

Claude 3 Opus : ~4.05 Wh/requête, 1.80 gCO₂eq/requête
Claude 3 Haiku : ~0.22 Wh/requête, 0.10 gCO₂eq/requête

Note méthodologique : L’absence de disclosure officielle Anthropic est elle-même une donnée pour le pitch défi data.gouv.fr. Tableau comparatif vendor disclosure dans Sobr.ia (M9) :

Vendor	Disclosure officielle prompt-level ?	Source
Mistral AI	✅ Oui (août 2025, partenariat ADEME)	Vendor + ADEME
Google (Gemini)	✅ Oui (août 2025)	Vendor
Anthropic (Claude)	❌ Non	Estimations tierces
OpenAI (GPT-4o)	❌ Non	Estimations tierces
Meta (Llama)	⚠️ Partiel (training only)	Model cards

Sobr.ia se positionne comme tiers de confiance qui agrège, normalise et présente ces disclosures (et leurs absences) avec leur lineage. Force du pitch défi data.gouv.fr.

D.S41 — Google Gemini — Environmental Impact Disclosure ⭐⭐

Champ	Valeur
Producteur	Google (rapports sustainability + paper technique 2025)
URL canonique	services.google.com/fh/files/misc/measuring_the_environmental_impact_of_delivering_ai_at_google_scale.pdf
Blog post	cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference
Rapport annuel	sustainability.google/reports/google-2025-environmental-report/
Publication	Août 2025 (data mai 2025) + rapport sustainability 2025 annuel
Catégorie	D — Industriel international
Licence	Publication officielle, citation libre
Compatibilité Sobr.ia	✅ Citation + référencement
Volume	1 modèle (Gemini App text) + données aggrégées datacenters fleet
Format	PDF technique + blog + rapport annuel
Authentification	❌ Aucune
Fréquence MAJ	Annuelle (rapport sustainability)
Fraîcheur	Août 2025, très frais
Accessibilité tech	PDF parsing manuel (chiffres clés concentrés sur 1-2 pages)
Score valeur Sobr.ia	9/10 — 2ème vendor mondial (après Mistral) à publier chiffres prompt-level. Différenciateur pitch crucial.
Score effort intégration	2/10 — chiffres clés à transcrire dans preset Gemini
Tier proposé	Tier 1 quick win premium
Risques	Méthodologie Google contestée par certains (cf. “greenwashing or progress” article TDS) ; à présenter avec esprit critique
Décision	✅ Intégrer dans C31 — preset Gemini enrichi + encadré M9 fiche modèle + transparence sur la controverse méthodologique

Note méthodologique : Chiffres clés à intégrer :

Prompt médian Gemini Apps text : 0.24 Wh + 0.03 gCO₂eq + 0.26 mL eau (≈ 5 gouttes).
Amélioration sur 12 mois : énergie ×33 et carbone ×44 en réduction.
Datacenters Google 2024 : 30.8 TWh élec consommée (×2 vs 2020).
Scope 1 −8 %, Scope 2 −11 %, Scope 3 +22 % (chaîne d’approvisionnement explose, à mentionner pour honnêteté).

Position critique à conserver : la méthodologie Google retient le “median prompt” qui sous-estime potentiellement les requêtes complexes (raisonnement, agents). Sobr.ia doit afficher ces chiffres avec un avertissement “valeurs vendor, méthodologie Google — pour cross-validation utilisez méthodo AFNOR/EcoLogits”. C’est cohérent avec ADR-0012 multi-méthodologie : « on présente les chiffres vendor, on les met en perspective ».

Comparaison Sobr.ia clé pour pitch :

Vendor	Énergie/prompt	gCO₂eq/prompt	Eau/prompt	Source
Mistral Large 2 (FR)	~2.8 Wh (400 tk)	1.14 g (400 tk)	—	ADEME × Mistral
Google Gemini (median)	0.24 Wh	0.03 g	0.26 mL	Google 2025

L’écart 40× entre Mistral Large 2 et Gemini App n’est pas comparable directement (modèle vs tâche, 400 tokens vs prompt médian, méthodologies différentes). C’est exactement le gap pédagogique que Sobr.ia comble en posant un standard unifié. Argument fort pitch défi data.gouv.fr.

D.S40 — Mistral AI — Environmental Footprint (Large 2) ⭐⭐⭐

Champ	Valeur
Producteur	Mistral AI (Paris) — partenariat ADEME + Carbone 4
URL canonique	mistral.ai/news/our-contribution-to-a-global-environmental-standard-for-ai
Publication	Août 2025
Catégorie	D — Industriel FR
Licence	Publication blog, données dans le post (CC-BY de facto pour citation)
Compatibilité Sobr.ia	✅ Parfaite (citation + référencement)
Volume	1 modèle (Mistral Large 2) avec ACV complet 18 mois
Format	Blog post + chiffres détaillés ; possibilité d’extraire en JSON structuré
Authentification	❌ Aucune
Fréquence MAJ	Premier modèle 2025 ; à étendre à Medium/Small selon Mistral
Fraîcheur	Août 2025, données 18 mois jusqu’à janv 2025
Accessibilité tech	Manuelle (parsing blog post) ou scraping ciblé
Score valeur Sobr.ia	10/10 — premier vendor mondial à publier ACV complet, sur un modèle FR, en partenariat ADEME (Etalab compatible)
Score effort intégration	2/10 — chiffres déjà publics, ~5 mins de transcription en preset enrichi
Tier proposé	Tier 1 quick win premium
Risques	Aucun
Décision	✅ Intégrer dans C31 immédiatement — enrichir le preset `mistral-large-2` avec données ACV réelles (training 20.4 ktCO2, eau 281 000 m³, inference 1.14 gCO2/400 tokens) + citation en M9 fiche modèle

Note méthodologique : Différenciateur majeur pour le pitch défi data.gouv.fr.

Production : 11 % GES + 5 % eau
Training + inference : 85.5 % GES + 91 % eau
1 requête 400 tokens ≈ 1.14 gCO₂eq (10 secondes de streaming vidéo)
Le modèle est FR, l’analyse co-réalisée avec ADEME — narratif parfaitement aligné avec Sobr.ia.

Action C31 : remplacer la valeur générique de notre preset Mistral Large 2 par les valeurs Mistral/ADEME, et afficher dans M9 fiche modèle un encadré “Données ACV vendor (vérifiées ADEME)” qui prime sur notre estimation Monte-Carlo.

♻️ Catégorie E — Carbon-specific + géoloc

E.S30 — Boavizta API (BoaviztAPI)

Champ	Valeur
Producteur	Association Boavizta (FR, open source)
URL canonique	boavizta.org
API documentation	doc.api.boavizta.org
Code source	github.com/Boavizta/boaviztapi
Catégorie	E — Carbon-specific
Licence	CC BY-SA sur les données ; code Apache 2.0
Compatibilité Sobr.ia	⚠️ Compatible avec attribution (CC BY-SA), pas de mélange direct avec données MIT-only
Volume	Référentiel ACV complet : datacenters, networks, terminals, cloud + services numériques
Format	REST API (FastAPI), dumps JSON
Authentification	❌ Aucune
Fréquence MAJ	Active, releases régulières (PyPI)
Fraîcheur	Maintenu activement (2.0.3 récent)
Accessibilité tech	API publique standard + Python SDK
Score valeur Sobr.ia	8/10 — ACV multi-critères complet, complète/concurrence ADEME
Score effort intégration	4/10 — API standard, mais attention licence CC BY-SA (attribution traçable)
Tier proposé	Tier 2 strategic bet
Risques	Licence CC BY-SA implique attribution dans tout dérivé. Documenter le lineage dans le Gold.
Décision	📋 Backlog v1.2+ — high value mais nécessite traitement licence soigné, prudent de pas tout intégrer en C31 immédiat

Note méthodologique : Boavizta est l’écosystème FR open source de référence pour l’ACV numérique. La licence CC BY-SA est compatible avec Sobr.ia mais impose un workflow d’attribution (mention explicite dans datasheet Gebru + sidecar PROV-O). On peut l’utiliser pour cross-valider nos chiffres ADEME et fournir une vue alternative dans M9 fiche modèle.

E.S31 — NegaOctet (via Base Empreinte ADEME)

Champ	Valeur
Producteur	LCIE Bureau Veritas + APL Data Center + GreenIT.fr + DDemain (consortium projet ADEME)
URL canonique	codde.fr/en/our-brands/negaoctet
URL Base Empreinte (open)	base-empreinte.ademe.fr — 50 datasets numériques publiés en open data
Catégorie	E — Carbon-specific
Licence	Commerciale complète (licence annuelle dégressive 3 ans puis gratuite) OU 50 datasets en open data ADEME
Compatibilité Sobr.ia	✅ Via Base Empreinte ADEME (open) ; ❌ Via licence commerciale directe
Volume	500 datasets × 5 niveaux granularité (DB commerciale 15 000 ACV) ; 50 datasets numériques exposés en open via ADEME
Format	ILCD EF 3.0 (standard) + CSV (Excel/LibreOffice)
Authentification	❌ Pour les 50 open via ADEME
Fréquence MAJ	Annuelle
Fraîcheur	OK (DB active 2025)
Accessibilité tech	API ADEME pour les 50 open ; sinon licence commerciale
Score valeur Sobr.ia	7/10 — pour les 50 datasets open (subset suffit pour MVP) ; 9/10 si on accède à la DB complète plus tard
Score effort intégration	3/10 — passe par S03 ADEME Base Empreinte déjà identifié
Tier proposé	Tier 2 (déjà couvert via S03 ADEME)
Risques	Aucun sur la portion open
Décision	✅ Intégrer indirectement via S03 ADEME — pas besoin de duplication

Note méthodologique : NegaOctet est techniquement le référentiel sous-jacent à la portion numérique de Base Empreinte. En intégrant S03 (ADEME Base Empreinte), on capture automatiquement les 50 datasets NegaOctet open. La DB complète reste un strategic bet pour v1.x si on veut une granularité plus fine.

E.S34 — ElectricityMaps (revérification) ⚠️

Champ	Valeur
Producteur	Electricity Maps (entreprise privée DK)
URL API	electricitymaps.com/free-tier-api
Code open source	github.com/electricitymaps/electricitymaps-contrib (parsers)
Catégorie	E — Carbon-specific
Licence	Free tier non-commercial uniquement (carbon intensity gCO₂eq/kWh + power breakdown, 200+ zones, live). Parsers GitHub : open source.
Compatibilité Sobr.ia	⚠️ Frontière : Sobr.ia est open-source mais propose une offre cloud managed payante (ADR-0014). Le free tier non-commercial est ambigu pour la portion managed. À clarifier juridiquement.
Volume	200+ zones (grid électrique monde), intensité carbone en temps réel + historique
Format	API REST JSON
Authentification	🔑 API key (free tier disponible non-commercial)
Fréquence MAJ	Temps réel (refresh ~1h)
Fraîcheur	Live + 2025 update : retrait du marginal data signal
Accessibilité tech	API moderne + clients Python
Score valeur Sobr.ia	8/10 — couverture mondiale temps réel difficilement remplaçable
Score effort intégration	4/10 — API simple
Tier proposé	⚠️ Watchlist / À clarifier
Risques	Licence non-commercial bloque l’offre cloud managed Sobr.ia (ADR-0014 Phase 5+). Acceptable pour la version self-hosted gratuite.
Décision	⏸ Surveiller — utilisable pour version self-hosted seule. Alternative : utiliser leurs parsers GitHub open source pour ré-extraire les données depuis les sources amont (RTE, ENTSO-E, EIA US, etc.) sans passer par l’API ElectricityMaps. C’est ce qu’il faut faire à terme.

Note méthodologique : ElectricityMaps a un modèle freemium qui ne s’aligne pas avec ADR-0014 (notre offre managed serait commerciale). MAIS leur repo GitHub electricitymaps-contrib est open source et contient les parsers vers chaque source amont (RTE en FR, ENTSO-E en EU, EIA en US, etc.). On peut donc soit (a) consommer leur API en self-hosted only, soit (b) réutiliser leurs parsers open source dans notre pipeline médaillon pour aller chercher les données amont nous-mêmes. Option (b) est plus élégante et compatible cloud — à explorer en v1.2+.

E.S33 — Cloud Carbon Footprint (Thoughtworks)

Champ	Valeur
Producteur	Thoughtworks Inc. (open source)
URL canonique	cloudcarbonfootprint.org
Code source	github.com/cloud-carbon-footprint/cloud-carbon-footprint
Catégorie	E — Carbon-specific cloud
Licence	Apache 2.0 (open source)
Compatibilité Sobr.ia	✅ Parfaite (compatible MIT)
Volume	Méthodologie + facteurs émission AWS / GCP / Azure (scope 2 et 3)
Format	Tool TypeScript + méthodologie publique markdown
Authentification	Nécessaire pour les APIs cloud (compte AWS / GCP / Azure billing)
Fréquence MAJ	Active, méthodologie versionnée
Fraîcheur	Maintenu activement 2025
Accessibilité tech	Code TS lisible, méthodologie documentée — on n’a PAS besoin de tourner le tool, juste de réutiliser les facteurs PUE + carbon intensity régions cloud
Score valeur Sobr.ia	7/10 — facteurs PUE + carbon intensity datacenters cloud par région (utile pour M12 Datacenters Europe et extension internationale)
Score effort intégration	3/10 — extraction des constantes depuis méthodologie publique, pas besoin d’intégrer le tool
Tier proposé	Tier 2 quick win
Risques	Aucun (Apache 2.0)
Décision	✅ Intégrer dans C31 — extraction des facteurs PUE + carbon intensity régions cloud pour enrichir `datacenter_iris_link` Gold

Note méthodologique : CCF est un projet sérieux qui maintient à jour les PUE constatés AWS/GCP/Azure par région, plus les facteurs grid carbon intensity correspondants. Plutôt que d’intégrer le tool entier, on extrait juste les constantes (~50-100 valeurs) dans une table SQLite Sobr.ia. Permet à M12 de calculer correctement l’empreinte d’un datacenter Azure West Europe vs AWS eu-west-1 sans estimation approximative.

E.S32 — The Shift Project — Rapports IA et numérique ⭐

Champ	Valeur
Producteur	The Shift Project (think-tank carbone FR)
URL canonique	theshiftproject.org/en/thematics/digital/
Rapport intermédiaire IA 2025	theshiftproject.org/…/2025_03_06-TSP-Rapport-intermediaire-IA-quelles-infra-num-monde-decarbone.pdf
Catégorie	E — Carbon-specific (études et projections)
Licence	Publication publique, citation autorisée
Compatibilité Sobr.ia	✅ Pour citations + projections
Volume	Rapport intermédiaire 2025 + multiples publications IA depuis
Format	PDF + tables chiffrées dans les rapports
Authentification	❌ Aucune
Fréquence MAJ	Plusieurs publications par an
Fraîcheur	Très frais (rapport mars 2025, IA gé focus)
Accessibilité tech	PDF parsing manuel ou extraction tables
Score valeur Sobr.ia	8/10 — chiffres référence pour M16 Forecaster (projection 2030) + narratif pitch
Score effort intégration	3/10 — extraction de quelques valeurs clés, pas un ingest massif
Tier proposé	Tier 2 quick win (citation + valeurs clés)
Risques	Aucun
Décision	✅ Intégrer dans C31 — valeurs clés en `referentiel.sqlite` table `external_projections`, citation dans M16 Forecaster + datasheet

Note méthodologique : Données clés à intégrer dans le Forecaster M16 et le datasheet :

Datacenters mondiaux : doublement à quadruplement empreinte carbone d’ici 2030 → 920 MtCO₂eq/an (2× émissions FR).
Consommation élec datacenters 2030 : 1 250 à 1 500 TWh (× 2.3 à 2.8 en 7 ans).
Part IA dans conso datacenters : 15 % en 2025 → 55 % en 2030.
Modèles IA générative consomment 50 à 25 000 × plus que les modèles classiques.

Ces chiffres positionnent Sobr.ia dans une trajectoire critique et donnent au pitch une dimension prospective. Citer Shift Project dans le M16 (“voici la trajectoire si rien ne change, voici votre contribution personnelle”) = impact pédagogique majeur.

📊 Matrice de priorisation (19 sources évaluées)

            Effort faible                  Effort élevé
          ┌──────────────────────────┬──────────────────────────┐
Valeur    │ QUICK WINS               │ STRATEGIC BETS           │
très éle. │ • ⭐⭐⭐ Mistral × ADEME  │                          │
(9-10/10) │ • ⭐⭐ Google Gemini      │                          │
          │ • ⭐⭐ IEA Energy and AI │                          │
          │ • ADEME Base Empreinte   │                          │
          │ • HF AI Energy Score     │                          │
          │ • ML.ENERGY v3.0         │                          │
          │ • Meta Llama 3.x cards   │                          │
          │ • ARCEP édition 2025     │                          │
          ├──────────────────────────┼──────────────────────────┤
Valeur    │ • EpochAI Models         │ • ENTSO-E (API key + XML)│
élevée    │ • ODRE complémentaire    │ • Boavizta API (CC BY-SA)│
(7-8/10)  │ • Shift Project (cit.)   │                          │
          │ • Cloud Carbon Footprint │                          │
          ├──────────────────────────┼──────────────────────────┤
Valeur    │ • LMSYS / LMArena        │ • MLPerf Power v6.0      │
moyenne   │ • NegaOctet (via S03)    │                          │
(5-6/10)  │                          │                          │
          ├──────────────────────────┴──────────────────────────┤
Watchlist │ ⚠️ ElectricityMaps (free tier non-commercial)       │
& Skip    │ ⏸ Anthropic Claude (pas de disclosure officielle)   │
          └─────────────────────────────────────────────────────┘

📋 Roadmap d’intégration recommandée (mise à jour batch 2)

Priorité	Source	Effort estimé	Valeur attendue
1	Mistral × ADEME ACV Large 2	0.5 j	Données vendor réelles dans preset + encadré M9 fiche modèle
2	Google Gemini Environmental Disclosure	0.5 j	Données vendor Gemini + encadré M9 + table comparaison vendors
3	Meta Llama 3.x model cards	0.5 j	Training disclosure + distinction location/market-based
4	ADEME Base Empreinte (API)	1.5 j	Remplacement constantes facteurs émission par sources officielles FR
5	ML.ENERGY Benchmark v3.0	1 j	Calibration empirique GPU + 4ème reference moteur
6	IEA Energy and AI 2025	0.5 j	Citation référence internationale M16 Forecaster + datasheet
7	HF AI Energy Score	1 j	Mapping score externe ↔ A-F Sobr.ia
8	EpochAI Models dataset	1 j	Bulk-load presets modèles riche (FLOPs, params, dates)
9	ODRE complémentaire (4 sous-datasets)	1.5 j	Granularité mix élec FR horaire + régional + EPCI
10	ARCEP édition 2025 (parse PDF)	0.5 j	Citation officielle datacenters FR
11	Shift Project — projections 2030	0.5 j	Citation M16 Forecaster + datasheet
12	Cloud Carbon Footprint (extraction PUE)	1 j	Facteurs PUE + carbon intensity cloud par région
Total C31 v1.1		~10 j
13	ENTSO-E Transparency Platform	2 j (API key + XML)	v1.2+ — extension Europe
14	Boavizta API	2 j (avec attribution)	v1.2+ — cross-validation ACV
15	MLPerf Power v6.0	2 j	v1.2+ — vue hardware-grade M9
16	LMSYS / LMArena rankings	1 j	v1.2+ — tradeoff qualité × empreinte M9
17	ARCEP édition 2026 (dès publication)	1 j	À surveiller
18	ElectricityMaps parsers GitHub (alternative)	2 j	v1.2+ — internationalisation sans dep API freemium
19	NegaOctet	Couvert via S03 (pas duplication)	—

🔜 À suivre (prochain batch)

Couvert dans cette session (batch 1+2+3 partiel) — 16 sources :

✅ Cat. A : ADEME, ARCEP, ODRE (+ 4 sous-datasets)
✅ Cat. B : ENTSO-E, IEA Energy and AI
✅ Cat. C : HF AI Energy Score, MLPerf Power, EpochAI
✅ Cat. D : Mistral × ADEME, Google Gemini
✅ Cat. E : Boavizta, NegaOctet, Shift Project, Cloud Carbon Footprint, ElectricityMaps (watchlist)

À faire dans une prochaine session (batch 4) :

Cat. A complément : INSEE Sirene, IGN BD TOPO, CNIL études IA, ANCT, DataESR, BPI, data.gouv.fr search par mots-clés supplémentaires
Cat. B complément : Eurostat, EEA, OWID, JRC, IRENA, World Bank, OECD.Stat, Climate TRACE
Cat. C complément : HELM Stanford, LMSYS Chatbot Arena, ML.Energy leaderboard, MLPerf inference detailed, Papers With Code
Cat. D restant : Anthropic Claude 3.5 (sustainability section), OpenAI GPT-4o (probable absence model card), Meta Llama 3.3 / 4, Cohere, xAI, DeepSeek, Alibaba Qwen, Microsoft Phi
Cat. E complément : WattTime, Carbon Disclosure Project, Boavizta côté CC BY-SA détaillé
Synthèse finale 1 page jury data.gouv.fr (à condenser à partir de la synthèse exécutive enrichie)
Skeleton brief C31-integration-tier2-datasets.md avec découpage en sous-chantiers concrets

Estimation reste : 2-3 heures de search + édition pour 15-20 sources supplémentaires + finalisation. Réalisable en 1-2 sessions.

Annexes

A. Sources rejetées (préliminaire)

À constituer au fil du batch suivant. Critères de rejet :

Paywall ou compte payant obligatoire
Licence non compatible (proprio fermée)
Hors périmètre Sobr.ia (impact environnemental IA générative)
Données obsolètes (> 5 ans sans MAJ)

B. Veille à mener (sources émergentes)

Sénat — Commission empreinte environnementale IA (lancée 10 déc 2025) — surveiller publications 2026.
Mistral AI publication empreinte (juillet 2025) — premier vendor à publier, “AI Nutri-Score” — à intégrer comme model card Cat. D.
DataESR (recherche IA FR) — à explorer.