Sobr.ia · méthode scientifique

Des chiffres que vous pouvez vérifier.

Chaque formule est sourcée dans le code, chaque hypothèse porte une distribution d'incertitude, chaque résultat est reproductible à partir d'un seed. Quand un chiffre est extrapolé, Sobr.ia le dit.

AFNOR SPEC 2314 · EcoLogits · Monte-Carlo 10 000 tirages · seed 42

01 · Double moteur

Deux méthodologies, exécutées en parallèle.

Plutôt que de décréter une vérité unique, Sobr.ia fait tourner deux moteurs sur chaque estimation et affiche leurs écarts — l'incertitude méthodologique devient visible au lieu d'être cachée (ADR-0012).

AFNOR SPEC 2314

L'implémentation Sobr.ia du référentiel français d'évaluation de l'impact environnemental de l'IA : énergie par token (prefill + decode), PUE, intensité carbone du mix, empreinte matérielle amortie.

EcoLogits — reproduit

Le port Rust de la méthodologie EcoLogits (Data for Good), celle qui alimente aussi ComparIA. Notre réimplémentation est validée contre la référence — c'est l'alignement officiel du défi, pas une méthodologie parallèle.

02 · Incertitude

Monte-Carlo reproductible, P5–P95 systématique.

10 000

tirages par estimation : chaque hypothèse est échantillonnée selon sa distribution documentée, pas figée à une valeur arbitraire.

P5–P95

intervalle affiché sur chaque résultat. Un chiffre sans incertitude est une opinion ; Sobr.ia n'en publie pas.

seed 42

seed reproductible (variable SOBRIA_SEED) : deux exécutions identiques produisent exactement les mêmes chiffres, vérifiables par quiconque.

03 · Validation croisée

Confronté à la littérature, tolérance ±15 %.

Le moteur est confronté à des résultats publiés : il doit les reproduire à ±15 %, et des tests de plausibilité tournent en intégration continue pour bloquer toute dérive d'ordre de grandeur.

Luccioni 2023 BLOOM 176B — empreinte d'inférence mesurée sur cluster instrumenté
Patterson 2021 Google — consommation d'entraînement et d'inférence de grands modèles
EcoLogits 2024 Data for Good — méthodologie de référence des modèles via API

Détail des cas et des plages : méthodologie de validation croisée.

04 · Honnêteté assumée

34 modèles — et leur calibration affichée.

Personne ne mesure directement la consommation d'un modèle fermé. Plutôt que de prétendre à une précision uniforme, chaque modèle du catalogue porte un statut de calibration, visible dans l'app :

validated

Validé contre une étude de référence à ±15 %.

indicative

Calibré par ordre de grandeur depuis des mesures ouvertes (HF AI Energy Score, EcoLogits).

extrapolated

Extrapolé depuis un modèle ouvert comparable — typiquement les modèles fermés.

Oui, cela signifie qu'une partie du catalogue est extrapolée. C'est l'état de l'art pour les modèles fermés — la différence, c'est que Sobr.ia vous le dit.

05 · Datacenters

28 datacenters de référence, sourcés.

Un catalogue documenté de 28 datacenters européens (13 pays) : PUE et WUE issus des rapports de durabilité publics des opérateurs, intensité carbone des mix nationaux via Electricity Maps. Chaque ligne cite sa source — sélection orientée représentativité, pas exhaustivité.

Le catalogue complet : 28 datacenters européens.

06 · Données ouvertes

ComparIA + RTE IRIS, via un pipeline reproductible.

ComparIA

Le comparateur d'IA de Beta.gouv / Ministère de la Culture : des millions de conversations réelles avec empreinte EcoLogits intégrée, sous Licence Ouverte Etalab 2.0. Dataset officiel du défi data.gouv.fr.

RTE IRIS

La consommation électrique industrielle à la maille IRIS (ODRÉ) : l'ancrage territorial français de Sobr.ia, pour situer l'empreinte de l'IA dans la géographie réelle des consommations.

Pipeline médaillon Copper → Silver → Gold

Toute donnée externe traverse trois couches : brut immuable, daté et hashé (Copper), Parquet validé à schéma versionné (Silver), référentiel consommé par l'app (Gold). L'ensemble est orchestré par DVC : dvc repro reconstruit le référentiel à l'identique (ADR-0009).

Tout est relisible.

Code sous licence MIT, documentation CC-BY 4.0, datasets publiés sous Licence Ouverte Etalab 2.0. La méthodologie complète, les ADRs et le dossier de candidature au défi data.gouv.fr « Impact environnemental de l'IA générative » sont publics.

Lire la candidature Parcourir la documentation