Ce dépôt fournit un template infra + data pour lancer le pipeline de classification et guider les bénévoles sur les 3 tâches ML :
- YOLOv8/DINO (détection + crop)
- Classification hiérarchique (règne → espèce)
Les pipelines existants d'export sont conservés et intégrés.
- Entrée : API quotidienne (à venir) ou CSV (
data/raw/observations.csv). - Détection DINO/YOLOv8 (ML) → bboxes + crops.
- Classification hiérarchique (ML) → taxonomie.
- Label Studio : boucle d'annotation/correction si besoin.
- Dataviz : CSV compatible Metabase (puis dashboard).
- Exports : CSV d'annotations (base de données plus tard).
biolit/ # Lib Python (taxref, observations, dataviz)
pipelines/ # Orchestration
ml/ # Dossiers des 2 tâches ML
dataviz/ # Docs dataviz
infra/ # Docker Compose (Label Studio)
data/ # Workspace local (non versionné)
data/raw/: CSV brut + images du jour (dump API)data/crops/: crops issus de YOLOv8data/label-studio/files/: images à annoterdata/exports/: sorties CSV (annotations, qualité, etc.)data/dataviz/: CSV pour Metabase
Ce projet utilise uv pour la gestion des dépendances.
uv syncSi besoin :
source .venv/bin/activate-
Récupération quotidienne depuis l'API (à venir) ou CSV local.
-
DINO/YOLOv8 : détection + crop.
- si détection forte → Classification
- si détection faible → Label Studio (CROP)
- si pas de détection animal ou végétal → stop
-
Classification : prédiction + probabilité.
- certitude faible → Label Studio (pré-annotations + probas)
- certitude forte → export direct
-
Export CSV :
data/exports/annotations.csv -
Dataviz :
data/dataviz/observations.csv(Metabase)
Cette pipeline a pour but de télécharger l'ensemble des images biolit et de les enrichir pour créer une base dédiées au machine learning ou à la data visualisation.
Pour lancer la pipeline :
- Télécharger sur le site TaxRef le fichier
TAXREF_v18_2025et le décompresser dans le dossierdata/. - Télécharger le fichier excel d'export test et le placer dans
data/export_biolit.csv. - Lancer la pipeline suivante
uv run pipelines/export_inpn.pyLa pipeline propose différents logs pour alerter sur des problèmes de qualité.
La pipeline crée plusieurs fichier:
data/biolit_valid_observations.parquet: fichier final avec l'ensemble des images annotées et enrichies.data/observations_missing_taxref.csv: fichier des images dont l'expèce n'est pas présente dans TaxRef.data/biolit_observation_missing_nom.csv: observations validées mais sans nom d'espèce.data/biolit_observation_validated_non_identifiable.csvdata/distribution_images.html: Visualisation de la répartition des images en fonction des espèces.
docker compose -f infra/docker-compose.yml upLes images à annoter sont montées depuis data/label-studio/files.
Il est possible de lancer l'ensemble en local pour les premiers tests. L'objectif est d'étudier les sorties de chaque modèle avant d'automatiser le workflow complet.
pre-commit run --all-filestox -vv