Curations informatives

From MontpeLLIA
Jump to navigation Jump to search

Curation des données

La curation des données (data curation en anglais) désigne l’ensemble des processus de sélection, nettoyage, enrichissement, structuration et préservation des données tout au long de leur cycle de vie. Elle vise à garantir que les données sont fiables, compréhensibles, réutilisables et conformes aux usages prévus.

1. Pourquoi curer les données ?

Des données brutes sont souvent :

  • hétérogènes (formats multiples, sources variées) ;
  • incomplètes ou erronées ;
  • redondantes ;
  • soumises à des droits ou des contraintes éthiques.

Sans curation, les systèmes qui exploitent ces données (bases de données, IA, analyses) produisent des résultats biaisés, non reproductibles ou juridiquement fragiles.

2. Les grandes étapes de la curation

Une démarche de curation comprend généralement :

  • Collecte sélective : choisir les sources pertinentes (archives, bases publiques, contributions citoyennes) en fonction des objectifs.
  • Nettoyage : corriger les erreurs, standardiser les formats, traiter les valeurs manquantes.
  • Déduplication : supprimer les doublons.
  • Enrichissement : ajouter des métadonnées (date, provenance, licence, auteur), indexer, traduire, lier à d’autres jeux de données.
  • Contrôle qualité : vérifier l’exactitude, la cohérence, la conformité juridique (RGPD, droit d’auteur).
  • Documentation : produire une notice décrivant l’origine, les traitements appliqués, les limitations.
  • Préservation : assurer la pérennité dans des formats ouverts et des entrepôts sécurisés.
  • Gouvernance : définir qui peut accéder, modifier, mettre à jour les données.

3. Curation et intelligence artificielle

Pour une IA, la curation est déterminante :

  • Les modèles d’apprentissage sont sensibles à la qualité des données d’entraînement : une curation rigoureuse réduit les biais et améliore la performance.
  • Dans une architecture à base de recherche augmentée (RAG), la curation des bases de connaissances externes garantit la pertinence et la fiabilité des réponses.

Dans le cadre d’un agglosome (univers immatériel d’un territoire), la curation permet de :

  • distinguer les strates (données communes, de groupe, individuelles) ;
  • respecter les interdits légaux (pas de catégorisation raciale, protection des données personnelles) ;
  • tracer la provenance des informations (archives, contributions citoyennes, exposome légal).

4. Curation, orientations politiques et commerciales

La curation n’est jamais neutre. C’est à ce niveau que s’opèrent les choix fondamentaux qui orientent ensuite l’usage des données et des IA :

  • **Orientations politiques** : décider quelles sources sont légitimes (archives publiques vs contributions citoyennes), quels sujets sont prioritaires (santé, environnement, culture), quels territoires ou populations sont rendus visibles ou invisibles.
  • **Orientations commerciales** : sélectionner ou exclure des données en fonction de leur valeur marchande, favoriser des formats propriétaires, ou au contraire privilégier des licences ouvertes.
  • **Orientations éthiques** : arbitrer entre ouverture des données et protection de la vie privée, entre réutilisation et respect des droits des communautés.

Ainsi, la curation constitue un acte de gouvernance par les données : elle traduit des valeurs et des arbitrages qui conditionnent tout le reste de la chaîne de traitement.

5. Exemples d’opérations de curation

Opération Exemple
Filtrage Conserver uniquement les documents en langue française ou les données postérieures à une date
Normalisation Uniformiser les noms de lieux, les dates au format ISO
Déduplication Supprimer le même article de presse présent dans plusieurs sources
Anonymisation Remplacer les noms de personnes par des identifiants dans des archives médicales
Enrichissement sémantique Ajouter des mots-clés, des géolocalisations, des liens vers des vocabulaires contrôlés

6. Métiers et outils

La curation est assurée par des data stewards, data curators, documentalistes, ou administrateurs de données. Les outils incluent :

  • Logiciels de traitement de données (OpenRefine, Python/Pandas) ;
  • Systèmes de gestion de métadonnées (CKAN, Dublin Core) ;
  • Entrepositaires de données (Dataverse, Nakala).

7. Enjeux spécifiques au territoire

Dans un projet d’IA territoriale (agglosome), la curation doit :

  • impliquer les parties prenantes locales (citoyens, associations, élus) pour garantir l’acceptabilité et la légitimité ;
  • respecter les obligations légales (exposome, données de santé, archives publiques) ;
  • préserver les patrimoines culturels immatériels sans les figer ni les déposséder ;
  • assurer l’interopérabilité avec les bases nationales et européennes.

8. Conclusion

La curation des données est une activité stratégique, trop souvent sous-estimée. Elle conditionne la qualité, la fiabilité et l’éthique des systèmes d’information et d’IA. Dans un cadre territorial, elle devient un processus démocratique et technique à la fois, au service d’un commun informationnel.