<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://www.montpellia.fr/index.php?action=history&amp;feed=atom&amp;title=Curations_informatives</id>
	<title>Curations informatives - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://www.montpellia.fr/index.php?action=history&amp;feed=atom&amp;title=Curations_informatives"/>
	<link rel="alternate" type="text/html" href="https://www.montpellia.fr/index.php?title=Curations_informatives&amp;action=history"/>
	<updated>2026-04-29T02:32:30Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.39.10</generator>
	<entry>
		<id>https://www.montpellia.fr/index.php?title=Curations_informatives&amp;diff=1880&amp;oldid=prev</id>
		<title>Sysop: Created page with &quot;= Curation des données =  La &#039;&#039;&#039;curation des données&#039;&#039;&#039; (&#039;&#039;data curation&#039;&#039; en anglais) désigne l’ensemble des processus de sélection, nettoyage, enrichissement, structuration et préservation des données tout au long de leur cycle de vie. Elle vise à garantir que les données sont &#039;&#039;&#039;fiables, compréhensibles, réutilisables et conformes&#039;&#039;&#039; aux usages prévus.  == 1. Pourquoi curer les données ? ==  Des données brutes sont souvent : * hétérogènes (formats mu...&quot;</title>
		<link rel="alternate" type="text/html" href="https://www.montpellia.fr/index.php?title=Curations_informatives&amp;diff=1880&amp;oldid=prev"/>
		<updated>2026-04-01T14:28:55Z</updated>

		<summary type="html">&lt;p&gt;Created page with &amp;quot;= Curation des données =  La &amp;#039;&amp;#039;&amp;#039;curation des données&amp;#039;&amp;#039;&amp;#039; (&amp;#039;&amp;#039;data curation&amp;#039;&amp;#039; en anglais) désigne l’ensemble des processus de sélection, nettoyage, enrichissement, structuration et préservation des données tout au long de leur cycle de vie. Elle vise à garantir que les données sont &amp;#039;&amp;#039;&amp;#039;fiables, compréhensibles, réutilisables et conformes&amp;#039;&amp;#039;&amp;#039; aux usages prévus.  == 1. Pourquoi curer les données ? ==  Des données brutes sont souvent : * hétérogènes (formats mu...&amp;quot;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;= Curation des données =&lt;br /&gt;
&lt;br /&gt;
La &amp;#039;&amp;#039;&amp;#039;curation des données&amp;#039;&amp;#039;&amp;#039; (&amp;#039;&amp;#039;data curation&amp;#039;&amp;#039; en anglais) désigne l’ensemble des processus de sélection, nettoyage, enrichissement, structuration et préservation des données tout au long de leur cycle de vie. Elle vise à garantir que les données sont &amp;#039;&amp;#039;&amp;#039;fiables, compréhensibles, réutilisables et conformes&amp;#039;&amp;#039;&amp;#039; aux usages prévus.&lt;br /&gt;
&lt;br /&gt;
== 1. Pourquoi curer les données ? ==&lt;br /&gt;
&lt;br /&gt;
Des données brutes sont souvent :&lt;br /&gt;
* hétérogènes (formats multiples, sources variées) ;&lt;br /&gt;
* incomplètes ou erronées ;&lt;br /&gt;
* redondantes ;&lt;br /&gt;
* soumises à des droits ou des contraintes éthiques.&lt;br /&gt;
&lt;br /&gt;
Sans curation, les systèmes qui exploitent ces données (bases de données, IA, analyses) produisent des résultats biaisés, non reproductibles ou juridiquement fragiles.&lt;br /&gt;
&lt;br /&gt;
== 2. Les grandes étapes de la curation ==&lt;br /&gt;
&lt;br /&gt;
Une démarche de curation comprend généralement :&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Collecte sélective&amp;#039;&amp;#039;&amp;#039; : choisir les sources pertinentes (archives, bases publiques, contributions citoyennes) en fonction des objectifs.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Nettoyage&amp;#039;&amp;#039;&amp;#039; : corriger les erreurs, standardiser les formats, traiter les valeurs manquantes.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Déduplication&amp;#039;&amp;#039;&amp;#039; : supprimer les doublons.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Enrichissement&amp;#039;&amp;#039;&amp;#039; : ajouter des métadonnées (date, provenance, licence, auteur), indexer, traduire, lier à d’autres jeux de données.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Contrôle qualité&amp;#039;&amp;#039;&amp;#039; : vérifier l’exactitude, la cohérence, la conformité juridique (RGPD, droit d’auteur).&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Documentation&amp;#039;&amp;#039;&amp;#039; : produire une notice décrivant l’origine, les traitements appliqués, les limitations.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Préservation&amp;#039;&amp;#039;&amp;#039; : assurer la pérennité dans des formats ouverts et des entrepôts sécurisés.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Gouvernance&amp;#039;&amp;#039;&amp;#039; : définir qui peut accéder, modifier, mettre à jour les données.&lt;br /&gt;
&lt;br /&gt;
== 3. Curation et intelligence artificielle ==&lt;br /&gt;
&lt;br /&gt;
Pour une IA, la curation est déterminante :&lt;br /&gt;
* Les modèles d’apprentissage sont sensibles à la qualité des données d’entraînement : une curation rigoureuse réduit les biais et améliore la performance.&lt;br /&gt;
* Dans une architecture à base de recherche augmentée (RAG), la curation des bases de connaissances externes garantit la pertinence et la fiabilité des réponses.&lt;br /&gt;
&lt;br /&gt;
Dans le cadre d’un &amp;#039;&amp;#039;&amp;#039;agglosome&amp;#039;&amp;#039;&amp;#039; (univers immatériel d’un territoire), la curation permet de :&lt;br /&gt;
* distinguer les strates (données communes, de groupe, individuelles) ;&lt;br /&gt;
* respecter les interdits légaux (pas de catégorisation raciale, protection des données personnelles) ;&lt;br /&gt;
* tracer la provenance des informations (archives, contributions citoyennes, exposome légal).&lt;br /&gt;
&lt;br /&gt;
== 4. Curation, orientations politiques et commerciales ==&lt;br /&gt;
&lt;br /&gt;
La curation n’est jamais neutre. C’est à ce niveau que s’opèrent les choix fondamentaux qui orientent ensuite l’usage des données et des IA :&lt;br /&gt;
* **Orientations politiques** : décider quelles sources sont légitimes (archives publiques vs contributions citoyennes), quels sujets sont prioritaires (santé, environnement, culture), quels territoires ou populations sont rendus visibles ou invisibles.&lt;br /&gt;
* **Orientations commerciales** : sélectionner ou exclure des données en fonction de leur valeur marchande, favoriser des formats propriétaires, ou au contraire privilégier des licences ouvertes.&lt;br /&gt;
* **Orientations éthiques** : arbitrer entre ouverture des données et protection de la vie privée, entre réutilisation et respect des droits des communautés.&lt;br /&gt;
&lt;br /&gt;
Ainsi, la curation constitue un acte de &amp;#039;&amp;#039;&amp;#039;gouvernance par les données&amp;#039;&amp;#039;&amp;#039; : elle traduit des valeurs et des arbitrages qui conditionnent tout le reste de la chaîne de traitement.&lt;br /&gt;
&lt;br /&gt;
== 5. Exemples d’opérations de curation ==&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! Opération !! Exemple&lt;br /&gt;
|-&lt;br /&gt;
| Filtrage&lt;br /&gt;
| Conserver uniquement les documents en langue française ou les données postérieures à une date&lt;br /&gt;
|-&lt;br /&gt;
| Normalisation&lt;br /&gt;
| Uniformiser les noms de lieux, les dates au format ISO&lt;br /&gt;
|-&lt;br /&gt;
| Déduplication&lt;br /&gt;
| Supprimer le même article de presse présent dans plusieurs sources&lt;br /&gt;
|-&lt;br /&gt;
| Anonymisation&lt;br /&gt;
| Remplacer les noms de personnes par des identifiants dans des archives médicales&lt;br /&gt;
|-&lt;br /&gt;
| Enrichissement sémantique&lt;br /&gt;
| Ajouter des mots-clés, des géolocalisations, des liens vers des vocabulaires contrôlés&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 6. Métiers et outils ==&lt;br /&gt;
&lt;br /&gt;
La curation est assurée par des &amp;#039;&amp;#039;&amp;#039;data stewards&amp;#039;&amp;#039;&amp;#039;, &amp;#039;&amp;#039;&amp;#039;data curators&amp;#039;&amp;#039;&amp;#039;, &amp;#039;&amp;#039;&amp;#039;documentalistes&amp;#039;&amp;#039;&amp;#039;, ou &amp;#039;&amp;#039;&amp;#039;administrateurs de données&amp;#039;&amp;#039;&amp;#039;. Les outils incluent :&lt;br /&gt;
* Logiciels de traitement de données (OpenRefine, Python/Pandas) ;&lt;br /&gt;
* Systèmes de gestion de métadonnées (CKAN, Dublin Core) ;&lt;br /&gt;
* Entrepositaires de données (Dataverse, Nakala).&lt;br /&gt;
&lt;br /&gt;
== 7. Enjeux spécifiques au territoire ==&lt;br /&gt;
&lt;br /&gt;
Dans un projet d’IA territoriale (agglosome), la curation doit :&lt;br /&gt;
* impliquer les parties prenantes locales (citoyens, associations, élus) pour garantir l’acceptabilité et la légitimité ;&lt;br /&gt;
* respecter les obligations légales (exposome, données de santé, archives publiques) ;&lt;br /&gt;
* préserver les patrimoines culturels immatériels sans les figer ni les déposséder ;&lt;br /&gt;
* assurer l’interopérabilité avec les bases nationales et européennes.&lt;br /&gt;
&lt;br /&gt;
== 8. Conclusion ==&lt;br /&gt;
&lt;br /&gt;
La curation des données est une activité stratégique, trop souvent sous-estimée. Elle conditionne la qualité, la fiabilité et l’éthique des systèmes d’information et d’IA. Dans un cadre territorial, elle devient un processus démocratique et technique à la fois, au service d’un commun informationnel.&lt;/div&gt;</summary>
		<author><name>Sysop</name></author>
	</entry>
</feed>