vendredi 17 mai 2013

Le crowdsourcing ou la loi du nombre au service de la science, de la culture ou du patrimoine…

Faire appel au public pour aider la recherche scientifique ou améliorer l’accès à la connaissance et à la culture, c’est une démarche appelée crowdsourcing, littéralement « approvisionnement par la foule » qui consiste à utiliser l'intelligence, la créativité ou le savoir-faire du plus grand nombre pour parvenir à un résultat donné. Si cette démarche pouvait exister avant le numérique, Internet lui a donné un élan nouveau, en multipliant le nombre de contributeurs potentiels. C’est pourquoi on parlera aussi de « web participatif » ou « web collaboratif ».
 

 Il peut s’agir de mobiliser un grand nombre de personnes sans compétences particulières mais qui vont permettre de produire une multitude de données. La « science participative » s’appuie sur l'idée qu'une mise en commun de l'intelligence collective offre une puissance statistique qui peut permettre de résoudre des problèmes inatteignables autrement. Les 250 000 contributeurs du projet GalaxyZoo, qui ont classé les galaxies selon leur forme, ont  ainsi permis aux astronomes de comprendre comment les galaxies se sont formées.
 
C’est également l’approche des archéologues du projet The Valley of the Khans qui font appel aux internautes pour les aider à trouver le tombeau de Gengis Khan en identifiant sur des images satellites les emplacements de tombes possibles.
 
Ou, au contraire, il peut s’agir de faire appel à une expertise ou un savoir-faire particulier. Ainsi les meilleurs amateurs de jeux vidéo, en participant au jeu en ligne Foldit, ont pu aider les biochimistes de l'Université de Washington à résoudre un problème sur la structure tridimensionnelle des protéines.
 
Cela peut être enfin l’idée de rassembler des experts ou des passionnés pour collecter des observations ou participer à des projets d’envergure sur des échelles géographiques étendues. Le modèle du genre est bien entendu l’encyclopédie Wikipédia, mais des projets plus spécialisés ont vu le jour, comme le réseau Tela Botanica, une banque de données en botanique qui peut être enrichie par tous, qu’ils soient amateurs ou professionnels.
 
Les bibliothèques et institutions culturelles s’approprient également peu à peu cette démarche participative, voire citoyenne, et proposent différents types de projets collaboratifs :
  • Tagging : indexation et classification collaborative de ressources numériques par l’ajout de mots-clés ou « tags » librement choisis. Ainsi l’Institut néerlandais pour le Son et l’Image propose au travers de son projet Waisda? l’indexation collaborative des archives de la télévision.
  • Indexation collaborative et constitution de bases de données : indexation encadrée pour permettre la constitution de bases de données structurées. Dans ce cas l’usager n’est plus laissé libre de ses choix d’indexation. Une vingtaine de services d’archives français proposent ainsi sur leurs sites web des modules d’indexation collaborative de documents nominatifs d’état-civil (Archives départementales de l’Ain, du Cantal, du Var…). 
  • Identification de documents iconographiques : en particulier, identification de photographies dont on ignore le lieu de la prise de vue ou les personnes représentées, comme la vaste opération d’identification de photographies anciennes prises en Afrique lancée par les Archives nationales du Royaume-Uni et intitulée Africa through a lens. De plus, outre une identification textuelle, une véritable géolocalisation des documents peut être réalisée.
  • Correction collaborative d’OCR et transcription collaborative : correction d’un texte préalablement OCRisé, voire transcription ex nihilo de documents numérisés (par exemple, des manuscrits sur lesquels les techniques d’OCR ne sont à ce jour pas satisfaisantes).
  • Co-création de contenus scientifiques : possibilité donnée aux usagers d’apporter le résultat de leurs propres recherches pour enrichir les contenus numérisés mis en ligne. C’est ainsi que la bibliothèque municipale de Toulouse propose dans sa bibliothèque numérique Rosalis une rubrique « Rosalipédie » où les chercheurs comme les bibliothécaires peuvent commenter et analyser les documents.
 
Quel que soit l’objectif du projet ou la stratégie employée pour y parvenir, un projet de crowdsoursing peut rencontrer plusieurs publics qui se trouveront embarqués pendant un temps court ou sur du long terme dans une aventure commune. La réussite d’un projet va dépendre de l’intérêt et de l’adhésion qu’il va pouvoir susciter mais aussi de la qualité des contributions qui en découlent. Plusieurs leviers de motivation des contributeurs ont ainsi pu être identifiés par les institutions qui ont mis en place des programmes de crowdsourcing :
  • L’intérêt scientifique / l’engouement pour le sujet abordé : Monasterium propose aux chercheurs médiévistes de participer à la transcription mais aussi à l’édition critique et scientifique de 250 000 documents originaux conservés dans plus de 50 institutions.
  • La participation à une cause « citoyenne » : La bibliothèque numérique Trove de la Bibliothèque nationale d’Australie a su mobiliser 30 000 volontaires pour améliorer la  transcription des journaux australiens anciens, considérés comme un patrimoine culturel et historique national.
  • L’envie de jouer : la Bibliothèque nationale de Finlande a fait le choix du jeu en ligne avec son programme collaboratif pour l’amélioration de l’OCR DigitalKoot et a réuni 110 000 participants sur un jeu mettant en scène les aventures d’une petite taupe !
  • Le sentiment de communauté : Transcribe Bentham est un projet de transcription massive des manuscrits non édités du philosophe anglais Jeremy Bentham qui rassemble la communauté des passionnés du philosophe.

La BnF s’intéresse depuis plusieurs années aux projets de crowdsourcing notamment pour tester de nouvelles formes d’interaction avec ses usagers, ainsi que les possibilités d’enrichissement de ses données pour améliorer les fonctionnalités de recherche dans les collections et les services aux publics. Dans le cadre du projet de recherche FUI12 Ozalid sur la conception d’une plateforme de correction collaborative et d’enrichissement des documents numérisés, elle a élaboré un Etat de l’art en matière de crowdsourcing dans les bibliothèques numériques où vous retrouverez les projets évoqués ci-dessus et bien d’autres.
 
A noter : ce projet de recherche sera présenté lors d'un Atelier du Labo « Patrimoine imprimé et crowdsourcing : présentation d'un projet de recherche en correction et annotation collaborative  » qui aura lieu le 19 juin 2013 de 10h à 12h.