Histoire des Arts

19, mars 2012  |  Publié : Projets  | 

Le site « HDA-Lab » est né d’une collaboration entre l’Institut de Recherche et d’Innovation (IRI) et le Département des Programmes Numériques (DPN) du Ministère de la Culture et de la Communication. Ce projet de recherche et développement est destiné à montrer le potentiel heuristique du tagging sémantique.

Le corpus Histoiredesarts

Le corpus utilisé pour les besoins de ce projet est extrait d’Histoiredesarts. Il compte actuellement quelque 5000 notices descriptives renvoyant, par des liens profonds, vers autant de ressources en ligne. Chaque notice d’Histoiredesarts contient des mots-clés, initialement produits comme de simples tags.

Le programme de Recherche et Développement impliquant l’IRI et le DPN prévoit la réalisation de deux outils : « HDA-BO » (Back-Office) et « HDA-Lab » (Laboratoire)

« HDA-BO », module de tagging sémantique

« HDA-BO » est un module de tagging sémantique du corpus Histoiredesarts destiné au back-office du site, pour la reprise de l’existant par l’équipe éditoriale et l’enrichissement au fil de l’eau.
Techniquement, les mots-clés servant à ré-indexer le corpus sont empruntés aux entrées de Wikipédia (les titres des articles de l’encyclopédie), par exemple : « Quentin de La Tour », « Vallée des rois », « IVe siècle av. J.-C. » etc.

Cet outil offre une fonctionnalité de liaison avec Wikipédia. La liste de complétion des entrées de l’encyclopédie est en effet disponible pour chaque tag. La ré-indexation consiste donc simplement à substituer au tag son équivalent parmi les entrées de Wikipédia. Le module importe alors le label et l’URI de Wikipédia. Il importe également un lien vers la version Web sémantique de Wikipédia : DBpédia.

Cette approche offre de nombreux avantages, notamment :

- La désambiguïsation, par exemple, permet de distinguer « roman » au sens d’art roman de « roman » au sens d’œuvre littéraire.

- L’interopérabilité universelle des mots-clés : l’uri Wikipédia de l’article donne à chaque mot-clé un identifiant universel. Toute institution qui adopterait le même procédé d’indexation serait interopérable avec le corpus Histoiredesarts.

- L’enrichissement automatique des métadonnées : certaines données contenues dans les articles de Wikipédia peuvent être automatiquement extraites pour enrichir l’indexation. Cela permettra, par exemple, d’interroger Histoiredesarts à partir d’une langue étrangère, de localiser automatiquement un monument sur une carte géographique, d’associer des images ou des définitions à une recherche, ou encore de générer des index thématiques (index des écrivains, des peintres…)

- Des relations logiques sous-jacentes aux contenus de Wikipédia (par exemple les relations d’inclusion entre villes, départements et régions de France) permettent d’enrichir les fonctionnalités de recherche, par exemple retrouver toutes les villes appartenant à une région.

Grâce à cet outil, les 350 institutions partenaires du projet pourront enrichir et mettre à jour elles-mêmes les données les concernant.

« HDA-Lab », preuve de concept

HDA-Lab

« HDA-Lab » est une interface de recherche et de navigation de la version sémantisée du corpus Histoiredesarts.

Les premières fonctionnalités mises en ligne aujourd’hui (non définitives) mettent l’accent sur la recherche par facettes : le temps (ligne du temps), l’espace (carte du monde), les disciplines artistiques (liste des disciplines), les mots-clés thématiques (nuage de tag) et leur partage dans l’univers Web 2.0.

« HDA-Lab » s’enrichira jusqu’au mois de juin d’autres types de fonctionnalités : recherche par liste de complétion augmentée, accès multilingue, carte heuristique, index d’auteurs etc. Le corpus, à ce jour en cours de traitement, sera au final entièrement ré-indexé.

Ce prototype expérimental, qui relève d’une démarche Recherche & Développement, n’a pas vocation à se substituer à l’annuaire Histoiredesarts, mais à explorer les nouvelles voies offertes par le Web 3.0 et favoriser ainsi l’adoption de ces nouvelles technologies par les institutions culturelles.

Cette preuve de concept est résolument orientée utilisateur final : les internautes pourront comparer en direct les fonctionnalités classiques de l’interface d’origine avec les fonctionnalités enrichies de la preuve de concept. L’objectif est de démontrer la faisabilité du tagging sémantique et de sensibiliser l’utilisateur final aux enjeux du Web de données.

Pour aller plus loin :

Article du C/Blog d’A.Monnin, présentant le Web Sémantique.
Article du C/Blog de B. Sajus et A.Monnin présentant HDA-Lab.

  • Jamespot
  • Twitter
  • Facebook
  • Digg
  • Delicious
  • LinkedIn
  • FriendFeed
  • Tumblr
  • Netvibes Share
  • MySpace
  • Share