- Titre:
- Structuration d'un lexique syntactico-sémantique sous forme de graphe d'héritage
- Laboratoire:
- Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr
- Lieu du stage:
- Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html
- Équipe:
- ATOLL (Atelier d'outils
logiciels pour le langage naturel)
http://atoll.inria.fr
- Responsable administratif du stage:
Éric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)
- Responsables du suivi du stage:
Benoît Sagot et Éric de la Clergerie
Tel: 01 39 63 57 01 / 54 10
Emails: {Benoit.Sagot;Eric.De_La_Clergerie}@inria.fr
Url: http://atoll.inria.fr/~clerger
- Présentation générale du sujet:
-
Le projet Atoll développe des outils et ressources pour le
traitement linguistique. Ainsi, nous disposons d'analyseurs
syntaxiques du français s'appuyant sur les informations données pour
chaque mot par un lexique (typiquement 500 000 entrées). La nature
des informations de ce lexique, leur représentation et leur accès
sont donc cruciaux.
Classiquement, les lexiques sont des fichiers textes associant à
chaque mot connu un certain nombre d'informations relativement
simples, comme leur lemme (l'infinitif pour une forme verbale),
leurs caractéristiques morphologiques (temps, mode, genre...), et
si possible leurs caractéristiques syntaxiques (transitivité par
exemple). Toutefois, une telle organisation est loin d'être
optimale: les lexiques sont rapidement extrêmement volumineux,
l'accès aux données lexicales est limité en efficacité et l'ajout de
nouveaux types d'information (sémantiques, par exemple) est très
délicat.
C'est pourquoi nous commençons à organiser les informations
lexicales sous la forme d'un graphe d'héritage de propriétés. Le but
de ce stage est de concevoir et de développer un module lexical
implémentant cette structure d'héritage qui soit plus efficace que
les outils déjà disponibles. L'idée est de disposer d'un module
accessible par tout composant de la chaîne d'analyse et qui soit à
même de répondre à des requêtes sur un mot particulier en parcourant
le graphe d'héritage. Ainsi, une requête de type «le verbe "refaire"
est-il transitif» sera résolue en suivant le graphe d'héritage qui
mènera (entre autres) de "refaire" à "faire" puis à "verbe
transitif". Des mécanismes de faible non-monotonie sont à envisager.
Une représentation de ce type, bien plus compacte qu'un lexique
classique, permet de représenter des informations morphologiques,
syntaxiques mais aussi sémantiques.
Les techniques d'analyse utilisent massivement le lexique. Pour
cette raison, le développement de ce module doit se faire avec de
fortes contraintes d'efficacité. Il sera programmé en C, et il sera
fortement optimisé. Des mécanismes de cache des requêtes les plus
fréquentes sont souhaitables, à la fois globalement et au niveau des
noeuds de la structure. Enfin, il faudra prendre en considération
les problèmes liés à l'ambiguïté lexicale et aux mots inconnus.
Ce stage est l'occasion de mettre en oeuvre une nouvelle
architecture de référence pour les données lexicales. Ce sujet est
riche en ce qu'il comprend des aspects théoriques (organisation du
lexique, types d'héritage), algorithmiques (implémentation de
l'héritage, contraintes d'efficacité), et linguistique. Cependant,
pour ce dernier aspect, des compétences en linguistique ne sont pas
indispensables, une ouverture d'esprit vers les problématiques des
sciences du langage étant suffisante.
- Connaissances requises:
- Sensibilité aux questions
algorithmiques (graphes d'héritage, représentation compacte de
données, cache). Connaissance du langage C. Intérêt pour la
linguistique informatique.
- Matériel utilisé:
PC sous Linux (possibilité de portage sous d'autres UNIX, en particulier Mac OS X)
Ce document a été traduit de LATEX par
HEVEA.