Stage d'option en Informatique
en ligne à
http://atoll.inria.fr rubrique «Rejoindre ATOLL»


Titre:
Structuration d'un lexique syntactico-sémantique sous forme de graphe d'héritage

Laboratoire:
Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr

Lieu du stage:
Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html

Équipe:
ATOLL (Atelier d'outils logiciels pour le langage naturel)
http://atoll.inria.fr

Responsable administratif du stage:

Éric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)

Responsables du suivi du stage:

Benoît Sagot et Éric de la Clergerie
Tel: 01 39 63 57 01 / 54 10
Emails: {Benoit.Sagot;Eric.De_La_Clergerie}@inria.fr
Url: http://atoll.inria.fr/~clerger

Présentation générale du sujet:


Le projet Atoll développe des outils et ressources pour le traitement linguistique. Ainsi, nous disposons d'analyseurs syntaxiques du français s'appuyant sur les informations données pour chaque mot par un lexique (typiquement 500 000 entrées). La nature des informations de ce lexique, leur représentation et leur accès sont donc cruciaux.

Classiquement, les lexiques sont des fichiers textes associant à chaque mot connu un certain nombre d'informations relativement simples, comme leur lemme (l'infinitif pour une forme verbale), leurs caractéristiques morphologiques (temps, mode, genre...), et si possible leurs caractéristiques syntaxiques (transitivité par exemple). Toutefois, une telle organisation est loin d'être optimale: les lexiques sont rapidement extrêmement volumineux, l'accès aux données lexicales est limité en efficacité et l'ajout de nouveaux types d'information (sémantiques, par exemple) est très délicat.

C'est pourquoi nous commençons à organiser les informations lexicales sous la forme d'un graphe d'héritage de propriétés. Le but de ce stage est de concevoir et de développer un module lexical implémentant cette structure d'héritage qui soit plus efficace que les outils déjà disponibles. L'idée est de disposer d'un module accessible par tout composant de la chaîne d'analyse et qui soit à même de répondre à des requêtes sur un mot particulier en parcourant le graphe d'héritage. Ainsi, une requête de type «le verbe "refaire" est-il transitif» sera résolue en suivant le graphe d'héritage qui mènera (entre autres) de "refaire" à "faire" puis à "verbe transitif". Des mécanismes de faible non-monotonie sont à envisager. Une représentation de ce type, bien plus compacte qu'un lexique classique, permet de représenter des informations morphologiques, syntaxiques mais aussi sémantiques.

Les techniques d'analyse utilisent massivement le lexique. Pour cette raison, le développement de ce module doit se faire avec de fortes contraintes d'efficacité. Il sera programmé en C, et il sera fortement optimisé. Des mécanismes de cache des requêtes les plus fréquentes sont souhaitables, à la fois globalement et au niveau des noeuds de la structure. Enfin, il faudra prendre en considération les problèmes liés à l'ambiguïté lexicale et aux mots inconnus.

Ce stage est l'occasion de mettre en oeuvre une nouvelle architecture de référence pour les données lexicales. Ce sujet est riche en ce qu'il comprend des aspects théoriques (organisation du lexique, types d'héritage), algorithmiques (implémentation de l'héritage, contraintes d'efficacité), et linguistique. Cependant, pour ce dernier aspect, des compétences en linguistique ne sont pas indispensables, une ouverture d'esprit vers les problématiques des sciences du langage étant suffisante.

Connaissances requises:
Sensibilité aux questions algorithmiques (graphes d'héritage, représentation compacte de données, cache). Connaissance du langage C. Intérêt pour la linguistique informatique.

Matériel utilisé:

PC sous Linux (possibilité de portage sous d'autres UNIX, en particulier Mac OS X)

Ce document a été traduit de LATEX par HEVEA.