Proposition de stage
en ligne à
http://atoll.inria.fr rubrique «Rejoindre ATOLL»




Titre:
Chaîne d'acquisition linguistique

Laboratoire:
Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr

Lieu du stage:
Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html

Equipe:
ATOLL (Atelier d'outils logiciels pour le langage naturel)
http://atoll.inria.fr

Responsable administratif du stage:

Eric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)

Responsable du suivi du stage:

Eric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger

Présentation générale du sujet:

Suite à un projet d'acquisition de lexiques linguistiques (action RLT), le projet ATOLL a mis en place une chaîne de traitement linguistique comportant de nombreux éléments (étiqueteurs, analyseurs syntaxiques, pipeline XML, bases de données SQL, serveurs de données linguistiques, interface de saisie d'entrées lexicales). L'objectif de cette chaîne est de pouvoir retrouver les usages courants des mots en relation avec une grammaire en analysant de gros corpus de documents. Ainsi, on peut espérer retrouver que sur l'ensemble des occurrences du verbe «donner», la grande majorité d'entre elles correspondent à la définition d'un verbe ditransitif avec la préposition «à» (donner «quelque chose» à «quelqu'un»). En bout de chaîne, des propositions de classification des mots sont proposés à validation afin d'enrichir le lexique.

Cette chaîne n'est pas encore totalement opérationnelle et l'objectif de ce stage est de poursuivre l'effort entrepris, en collaboration avec les divers membres de l'équipe. Il est également envisagé de conduire le maximum de tests avec cette chaîne d'acquisition pour l'évaluer.

Ce stage est l'occasion de découvrir l'ensemble des éléments intervenant dans une chaîne de traitement linguistique, en les faisant fonctionner sur des corpus importants. Le travail portera plus particulièrement sur les problèmes de communication (XML) entre les composants et sur les derniers maillons de la chaîne, à savoir les modules de stockage et d'accès de l'information (données en XML stockés dans des bases de données), le module de calcul statistique (information distributionnelle) et l'interface de validation des entrées lexicales.

Connaissances requises:

Connaissances bases de données (SQL), technologie XML (dont services WEB et bases de données XML), Java, Perl et serveurs. Capacités à se plonger dans du code existant et à maitriser des technologies récentes. Compétences linguistiques ou fort interêt pour ce domaine.

Matériel utilisé:

PC sous Linux

Ce document a été traduit de LATEX par HEVEA.