- Titre:
- Chaîne d'acquisition linguistique
- Laboratoire:
- Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr
- Lieu du stage:
- Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html
- Equipe:
- ATOLL (Atelier d'outils
logiciels pour le langage naturel)
http://atoll.inria.fr
- Responsable administratif du stage:
Eric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)
- Responsable du suivi du stage:
Eric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger
- Présentation générale du sujet:
Suite à un projet d'acquisition de lexiques linguistiques
(action RLT), le projet ATOLL
a mis en place une chaîne de traitement linguistique comportant de
nombreux éléments (étiqueteurs, analyseurs syntaxiques, pipeline
XML, bases de données SQL, serveurs de données linguistiques,
interface de saisie d'entrées lexicales). L'objectif de cette chaîne
est de pouvoir retrouver les usages courants des mots en relation
avec une grammaire en analysant de gros corpus de documents. Ainsi,
on peut espérer retrouver que sur l'ensemble des occurrences du
verbe «donner», la grande majorité d'entre elles correspondent à la
définition d'un verbe ditransitif avec la préposition «à»
(donner «quelque chose» à «quelqu'un»). En bout de chaîne,
des propositions de classification des mots sont proposés à
validation afin d'enrichir le lexique.
Cette chaîne n'est pas encore totalement opérationnelle et
l'objectif de ce stage est de poursuivre l'effort entrepris, en
collaboration avec les divers membres de l'équipe. Il est également
envisagé de conduire le maximum de tests avec cette chaîne
d'acquisition pour l'évaluer.
Ce stage est l'occasion de découvrir l'ensemble des éléments
intervenant dans une chaîne de traitement linguistique, en les
faisant fonctionner sur des corpus importants. Le travail portera
plus particulièrement sur les problèmes de communication (XML) entre
les composants et sur les derniers maillons de la chaîne, à savoir
les modules de stockage et d'accès de l'information (données en XML
stockés dans des bases de données), le module de calcul statistique
(information distributionnelle) et l'interface de validation des
entrées lexicales.
- Connaissances requises:
Connaissances bases de données (SQL), technologie XML (dont services
WEB et bases de données XML), Java, Perl et serveurs. Capacités à se
plonger dans du code existant et à maitriser des technologies
récentes. Compétences linguistiques ou fort interêt pour ce domaine.
- Matériel utilisé:
PC sous Linux
Ce document a été traduit de LATEX par
HEVEA.