Stage d'option en Informatique
- Titre:
- Analyseur syntaxique robuste pour le français
- Laboratoire:
- Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr
- Lieu du stage:
- Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html
- Equipe:
- ATOLL (Atelier d'outils
logiciels pour le langage naturel)
http://atoll.inria.fr
- Responsable administratif du stage:
Bernard Lang (Email Bernard.Lang@inria.fr)
- Responsable du suivi du stage:
Eric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger
- Présentation générale du sujet:
-
S'appuyant sur le système DyALog que nous développons dans ATOLL,
une équipe portugaise a réalisé un analyseur syntaxique efficace
pour le portugais. Cet analyseur est robuste (car retournant des
fragments d'analyses même pour des phrases mal construites) et
utilise une architecture en 3 couches, chaque couche étant dédiée à
un niveau d'analyse syntaxique (analyse des mots, recherche des
constituants syntaxiques élémentaires, et attachement de ces
constituants). Nous proposons de reprendre la méthodologie suivie
pour le portugais et de l'adapter (dans la mesure du possible) pour
le français, toujours dans le cadre du système DyALog.
- Résumé du travail souhaité:
Le stage commencera par une période de formation sur les grammaires
d'unification, dont, en particulier, les BMG (Bound Movement
Grammars) utilisées par l'équipe portugaise. Cette formation se
fera en parallèle avec l'examen de la grammaire du portugais et de
l'implantation actuelle des BMG dans DyALog.
Le coeur du travail consistera ensuite à développer une (petite)
grammaire du français en s'inspirant de celle du portugais et à
tester les performances de celle-ci (en terme de couverture de la
langue et de rapidité) sur un corpus de textes.
Ce stage devrait normalement donner lieu à une visite de quelques
semaines à Lisbonne afin de comprendre les détails de
l'environnement développé par l'équipe portugaise.
- Matériel utilisé:
PC sous Linux
- Connaissances requises:
Connaissances en Programmation en Logique. Intérêt pour la
linguistique et en particulier pour la description du français. Des
connaissances en portugais sont bienvenues.
Ce document a été traduit de LATEX par
HEVEA.