Stage d'option en Informatique






Titre:
Analyseur syntaxique robuste pour le français

Laboratoire:
Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr

Lieu du stage:
Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html

Equipe:
ATOLL (Atelier d'outils logiciels pour le langage naturel)
http://atoll.inria.fr

Responsable administratif du stage:

Bernard Lang (Email Bernard.Lang@inria.fr)

Responsable du suivi du stage:

Eric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger

Présentation générale du sujet:


S'appuyant sur le système DyALog que nous développons dans ATOLL, une équipe portugaise a réalisé un analyseur syntaxique efficace pour le portugais. Cet analyseur est robuste (car retournant des fragments d'analyses même pour des phrases mal construites) et utilise une architecture en 3 couches, chaque couche étant dédiée à un niveau d'analyse syntaxique (analyse des mots, recherche des constituants syntaxiques élémentaires, et attachement de ces constituants). Nous proposons de reprendre la méthodologie suivie pour le portugais et de l'adapter (dans la mesure du possible) pour le français, toujours dans le cadre du système DyALog.

Résumé du travail souhaité:


Le stage commencera par une période de formation sur les grammaires d'unification, dont, en particulier, les BMG (Bound Movement Grammars) utilisées par l'équipe portugaise. Cette formation se fera en parallèle avec l'examen de la grammaire du portugais et de l'implantation actuelle des BMG dans DyALog.

Le coeur du travail consistera ensuite à développer une (petite) grammaire du français en s'inspirant de celle du portugais et à tester les performances de celle-ci (en terme de couverture de la langue et de rapidité) sur un corpus de textes.

Ce stage devrait normalement donner lieu à une visite de quelques semaines à Lisbonne afin de comprendre les détails de l'environnement développé par l'équipe portugaise.

Matériel utilisé:


PC sous Linux

Connaissances requises:


Connaissances en Programmation en Logique. Intérêt pour la linguistique et en particulier pour la description du français. Des connaissances en portugais sont bienvenues.

Ce document a été traduit de LATEX par HEVEA.