- Titre:
- Factorisation de parcours d'arbres pour les TAG
- Laboratoire:
- Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr
- Lieu du stage:
- Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html
- Equipe:
- ATOLL (Atelier d'outils
logiciels pour le langage naturel)
http://atoll.inria.fr
- Responsable administratif du stage:
Eric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)
- Responsable du suivi du stage:
Eric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger
- Présentation générale du sujet:
Développé au sein du projet ATOLL, le système DyALog est un
environnement de programmation logique permettant la construction
d'analyseurs syntaxiques pour divers formalismes linguistiques dont
celui des grammaires d'arbres adjoints (TAG). Les TAG reposent sur
l'emploi d'arbres élémentaire dont la combinaison par substitution
et adjonction permet de construire la structure grammaticale des
phrases (voir
démo).
Les grammaires TAG dite à large couverture (pour le français et
l'anglais) comportent plusieurs milliers d'arbres élémentaires et
posent des problèmes de compilation des parseurs et de performances
des analyses.
Pour remédier à ces problèmes, nous souhaitons factoriser au sein
d'automates finis les parcours gauches qui sont commun à plusieurs
arbres (cas très fréquent).
L'objectif de ce stage est donc l'implantion de ce mécanisme de
factorisation dans DyALog afin de mesurer les gains obtenus.
- Résumé du travail souhaité:
L'implantion du mécanisme de factorisation doit se faire dans le
cadre du système DyALog, qui est proche d'un environnement de
programmation en logique à la Prolog.
La factorisation sera d'abord mise en place et testée pour des
grammaires TAGs pures (sans arguments).
Dans un deuxième temps, elle sera étendue pour traiter des
grammaires TAG avec arguments (Feature TAG) qui utilisent
l'unification Prolog. Ce cas pose un certain nombre de problème
devant être analysé en détail pour permettre une factorisation
efficace.
Si le temps le permet, cette idée de factorisation sera également
appliquée pour d'autres formalismes grammaticaux implantés dans
DyALog comme les DCG (Definite Clause Grammars).
- Connaissances requises:
TAG, Programmation en Logique, Analyse Syntaxique.
- Matériel utilisé:
PC sous Linux
Ce document a été traduit de LATEX par
HEVEA.