Proposition de stage
en ligne à
http://atoll.inria.fr rubrique «Rejoindre ATOLL»




Titre:
Factorisation de parcours d'arbres pour les TAG

Laboratoire:
Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr

Lieu du stage:
Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html

Equipe:
ATOLL (Atelier d'outils logiciels pour le langage naturel)
http://atoll.inria.fr

Responsable administratif du stage:

Eric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)

Responsable du suivi du stage:

Eric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger

Présentation générale du sujet:

Développé au sein du projet ATOLL, le système DyALog est un environnement de programmation logique permettant la construction d'analyseurs syntaxiques pour divers formalismes linguistiques dont celui des grammaires d'arbres adjoints (TAG). Les TAG reposent sur l'emploi d'arbres élémentaire dont la combinaison par substitution et adjonction permet de construire la structure grammaticale des phrases (voir démo).

Les grammaires TAG dite à large couverture (pour le français et l'anglais) comportent plusieurs milliers d'arbres élémentaires et posent des problèmes de compilation des parseurs et de performances des analyses.

Pour remédier à ces problèmes, nous souhaitons factoriser au sein d'automates finis les parcours gauches qui sont commun à plusieurs arbres (cas très fréquent).

L'objectif de ce stage est donc l'implantion de ce mécanisme de factorisation dans DyALog afin de mesurer les gains obtenus.

Résumé du travail souhaité:

L'implantion du mécanisme de factorisation doit se faire dans le cadre du système DyALog, qui est proche d'un environnement de programmation en logique à la Prolog.

La factorisation sera d'abord mise en place et testée pour des grammaires TAGs pures (sans arguments).

Dans un deuxième temps, elle sera étendue pour traiter des grammaires TAG avec arguments (Feature TAG) qui utilisent l'unification Prolog. Ce cas pose un certain nombre de problème devant être analysé en détail pour permettre une factorisation efficace.

Si le temps le permet, cette idée de factorisation sera également appliquée pour d'autres formalismes grammaticaux implantés dans DyALog comme les DCG (Definite Clause Grammars).

Connaissances requises:

TAG, Programmation en Logique, Analyse Syntaxique.

Matériel utilisé:

PC sous Linux

Ce document a été traduit de LATEX par HEVEA.