Stage d'option en Informatique
en ligne à
http://atoll.inria.fr rubrique «Rejoindre ATOLL»





Titre:
Fouille d'erreurs en analyse syntaxique

Laboratoire:
Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr

Lieu du stage:
Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html

Équipe:
ATOLL (Atelier d'outils logiciels pour le langage naturel)
http://atoll.inria.fr

Responsable administratif du stage:

Éric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)

Responsable du suivi du stage:

Éric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger

Présentation générale du sujet:


Le projet Atoll développe des outils et des ressources pour le traitement linguistique. Ainsi, nous disposons d'un analyseur syntaxique du français s'appuyant sur les informations données pour chaque mot par un lexique (en ligne sur http://atoll.inria.fr/parserdemo) Cependant, améliorer la couverture syntaxique d'une grammaire et améliorer la qualité d'un lexique (+ de 400000 entrées) sont des tâches difficiles à cause de la richesse de la langue.

C'est pourquoi nous essayons d'explorer des mécanismes de retour («feedback») à partir de l'analyse de corpus (de quelques dizaines à centaines de millier de phrases, comme par exemple sur 300000 phrases du «Monde diplomatique»). Par example, nous cherchons à caractériser le taux d'échec (pour l'analyse) pour un mot, un lemme, une séquence de mots, ... de manière à repérer rapidemment les lacunes les plus flagrantes du lexique et de la grammaire.

Outre le fait de conduire des campagnes d'analyse de corpus, si possible en s'appuyant sur des grilles de machines, le but de ce stage est de compléter les ébauches de mécanismes de retour actuellement disponibles. De meilleures solutions algorithmiques (éventuellement fondées sur l'emploi de bases de données et/ou de «suffix arrays») doivent en particulier être recherchées pour faire face au volume conséquent de données à traiter. D'autre part, dans la mesure du possible, les mécanismes de retour pourront être complétés par la recherche automatique de propositions de correction pour les mots erronés du lexique. L'objectif est donc non seulement de rechercher les erreurs mais de proposer à l'utilisateur les meilleures hypothèses de correction possibles. En pratique, cette formulation d'hypothèses pourra se faire, pour un mot donné, en formulant des généralisations pertinentes sur l'usage de ce mot et en réanalysant les phrases comportant ce mot. Dans le cadre de formulation d'hypothèses, le design d'une interface de présentation des hypothèses à un linguiste validateur peut être envisagé.

Ce stage est l'occasion d'utiliser des outils de traitement linguistique à grande échelle et d'appréhender leurs limites. Sans nécessiter de connaissances linguistiques poussées, un minimum d'intuition linguistique sera néanmoins utile. Ce stage comprend également une composante apprentissage, nécessitant quelques compétences statistiques.

Connaissances requises:
Sensibilité aux questions algorithmiques. Intérêt pour la linguistique informatique. Intérêt pour les techniques statistiques et d'apprentissage.

Matériel utilisé:

PC sous Linux

Ce document a été traduit de LATEX par HEVEA