- Titre:
- Fouille d'erreurs en analyse syntaxique
- Laboratoire:
- Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr
- Lieu du stage:
- Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html
- Équipe:
- ATOLL (Atelier d'outils
logiciels pour le langage naturel)
http://atoll.inria.fr
- Responsable administratif du stage:
Éric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)
- Responsable du suivi du stage:
Éric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger
- Présentation générale du sujet:
-
Le projet Atoll développe des outils et des ressources pour le
traitement linguistique. Ainsi, nous disposons d'un analyseur
syntaxique du français s'appuyant sur les informations données pour
chaque mot par un lexique (en ligne sur
http://atoll.inria.fr/parserdemo) Cependant, améliorer la
couverture syntaxique d'une grammaire et améliorer la qualité d'un
lexique (+ de 400000 entrées) sont des tâches difficiles à cause de
la richesse de la langue.
C'est pourquoi nous essayons d'explorer des mécanismes de retour
(«feedback») à partir de l'analyse de corpus (de quelques dizaines à
centaines de millier de phrases, comme par exemple sur 300000
phrases du «Monde diplomatique»). Par example, nous cherchons à
caractériser le taux d'échec (pour l'analyse) pour un mot, un lemme,
une séquence de mots, ... de manière à repérer rapidemment les
lacunes les plus flagrantes du lexique et de la grammaire.
Outre le fait de conduire des campagnes d'analyse de corpus, si
possible en s'appuyant sur des grilles de machines, le but de ce
stage est de compléter les ébauches de mécanismes de retour
actuellement disponibles. De meilleures solutions algorithmiques
(éventuellement fondées sur l'emploi de bases de données et/ou de
«suffix arrays») doivent en particulier être recherchées pour
faire face au volume conséquent de données à traiter. D'autre part,
dans la mesure du possible, les mécanismes de retour pourront être
complétés par la recherche automatique de propositions de correction
pour les mots erronés du lexique. L'objectif est donc non seulement
de rechercher les erreurs mais de proposer à l'utilisateur les
meilleures hypothèses de correction possibles. En pratique, cette
formulation d'hypothèses pourra se faire, pour un mot donné, en
formulant des généralisations pertinentes sur l'usage de ce mot et
en réanalysant les phrases comportant ce mot. Dans le cadre de
formulation d'hypothèses, le design d'une interface de présentation
des hypothèses à un linguiste validateur peut être envisagé.
Ce stage est l'occasion d'utiliser des outils de traitement
linguistique à grande échelle et d'appréhender leurs limites. Sans
nécessiter de connaissances linguistiques poussées, un minimum
d'intuition linguistique sera néanmoins utile. Ce stage comprend
également une composante apprentissage, nécessitant quelques
compétences statistiques.
- Connaissances requises:
- Sensibilité aux questions
algorithmiques. Intérêt pour la linguistique informatique. Intérêt
pour les techniques statistiques et d'apprentissage.
- Matériel utilisé:
PC sous Linux
Ce document a été traduit de LATEX par HEVEA