ANR MDCA Passage

L'action PASSAGE vise à "Produire des Annotations Syntaxiques à Grande Échelle" pour aller de l'avant et est une action avalisée dans le cadre de l'appel 2006 ANR MDCA "Masses de Données / Connaissances Ambiantes".

PASSAGE est prévue de début 2007 à fin 2009

Objectifs
Les motivations principales de la proposition PASSAGE sont doubles:
  • améliorer la précision et la robustesse des analyseurs syntaxiques existants pour le français, en les utilisant sur de gros corpus (plusieurs millions de mots) et
  • exploiter les annotations syntaxiques résultantes pour créer des ressources linguistiques plus riches et plus extensives.
La méthodologie adoptée consiste en une boucle de rétroaction (feedback) entre analyse syntaxique et création de ressources, comme suit:
  1. l'analyse syntaxique est utilisée pour créer des annotations syntaxiques
  2. les annotations sont utilisées pour créer ou enrichir des ressources linguistiques comme des lexiques, grammaires ou corpus annotés
  3. les ressources créées ou enrichies sur la base des annotations sont ensuite intégrées dans les systèmes d'analyse.
  4. les analyseurs enrichis sont utilisés pour créer des ressources encore plus riches (par exemple syntactico-sémantiques)
  5. etc.

Plus généralement, le projet PASSAGE devrait aussi aider à faire émerger des chaînes de traitement linguistique exploitant des informations lexicales plus riches, en particulier sémantiques.

PASSAGE s'appuie sur les résultats de la campagne d'évaluation des analyseurs syntaxiques menée dans le cadre de l'action EASy/EVALDA [http://www.technolangue.net/article198.html] (programme Technolangue). Cette campagne a montré que plusieurs systèmes d'analyse existent désormais pour le Français. Néanmoins, bien que les résultats furent meilleurs que prévus, cette campagne a confirmé que la robustesse et la précision peuvent encore être largement améliorées, en particulier pour les données orales.

De plus, bien que le plan initial de EASy était de combiner les résultats produits par chaque participant pour construire une treebank du Français (un corpus annoté syntaxiquement), cette phase reste à venir, et le résultat, malgré son intérêt certain, restera relativement limité (environ 40K phrases avec un sous-ensemble de 4K phrases manuellement validées), au regard des standards internationaux qui émergent (10M à 100M mots, i.e. 0.5M à 5M phrases).

PASSAGE vise à poursuivre et à étendre la ligne de recherche initiée par la campagne EASy. En particulier, PASSAGE cherche à:

  • organiser des nouvelles campagnes d'évaluation pour évaluer et améliorer les systèmes d'analyse syntaxiques du Français sur de gros corpus (millions de mots)
  • finaliser une méthodologie pour comparer et fusionner les résultats fournis par plusieurs analyseurs
  • utiliser les résultats fusionnés des meilleurs analyseurs pour construire une treebank du Français
  • valider cette treebank soit manuellement soit automatiquement
  • utiliser à la fois cette treebank et la partie non-validée du gros corpus annoté syntaxiquement pour extraire des informations linguistiques
  • intégrer les ressources ainsi acquises dans les analyseurs
  • développer les méthodologies pour évaluer la qualité des ressources ainsi acquises

La participation d'une dizaine systèmes d'analyse syntaxique dans un effort collectif tourné vers l'acquisition de ressources linguistiques est un occasion plutôt unique et augmentant les chances de succès de PASSAGE.

schema