Description courte du projet

A Description courte du projet

A.1 Contexte et motivation du projet

The main motivations of the PASSAGE project are twofold :

to improve the accuracy and robustness of existing French parsers by using them on large scale corpora (several millions of words) and
to exploit the resulting syntactic annotations to create richer and more extensive linguistic resources.

The adopted methodology consists of a feedback loop between parsing and resource creation as follows:

parsing is used to create syntactic annotations
syntactic annotations are used to create or enrich linguistic resources such as lexicons, grammars or annotated corpora
the linguistic resources created or enriched on the basis of the syntactic annotations are then integrated into the existing parsers
the enriched parsers are used to create richer (e.g., syntactico-semantic) annotations
etc.

More generally, the PASSAGE project should help seeing the emergence of linguistic processing chains exploiting richer lexical informations, in particular semantic ones.

PASSAGE will build up on the results of the EASy French parsing evaluation campaign (EASy/Evalda action [http://www.technolangue.net/article198.html], Technolangue program). This campaign has shown that several parsing systems are now available for French but that robustness and accuracy can still be largely improved, especially for oral data.

Furthermore, although the initial plan was to combine the results produced by each participant to construct a treebank for French (a corpus annotated with syntactic information), the creation of this treebank is still to be achieved and the expected output, while very valuable, remains relatively small (around 40K sentences with a subset of around 4K sentences manually validated), compared to emerging international standards (10M to 100M words, i.e. 0.5M to 5M sentences).

PASSAGE aims at pursuing and extending the line of research initiated by the EASy campaign. In particular, PASSAGE aims at:

running new evaluation campaigns to assess and improve the parsers for French on large scale corpora (billions of words)
finalising a methodology for comparing and merging the output of several parsers
using the merged output of the best parsers to construct a treebank for French
validating this automatically constructed treebank either manually or automatically
using both the validated treebank and the non validated large scale corpora annotated with syntactic information to extract linguistic information
integrating the thus acquired linguistic information into parsers
developing methodologies for evaluating the quality of the acquired resources

The participation of around 10 parsing systems in a collective effort geared towards improving parsing robustness and acquiring linguistic knowledge from large scale corpora is a rather unique event. We believe that the combination of so many sources of information over a relatively long period of adaptation ensures good chances of success for the proposal.

A.2 Retombées scientifiques et techniques attendues

The expected results of the PASSAGE project include:

the emergence of more robust, efficient and accurate linguistic processing chains for French, with a better evaluation of their level of performance
the identification of methodologies and protocols to perform linguistic knowledge acquisition tasks. These methodologies should be adaptable for other languages than French, in particular to handle resources poor languages and overcome the famous bottleneck problem in NLP.
a French dependency treebank for parsing technology improvement.
the enrichment of French linguistic resources (grammars, syntactico-semantic lexica, a prototype PropBank)
the consolidation of a strong parsing community in France, familiar with the systematic use of large scale evaluation procedures.

A.3 Retombées industrielles et economiques escomptées (le cas écheant)

Parsing is an important phase of linguistic processing that is not yet so widely deployed in industrial applications, because of its complexity and because of the requirement in terms of resources. PASSAGE could alter this situation thanks to:

the emergence of more robust, efficient, and accurate linguistic processing chains for French. These systems should be natural candidates for industrial transfer and exploitation in more industrial applications.
the availability of more linguistic resources for French (lexica, grammars)
the assessment of syntactic annotations, and in particular syntactic dependencies, as an emerging source of data for information extraction applications (as is already the case for other languages, esp. English).
the validation of a method for improving language processing technologies, through evaluation and combination of parsing systems.

A.1 Contexte et motivation du projet (Fr)

Les motivations principales de la proposition PASSAGE sont doubles:

améliorer la précision et la robustesse des analyseurs syntaxiques existants pour le Français, en les utilisant sur de gros corpus (plusieurs million de mots) et
exploiter les annotations syntaxiques résultantes pour créer des ressources linguistiques plus riches et plus extensives.

La méthodologie adoptée consiste en une boucle de rétroaction (feedback) entre analyse syntaxique et création de ressources, comme suit:

l'analyse syntaxique est utilisée pour créer des annotations syntaxiques
les annotations sont utilisées pour créer ou enrichir des ressources linguistiques comme des lexiques, grammaires ou corpus annotés
les ressources créées ou enrichies sur la base des annotations sont ensuite intégrées dans les systèmes d'analyse.
les analyseurs enrichis sont utilisés pour créer des ressources encore plus riches (par exemple syntactico-sémantiques)
etc.

Plus généralement, le projet PASSAGE devrait aussi aider à faire émerger des chaînes de traitement linguistique exploitant des informations lexicales plus riches, en particulier sémantiques.

PASSAGE s'appuie sur les résultats de la campagne d'évaluation des analyseurs syntaxiques menée dans le cadre de l'action EASy/EVALDA [http://www.technolangue.net/article198.html] (programme Technolangue). Cette campagne a montré que plusieurs systèmes d'analyse existent désormais pour le Français. Néanmoins, bien que les résultats furent meilleurs que prévus, cette campagne a confirmé que la robustesse et la précision peuvent encore être largement améliorées, en particulier pour les données orales.

De plus, bien que le plan initial de EASy était de combiner les résultats produits par chaque participant pour construire une treebank du Français (un corpus annoté syntaxiquement), cette phase reste à venir, et le résultat, malgré son intérêt certain, restera relativement limité (environ 40K phrases avec un sous-ensemble de 4K phrases manuellement validées), au regard des standards internationaux qui émergent (10M à 100M mots, i.e. 0.5M à 5M phrases).

PASSAGE vise à poursuivre et à étendre la ligne de recherche initiée par la campagne EASy. En particulier, PASSAGE cherche à:

organiser des nouvelles campagnes d'évaluation pour évaluer et améliorer les systèmes d'analyse syntaxiques du Français sur de gros corpus (millions de mots)
finaliser une méthodologie pour comparer et fusionner les résultats fournis par plusieurs analyseurs
utiliser les résultats fusionnés des meilleurs analyseurs pour construire une treebank du Français
valider cette treebank soit manuellement soit automatiquement
utiliser à la fois cette treebank et la partie non-validée du gros corpus annoté syntaxiquement pour extraire des informations linguistiques
intégrer les ressources ainsi acquises dans les analyseurs
développer les méthodologies pour évaluer la qualité des ressources ainsi acquises

La participation d'une dizaine systèmes d'analyse syntaxique dans un effort collectif tourné vers l'acquisition de ressources linguistiques est un occasion plutôt unique. Nous pensons que la combinaison d'autant de sources d'information sur une période d'adaptation relativement longue renforce les chances de succès de cette proposition.

A.2 Retombées scientifiques et techniques attendues (Fr)

Les retombées attendues du projet PASSAGE incluent:

l'émergence de chaînes de traitement linguistique pour le Français qui soient plus robustes, efficaces, et précises, avec de plus une meilleur évaluation de leur niveau de performance.
l'identification de méthodologies et de protocoles pour effectuer des tâches d'acquisition de connaissances linguistiques. Ces méthodologies devraient être adaptables pour d'autres langues que le Français, en particulier pour traiter des langues pauvrement dotées, aidant ainsi à surmonter le fameux problème du goulet d'étranglement en Traitement Automatique des Langues (TAL)
une banque d'annotations syntaxiques (en dépendances) pour le Français, utiles pour améliorer le traitement syntaxique
l'enrichissement de ressources linguistiques pour le Français (lexiques et grammaires)
l'acquisition de connaissances linguistiques aidant au développement d'applications mieux adaptées aux utilisateurs.
la consolidation d'une forte communauté française en analyse syntaxique, familière avec l'utilisation systématique de procédure d'évaluation à grande échelle.

A.3 Retombées industrielles et économiques escomptées (Fr)

L'analyse syntaxique est une phase importante de traitement linguistique qui n'est pas actuellement largement déployée dans le cadre d'applications industrielles, en partie à cause de sa complexité et des besoins en termes de ressources. PASSAGE pourrait altérer cette situation grâce à:

l'émergence de chaîne de traitement linguistique pour le Français, plus robustes, efficaces et précises. Ces systèmes sont des candidats de choix pour des transferts industriels et leur exploitation dans des applications industrielles;
l'accès à plus de ressources linguistiques pour le Français (lexiques, grammaires);
l'évaluation des annotations syntaxiques, et en particulier sous forme de dépendances, comme une source émergent de données pour des applications d'extraction d'information (comme c'est déjà le cas pour d'autres langues, en particulier l'anglais);
la validation d'une méthode pour améliorer les technologies de traitement du langage, au travers l'évaluation et la réunion de systèmes d'analyse syntaxique.

Eric de la Clergerie