Up Next

A  Description courte du projet

A.1  Contexte et motivation du projet

The main motivations of the PASSAGE project are twofold :
  1. to improve the accuracy and robustness of existing French parsers by using them on large scale corpora (several millions of words) and
  2. to exploit the resulting syntactic annotations to create richer and more extensive linguistic resources.
The adopted methodology consists of a feedback loop between parsing and resource creation as follows:
  1. parsing is used to create syntactic annotations
  2. syntactic annotations are used to create or enrich linguistic resources such as lexicons, grammars or annotated corpora
  3. the linguistic resources created or enriched on the basis of the syntactic annotations are then integrated into the existing parsers
  4. the enriched parsers are used to create richer (e.g., syntactico-semantic) annotations
  5. etc.
More generally, the PASSAGE project should help seeing the emergence of linguistic processing chains exploiting richer lexical informations, in particular semantic ones.

PASSAGE will build up on the results of the EASy French parsing evaluation campaign (EASy/Evalda action [http://www.technolangue.net/article198.html], Technolangue program). This campaign has shown that several parsing systems are now available for French but that robustness and accuracy can still be largely improved, especially for oral data.

Furthermore, although the initial plan was to combine the results produced by each participant to construct a treebank for French (a corpus annotated with syntactic information), the creation of this treebank is still to be achieved and the expected output, while very valuable, remains relatively small (around 40K sentences with a subset of around 4K sentences manually validated), compared to emerging international standards (10M to 100M words, i.e. 0.5M to 5M sentences).

PASSAGE aims at pursuing and extending the line of research initiated by the EASy campaign. In particular, PASSAGE aims at: The participation of around 10 parsing systems in a collective effort geared towards improving parsing robustness and acquiring linguistic knowledge from large scale corpora is a rather unique event. We believe that the combination of so many sources of information over a relatively long period of adaptation ensures good chances of success for the proposal.

A.2  Retombées scientifiques et techniques attendues

The expected results of the PASSAGE project include:

A.3  Retombées industrielles et economiques escomptées (le cas écheant)

Parsing is an important phase of linguistic processing that is not yet so widely deployed in industrial applications, because of its complexity and because of the requirement in terms of resources. PASSAGE could alter this situation thanks to:

A.1  Contexte et motivation du projet (Fr)

Les motivations principales de la proposition PASSAGE sont doubles: La méthodologie adoptée consiste en une boucle de rétroaction (feedback) entre analyse syntaxique et création de ressources, comme suit:
  1. l'analyse syntaxique est utilisée pour créer des annotations syntaxiques
  2. les annotations sont utilisées pour créer ou enrichir des ressources linguistiques comme des lexiques, grammaires ou corpus annotés
  3. les ressources créées ou enrichies sur la base des annotations sont ensuite intégrées dans les systèmes d'analyse.
  4. les analyseurs enrichis sont utilisés pour créer des ressources encore plus riches (par exemple syntactico-sémantiques)
  5. etc.
Plus généralement, le projet PASSAGE devrait aussi aider à faire émerger des chaînes de traitement linguistique exploitant des informations lexicales plus riches, en particulier sémantiques.

PASSAGE s'appuie sur les résultats de la campagne d'évaluation des analyseurs syntaxiques menée dans le cadre de l'action EASy/EVALDA [http://www.technolangue.net/article198.html] (programme Technolangue). Cette campagne a montré que plusieurs systèmes d'analyse existent désormais pour le Français. Néanmoins, bien que les résultats furent meilleurs que prévus, cette campagne a confirmé que la robustesse et la précision peuvent encore être largement améliorées, en particulier pour les données orales.

De plus, bien que le plan initial de EASy était de combiner les résultats produits par chaque participant pour construire une treebank du Français (un corpus annoté syntaxiquement), cette phase reste à venir, et le résultat, malgré son intérêt certain, restera relativement limité (environ 40K phrases avec un sous-ensemble de 4K phrases manuellement validées), au regard des standards internationaux qui émergent (10M à 100M mots, i.e. 0.5M à 5M phrases).

PASSAGE vise à poursuivre et à étendre la ligne de recherche initiée par la campagne EASy. En particulier, PASSAGE cherche à: La participation d'une dizaine systèmes d'analyse syntaxique dans un effort collectif tourné vers l'acquisition de ressources linguistiques est un occasion plutôt unique. Nous pensons que la combinaison d'autant de sources d'information sur une période d'adaptation relativement longue renforce les chances de succès de cette proposition.

A.2  Retombées scientifiques et techniques attendues (Fr)

Les retombées attendues du projet PASSAGE incluent:

A.3  Retombées industrielles et économiques escomptées (Fr)

L'analyse syntaxique est une phase importante de traitement linguistique qui n'est pas actuellement largement déployée dans le cadre d'applications industrielles, en partie à cause de sa complexité et des besoins en termes de ressources. PASSAGE pourrait altérer cette situation grâce à:
Eric de la Clergerie
Up Next