A Description courte du projet
A.1 Contexte et motivation du
projet
The main motivations of the
PASSAGE project are twofold :
- to improve the accuracy and
robustness of existing French parsers by using them on
large scale corpora (several millions of words) and
- to exploit the resulting syntactic
annotations to create richer and more extensive linguistic
resources.
The adopted methodology consists of a feedback loop between
parsing and resource creation as follows:
- parsing is used to create syntactic
annotations
- syntactic annotations are used to
create or enrich linguistic resources such as lexicons,
grammars or annotated corpora
- the linguistic resources created or
enriched on the basis of the syntactic annotations are then
integrated into the existing parsers
- the enriched parsers are used to
create richer (e.g., syntactico-semantic) annotations
- etc.
More generally, the PASSAGE project should help
seeing the emergence of linguistic processing chains exploiting
richer lexical informations, in particular semantic ones.
PASSAGE will build up on the results of the EASy
French parsing evaluation campaign (EASy/Evalda
action [http://www.technolangue.net/article198.html],
Technolangue program). This campaign has shown that several
parsing systems are now available for French but that robustness
and accuracy can still be largely improved, especially for oral
data.
Furthermore, although the initial plan was to combine the results
produced by each participant to construct a treebank for French
(a corpus annotated with syntactic information), the creation of
this treebank is still to be achieved and the expected output,
while very valuable, remains relatively small (around 40K
sentences with a subset of around 4K sentences manually
validated), compared to emerging international standards (10M to
100M words, i.e. 0.5M to 5M sentences).
PASSAGE aims at pursuing and extending the line of
research initiated by the EASy
campaign. In particular, PASSAGE aims at:
- running new evaluation campaigns to
assess and improve the parsers for French on large scale
corpora (billions of words)
- finalising a methodology for comparing
and merging the output of several parsers
- using the merged output of the best
parsers to construct a treebank for French
- validating this automatically
constructed treebank either manually or automatically
- using both the validated treebank and
the non validated large scale corpora annotated with syntactic
information to extract linguistic information
- integrating the thus acquired linguistic
information into parsers
- developing methodologies for evaluating
the quality of the acquired resources
The participation of around 10 parsing systems in a
collective effort geared towards improving parsing robustness and
acquiring linguistic knowledge from large scale corpora is a
rather unique event. We believe that the combination of so many
sources of information over a relatively long period of
adaptation ensures good chances of success for the proposal.
A.2 Retombées scientifiques et
techniques attendues
The expected results of the PASSAGE
project include:
- the emergence of more robust, efficient
and accurate linguistic processing chains for French, with a
better evaluation of their level of performance
- the identification of methodologies and
protocols to perform linguistic knowledge acquisition tasks.
These methodologies should be adaptable for other languages
than French, in particular to handle resources poor languages
and overcome the famous bottleneck problem in NLP.
- a French dependency treebank for parsing
technology improvement.
- the enrichment of French linguistic
resources (grammars, syntactico-semantic lexica, a prototype
PropBank)
- the consolidation of a strong parsing
community in France, familiar with the systematic use of large
scale evaluation procedures.
A.3 Retombées industrielles et
economiques escomptées (le cas écheant)
Parsing
is an important phase of linguistic processing that is not yet so
widely deployed in industrial applications, because of its
complexity and because of the requirement in terms of resources.
PASSAGE could alter this situation thanks to:
- the emergence of more robust, efficient,
and accurate linguistic processing chains for French. These
systems should be natural candidates for industrial transfer
and exploitation in more industrial applications.
- the availability of more linguistic
resources for French (lexica, grammars)
- the assessment of syntactic annotations,
and in particular syntactic dependencies, as an emerging source
of data for information extraction applications (as is already
the case for other languages, esp. English).
- the validation of a method for improving
language processing technologies, through evaluation and
combination of parsing systems.
A.1 Contexte et motivation du projet
(Fr)
Les motivations principales de la proposition
PASSAGE sont doubles:
- améliorer la précision
et la robustesse des analyseurs syntaxiques existants pour
le Français, en les utilisant sur de gros corpus
(plusieurs million de mots) et
- exploiter les annotations syntaxiques
résultantes pour créer des ressources
linguistiques plus riches et plus extensives.
La méthodologie adoptée consiste en une boucle
de rétroaction (feedback) entre analyse
syntaxique et création de ressources, comme suit:
- l'analyse syntaxique est
utilisée pour créer des annotations
syntaxiques
- les annotations sont utilisées
pour créer ou enrichir des ressources linguistiques
comme des lexiques, grammaires ou corpus annotés
- les ressources créées ou
enrichies sur la base des annotations sont ensuite
intégrées dans les systèmes
d'analyse.
- les analyseurs enrichis sont
utilisés pour créer des ressources encore plus
riches (par exemple syntactico-sémantiques)
- etc.
Plus généralement, le projet PASSAGE
devrait aussi aider à faire émerger des
chaînes de traitement linguistique exploitant des
informations lexicales plus riches, en particulier
sémantiques.
PASSAGE s'appuie sur les résultats de la campagne
d'évaluation des analyseurs syntaxiques menée dans
le cadre de l'action EASy/EVALDA [http://www.technolangue.net/article198.html]
(programme Technolangue). Cette campagne a montré que
plusieurs systèmes d'analyse existent désormais
pour le Français. Néanmoins, bien que les
résultats furent meilleurs que prévus, cette
campagne a confirmé que la robustesse et la
précision peuvent encore être largement
améliorées, en particulier pour les données
orales.
De plus, bien que le plan initial de EASy était de
combiner les résultats produits par chaque participant
pour construire une treebank du Français (un corpus
annoté syntaxiquement), cette phase reste à venir,
et le résultat, malgré son intérêt
certain, restera relativement limité (environ 40K phrases
avec un sous-ensemble de 4K phrases manuellement
validées), au regard des standards internationaux qui
émergent (10M à 100M mots, i.e. 0.5M à 5M
phrases).
PASSAGE vise à poursuivre et à
étendre la ligne de recherche initiée par la
campagne EASy. En particulier, PASSAGE cherche
à:
- organiser des nouvelles campagnes
d'évaluation pour évaluer et améliorer les
systèmes d'analyse syntaxiques du Français sur de
gros corpus (millions de mots)
- finaliser une méthodologie pour
comparer et fusionner les résultats fournis par
plusieurs analyseurs
- utiliser les résultats
fusionnés des meilleurs analyseurs pour construire une
treebank du Français
- valider cette treebank soit manuellement
soit automatiquement
- utiliser à la fois cette treebank
et la partie non-validée du gros corpus annoté
syntaxiquement pour extraire des informations
linguistiques
- intégrer les ressources ainsi
acquises dans les analyseurs
- développer les
méthodologies pour évaluer la qualité des
ressources ainsi acquises
La participation d'une dizaine systèmes d'analyse
syntaxique dans un effort collectif tourné vers
l'acquisition de ressources linguistiques est un occasion
plutôt unique. Nous pensons que la combinaison d'autant de
sources d'information sur une période d'adaptation
relativement longue renforce les chances de succès de
cette proposition.
A.2 Retombées scientifiques et
techniques attendues (Fr)
Les retombées attendues du
projet PASSAGE incluent:
- l'émergence de chaînes de
traitement linguistique pour le Français qui soient plus
robustes, efficaces, et précises, avec de plus une
meilleur évaluation de leur niveau de performance.
- l'identification de méthodologies
et de protocoles pour effectuer des tâches d'acquisition
de connaissances linguistiques. Ces méthodologies
devraient être adaptables pour d'autres langues que le
Français, en particulier pour traiter des langues
pauvrement dotées, aidant ainsi à surmonter le
fameux problème du goulet d'étranglement en
Traitement Automatique des Langues (TAL)
- une banque d'annotations syntaxiques (en
dépendances) pour le Français, utiles pour
améliorer le traitement syntaxique
- l'enrichissement de ressources
linguistiques pour le Français (lexiques et
grammaires)
- l'acquisition de connaissances
linguistiques aidant au développement d'applications
mieux adaptées aux utilisateurs.
- la consolidation d'une forte
communauté française en analyse syntaxique,
familière avec l'utilisation systématique de
procédure d'évaluation à grande
échelle.
A.3 Retombées industrielles et
économiques escomptées (Fr)
L'analyse
syntaxique est une phase importante de traitement linguistique
qui n'est pas actuellement largement déployée dans
le cadre d'applications industrielles, en partie à cause
de sa complexité et des besoins en termes de ressources.
PASSAGE pourrait altérer cette situation
grâce à:
- l'émergence de chaîne de
traitement linguistique pour le Français, plus robustes,
efficaces et précises. Ces systèmes sont des
candidats de choix pour des transferts industriels et leur
exploitation dans des applications industrielles;
- l'accès à plus de
ressources linguistiques pour le Français (lexiques,
grammaires);
- l'évaluation des annotations
syntaxiques, et en particulier sous forme de
dépendances, comme une source émergent de
données pour des applications d'extraction d'information
(comme c'est déjà le cas pour d'autres langues,
en particulier l'anglais);
- la validation d'une méthode pour
améliorer les technologies de traitement du langage, au
travers l'évaluation et la réunion de
systèmes d'analyse syntaxique.
Eric de la
Clergerie