Seconde campagne d'évaluation syntaxique Passage
News

[24/11/2009] Clôture de la campagne: 11 participants ont réussi à retourner des résultats.

[18/11/2009] Nouvelle version (v2.2) du guide d'annotation.

[29/10/2009] Clôture de la campagne repoussée au 24 Novembre 2009.

[19/10/2009] Nouvelle version (v2) du guide d'annotation et mise à disposition d'une liste de formes composées.

[19/09/2009] Ouverture de la campagne

[31/08/2009] Report de la campagne au 15 Septembre 2009. Clôture au 30 Octobre 2009.

Contexte

Le projet PASSAGE (ANR-06-MDCA-013) organise une campagne d'évaluation des analyseurs syntaxiques du français en continuité avec la campagne d'évaluation EASY du projet EVALDA (programme TECHNOLANGUE).

Nous invitons les développeurs d'analyseurs syntaxiques du français à participer à la seconde campagne d'évaluation PASSAGE. La campagne est ouverte à tous, académiques ou industriels. Dans le cadre du projet PASSAGE dont les objectifs sont (http://atoll.inria.fr/passage):

  1. la création d'un corpus arboré de grande taille mis à la disposition de la communauté
  2. et l'exploration des possibilités d'amélioration d'un analyseur syntaxique par acquisition lexicale dérivée de la combinaison d'analyses différentes.

La participation se fait sur la base du volontariat sans soutien financier, mais nécessite de s'inscrire (voir ci-dessous). elle donne accès à toutes les ressources du projet PASSAGE (corpus, éditeurs d'annotation, boîtes à outils d'évaluation). Pour avoir un aperçu des annotations PASSAGE, vous pouvez essayer EasyRef, l'éditeur interactif WEB d'annotation syntaxique maintenant en libre accès pour tous les participants potentiels. Le guide d'annotation ainsi que le document de spécification du format Passage sont également disponibles.

Les données

Le corpus que nous vous proposons d'analyser est un corpus de 100 millions de mots, composé d'une collection de textes en accès libre sur le WEB (wikipedia, wikisource, europarl, jrcacquis), complétée par une petite quantité de textes journalistiques sous droits (Est Republicain). Pour cette campagne, la segmentation en mots et en énoncés n'est pas imposée. Les données produites par le participant vont être projetées sur les données de référence en utilisant un algorithme de programmation dynamique.

Les annotation syntaxiques

Les annotations syntaxiques que nous utilisons dans PASSAGE sont dérivées de celles utilisées dans la campagne EASY. Les annotations sont décrites dans différents articles. De la documentation et des logiciels pour gérer ces annotations sont disponibles sur le site PASSAGE avec EasyRef, l'éditeur d'annotation ainsi qu'un serveur d'évaluation qui permet la comparaison automatique des données produites par un analyseur avec la référence fournie avec les données de développement (env. 85.600 mots) résultant des précédentes campagnes PASSAGE et EASY.

Bien que non soumises à évaluation, il est fortement suggéré aux participants de retourner des annotations comprenant les informations sur les lemmes et les parties du discours.

Calendrier

Le corpus de développement résultant des précédentes campagnes EASY et PASSAGE ainsi que le corpus de test de la campagne PASSAGE-2 de 100 millions de mots sont maintenant disponibles. Ils seront communiqués aux participants aussitôt qu'ils se seront enregistrés. Les participants à la campagne PASSAGE-2 doivent s'engager à retourner le corpus PASSAGE-2 entièrement analysé avec les annotations PASSAGE pendant la période allant du 15 Septembre 2009 au 30 Octobre 2009.

Pistes d'évaluation
Deux pistes d'évaluation seront proposées :
  1. la piste manuelle s'appuyant sur un corpus de référence de 400 000 mots manuellement annoté.
  2. la piste automatique où les résultats seront comparés à une référence construite automatiquement à partir de l'ensemble des résultats des participants

Pour tous les participants enregistrés, les résultats de performance de la piste 1 (référence manuelle) seront publiés avec l'identité du participant, tandis que les résultats de la piste 2 (référence automatique) seront publiés de manière anonyme à cause de la nature exploratoire du processus de construction de la référence.

Lien avec la campagne EVALITA d'analyse syntaxique en dépendances

Dans une amorce d'exploration des liens possibles avec des campagnes d'évaluation de l'analyse syntaxique pour d'autres langues, la campagne PASSAGE-2 contient un petit corpus de développement et un petit corpus de test qui sont partagés avec EVALITA, la campagne italienne sur l'analyse en dépendances syntaxiques (http://evalita.fbk.eu/parsing.html). Des données alignées en français et en italien on été annotées à la main (200 énoncés pour le développement et 50 énoncés pour les tests) avec à la fois les annotations PASSAGE pour le français et les annotations TUT pour l'italien.

Conditions de participation

L'inscription à la campagne PASSAGE-2 est maintenant ouverte et nécessite la signature d'un accord de participation disponible à ELDA. Les participants s'engagent à retourner le corpus de test analysé selon le calendrier précisé plus haut et acceptent la publication par les organisateurs de PASSAGE-2 de leurs mesures de performance avec leur identification. Merci de contacter Olivier Hamon à ELDA pour obtenir l'accord de participation.

Les annotations produites par les participants seront normalement retournées sur le serveur d'évaluation mis en place par ELDA. En cas de problème, un DVD ou une clé USB pourront être envoyés à ELDA par courrier. Les annotations seront rendues sous forme d'une archive compressée (gzip ou bzip2), comprenant un répertoire par corpus, et pour ceux-ci, un fichier résultat par fichier originel. Ainsi, les résultats pour frwiki/frwikipedia_001.txt.bz2 seront rangés dans le fichier frwiki/frwikipedia_001.xml. Il est estimé que les résultats prennent 2 à 3 Go.

Plusieurs jeux d'annotation pourront être soumis par les participants durant la campagne. Mais seul le dernier soumis sera considéré comme officiel. De plus, seuls les deux derniers jeux soumis seront conservés sur le serveur d'ELDA.

Les participants sont invités à vérifer la conformité de leurs fichiers résultats avec la DTD Passage

Comité d'organisation
  • Patrick Paroubek (LIMSI-CNRS, pap@limsi.fr)
  • Anne Vilnat (LIMSI-CNRS)
  • Eric de la Clergerie (INRIA-ATOLL)
  • Oliver Hamon (ELDA)
Liens