ANR MDCA Passage : Seconde campagne d'évaluation syntaxique Passage
[24/11/2009] Clôture de la campagne: 11 participants ont réussi à retourner des résultats.
[18/11/2009] Nouvelle version (v2.2) du guide d'annotation.
[29/10/2009] Clôture de la campagne repoussée au 24 Novembre 2009.
[19/10/2009] Nouvelle version (v2) du guide d'annotation et mise à disposition d'une liste de formes composées.
[19/09/2009] Ouverture de la campagne
[31/08/2009] Report de la campagne au 15 Septembre 2009. Clôture au 30 Octobre 2009.
Le projet PASSAGE (ANR-06-MDCA-013) organise une campagne d'évaluation des analyseurs syntaxiques du français en continuité avec la campagne d'évaluation EASY du projet EVALDA (programme TECHNOLANGUE).
Nous invitons les développeurs d'analyseurs syntaxiques du français à participer à la seconde campagne d'évaluation PASSAGE. La campagne est ouverte à tous, académiques ou industriels. Dans le cadre du projet PASSAGE dont les objectifs sont (http://atoll.inria.fr/passage):
La participation se fait sur la base du volontariat sans soutien financier, mais nécessite de s'inscrire (voir ci-dessous). elle donne accès à toutes les ressources du projet PASSAGE (corpus, éditeurs d'annotation, boîtes à outils d'évaluation). Pour avoir un aperçu des annotations PASSAGE, vous pouvez essayer EasyRef, l'éditeur interactif WEB d'annotation syntaxique maintenant en libre accès pour tous les participants potentiels. Le guide d'annotation ainsi que le document de spécification du format Passage sont également disponibles.
Le corpus que nous vous proposons d'analyser est un corpus de 100 millions de mots, composé d'une collection de textes en accès libre sur le WEB (wikipedia, wikisource, europarl, jrcacquis), complétée par une petite quantité de textes journalistiques sous droits (Est Republicain). Pour cette campagne, la segmentation en mots et en énoncés n'est pas imposée. Les données produites par le participant vont être projetées sur les données de référence en utilisant un algorithme de programmation dynamique.
Les annotations syntaxiques que nous utilisons dans PASSAGE sont dérivées de celles utilisées dans la campagne EASY. Les annotations sont décrites dans différents articles. De la documentation et des logiciels pour gérer ces annotations sont disponibles sur le site PASSAGE avec EasyRef, l'éditeur d'annotation ainsi qu'un serveur d'évaluation qui permet la comparaison automatique des données produites par un analyseur avec la référence fournie avec les données de développement (env. 85.600 mots) résultant des précédentes campagnes PASSAGE et EASY.
Bien que non soumises à évaluation, il est fortement suggéré aux participants de retourner des annotations comprenant les informations sur les lemmes et les parties du discours.
Le corpus de développement résultant des précédentes campagnes EASY et PASSAGE ainsi que le corpus de test de la campagne PASSAGE-2 de 100 millions de mots sont maintenant disponibles. Ils seront communiqués aux participants aussitôt qu'ils se seront enregistrés. Les participants à la campagne PASSAGE-2 doivent s'engager à retourner le corpus PASSAGE-2 entièrement analysé avec les annotations PASSAGE pendant la période allant du 15 Septembre 2009 au 30 Octobre 2009.
Pour tous les participants enregistrés, les résultats de performance de la piste 1 (référence manuelle) seront publiés avec l'identité du participant, tandis que les résultats de la piste 2 (référence automatique) seront publiés de manière anonyme à cause de la nature exploratoire du processus de construction de la référence.
Dans une amorce d'exploration des liens possibles avec des campagnes d'évaluation de l'analyse syntaxique pour d'autres langues, la campagne PASSAGE-2 contient un petit corpus de développement et un petit corpus de test qui sont partagés avec EVALITA, la campagne italienne sur l'analyse en dépendances syntaxiques (http://evalita.fbk.eu/parsing.html). Des données alignées en français et en italien on été annotées à la main (200 énoncés pour le développement et 50 énoncés pour les tests) avec à la fois les annotations PASSAGE pour le français et les annotations TUT pour l'italien.
L'inscription à la campagne PASSAGE-2 est maintenant ouverte et nécessite la signature d'un accord de participation disponible à ELDA. Les participants s'engagent à retourner le corpus de test analysé selon le calendrier précisé plus haut et acceptent la publication par les organisateurs de PASSAGE-2 de leurs mesures de performance avec leur identification. Merci de contacter Olivier Hamon à ELDA pour obtenir l'accord de participation.
Les annotations produites par les participants seront normalement retournées sur le serveur d'évaluation mis en place par ELDA. En cas de problème, un DVD ou une clé USB pourront être envoyés à ELDA par courrier. Les annotations seront rendues sous forme d'une archive compressée (gzip ou bzip2), comprenant un répertoire par corpus, et pour ceux-ci, un fichier résultat par fichier originel. Ainsi, les résultats pour frwiki/frwikipedia_001.txt.bz2 seront rangés dans le fichier frwiki/frwikipedia_001.xml. Il est estimé que les résultats prennent 2 à 3 Go.
Plusieurs jeux d'annotation pourront être soumis par les participants durant la campagne. Mais seul le dernier soumis sera considéré comme officiel. De plus, seuls les deux derniers jeux soumis seront conservés sur le serveur d'ELDA.
Les participants sont invités à vérifer la conformité de leurs fichiers résultats avec la DTD Passage