Corpus Passage Court

Version v2 du 22 décembre 2008 09:24

Identifiant

L'identifiant pour ce corpus est CPCv2 pour Corpus Passage Court Version v2

Nature

Ce corpus regroupe les documents à analyser dans le cadre du projet ANR-MDCA-06-13 Passage (Production d'Annotations Syntaxiques À Grande Échelle, pour aller de l'avant).

Ce corpus est dit «court» dans le sens où il ne fournit qu'une sélection d'environ 100 millions de mots, prise dans un ensemble plus large d'environ 500 millions de mots. La version longue sera également distribuée sous l'intitulé «Corpus Passage Long» (CPL).

Les documents sont encodés en UTF-8. Les méta-balises (XML, HTML, Wiki) sont (normalement) nettoyées, mais éventuellement conservées dans des fichiers compagnons en balisage standoff.

Le processus de sélection comprend:

une phase de nettoyage pour éliminer les balises
l'élimination éventuelle de certains fragments de texte considéré comme mal nettoyés ou non acceptable sur divers critères (comme les pages de Wikipedia en discussion sur des questions de copyright ou en phase de révision)

Les fichiers Y du corpus X sont rangés sous le répertoire Y/ et sont de la la forme base_num.txt.bz2 pour les fichiers textuels et base_num.xml.bz2 pour les fichiers XML compagnons. num dénote une numération sur 3 chiffres.

Les fichiers textuels sont construits de manière à être de taille sensiblement similaires (autour de 280K mots ou 2M caractères). Ils respectent des coupures logiques (pages, articles) ou physiques (fichiers) des corpus originels.

Ce corpus CPCv2 est encore incomplet dans le sens où il manque certains styles de documents comme de l'oral, du mail et du technique.

Corpus

Corpus	#seg	#mots (Mmots)	avg (Kmots)
Total	332	101.1	304.5
wikisource	58	20.2	348.2
frwiki	66	20.3	306.8
EstRepublicain	87	20.1	231.4
jrcacquis	63	20.2	320.6
europarl	58	20.3	350.2

Sources

Wikipedia FR

Textes encyclopédiques, structurés en pages

home: http://fr.wikipedia.org/
Licence: Licence de documentation libre GNU 1.2 (LGDL 1.2)
Dump utilisé: frwiki-20060402-pages-articles.xml.bz2
Accès dump: http://download.wikipedia.org/backup-index.html

Wikisource FR

Wikisource rassemble des textes passés dans le domaine public ou publiés sous licence libre.

home: http://fr.wikisource.org/
Licence: Licence de documentation libre GNU 1.2 (LGDL 1.2)
Dump utilisé: frwikisource-20070512-pages-articles.xml.bz2
Accès dump: http://download.wikipedia.org/backup-index.html

EuroParl

European Parliament Proceedings Parallel Corpus 1996-2006. Partie française des transcriptions des débats du parlement européen

home: http://www.statmt.org/europarl/
Version 3
Licence: No copyright restrictions of the material

The JRC-Acquis Multilingual Parallel Corpus

Textes législatifs de l'Union Européenne.

Version 3
home: http://langtech.jrc.it/JRC-Acquis.html
Licence: The European Commission's Office for Official Publications OPOCE manages the distribution rights of this aligned multilingual parallel corpus. OPOCE agreed that the corpus can be given to research partners for non-commercial use.

Est Republicain

Texte journalistique, Année 1999 à 2002

home: http://www.cnrtl.fr/corpus/estrepublicain/
Version 0.2
Licence: Distribution par CNRTL (Centre National de Ressources Textuelles et Lexicales) à usage de la communauté académique.

Liens

Passage: http://atoll.inria.fr/passage
EASy: http://www.limsi.fr/Recherche/CORVAL/easy
Licence LGDL: http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Licence_de_documentation_libre_GNU

Auteur

Éric de la Clergerie [Eric.de_La_Clergerie@inria.fr]
INRIA