Corpus Passage Court

Version v2 du 22 décembre 2008 09:24

Identifiant

L'identifiant pour ce corpus est CPCv2 pour Corpus Passage Court Version v2

Nature

Ce corpus regroupe les documents à analyser dans le cadre du projet ANR-MDCA-06-13 Passage (Production d'Annotations Syntaxiques À Grande Échelle, pour aller de l'avant).

Ce corpus est dit «court» dans le sens où il ne fournit qu'une sélection d'environ 100 millions de mots, prise dans un ensemble plus large d'environ 500 millions de mots. La version longue sera également distribuée sous l'intitulé «Corpus Passage Long» (CPL).

Les documents sont encodés en UTF-8. Les méta-balises (XML, HTML, Wiki) sont (normalement) nettoyées, mais éventuellement conservées dans des fichiers compagnons en balisage standoff.

Le processus de sélection comprend:

Les fichiers Y du corpus X sont rangés sous le répertoire Y/ et sont de la la forme base_num.txt.bz2 pour les fichiers textuels et base_num.xml.bz2 pour les fichiers XML compagnons. num dénote une numération sur 3 chiffres.

Les fichiers textuels sont construits de manière à être de taille sensiblement similaires (autour de 280K mots ou 2M caractères). Ils respectent des coupures logiques (pages, articles) ou physiques (fichiers) des corpus originels.

Ce corpus CPCv2 est encore incomplet dans le sens où il manque certains styles de documents comme de l'oral, du mail et du technique.

Corpus

Corpus #seg #mots (Mmots) avg (Kmots)
Total 332 101.1 304.5
wikisource 58 20.2 348.2
frwiki 66 20.3 306.8
EstRepublicain 87 20.1 231.4
jrcacquis 63 20.2 320.6
europarl 58 20.3 350.2

Sources

Wikipedia FR
Textes encyclopédiques, structurés en pages
Wikisource FR
Wikisource rassemble des textes passés dans le domaine public ou publiés sous licence libre.
EuroParl
European Parliament Proceedings Parallel Corpus 1996-2006. Partie française des transcriptions des débats du parlement européen
The JRC-Acquis Multilingual Parallel Corpus
Textes législatifs de l'Union Européenne.
Est Republicain
Texte journalistique, Année 1999 à 2002

Liens

Auteur

Éric de la Clergerie [Eric.de_La_Clergerie@inria.fr]
INRIA