Version v2 du 22 décembre 2008 09:24
L'identifiant pour ce corpus est CPCv2 pour Corpus Passage Court Version v2
Ce corpus regroupe les documents à analyser dans le cadre du projet
ANR-MDCA-06-13 Passage (
Ce corpus est dit
Les documents sont encodés en UTF-8. Les méta-balises (XML, HTML, Wiki) sont (normalement) nettoyées, mais éventuellement conservées dans des fichiers compagnons en balisage standoff.
Le processus de sélection comprend:
Les fichiers Y
du corpus X
sont rangés
sous le répertoire Y/
et sont de la la
forme base_num.txt.bz2
pour les fichiers textuels et
base_num.xml.bz2
pour les fichiers XML
compagnons. num
dénote une numération sur 3 chiffres.
Les fichiers textuels sont construits de manière à être de taille sensiblement similaires (autour de 280K mots ou 2M caractères). Ils respectent des coupures logiques (pages, articles) ou physiques (fichiers) des corpus originels.
Ce corpus CPCv2 est encore incomplet dans le sens où il manque certains styles de documents comme de l'oral, du mail et du technique.
Corpus | #seg | #mots (Mmots) | avg (Kmots) |
---|---|---|---|
Total | 332 | 101.1 | 304.5 |
wikisource | 58 | 20.2 | 348.2 |
frwiki | 66 | 20.3 | 306.8 |
EstRepublicain | 87 | 20.1 | 231.4 |
jrcacquis | 63 | 20.2 | 320.6 |
europarl | 58 | 20.3 | 350.2 |
Éric de la Clergerie [Eric.de_La_Clergerie@inria.fr]
INRIA