Corpus Passage Court
Version v2 du 22 décembre 2008 09:24
Identifiant
L'identifiant pour ce corpus est CPCv2
pour Corpus Passage Court Version v2
Nature
Ce corpus regroupe les documents à analyser dans le cadre du projet
ANR-MDCA-06-13 Passage (Production
d'Annotations Syntaxiques À Grande Échelle, pour aller de
l'avant).
Ce corpus est dit «court» dans le sens où il ne fournit
qu'une sélection d'environ 100 millions de mots, prise dans un
ensemble plus large d'environ 500 millions de mots. La version longue
sera également distribuée sous l'intitulé «Corpus Passage Long» (CPL).
Les documents sont encodés en UTF-8. Les méta-balises (XML, HTML,
Wiki) sont (normalement) nettoyées, mais éventuellement conservées
dans des fichiers compagnons en balisage standoff.
Le processus de sélection comprend:
- une phase de nettoyage pour éliminer les balises
- l'élimination éventuelle de certains fragments de texte
considéré comme mal nettoyés ou non acceptable sur divers critères
(comme les pages de Wikipedia en discussion sur des questions de
copyright ou en phase de révision)
Les fichiers Y du corpus X sont rangés
sous le répertoire Y/ et sont de la la
forme base_num.txt.bz2 pour les fichiers textuels et
base_num.xml.bz2 pour les fichiers XML
compagnons. num dénote une numération sur 3 chiffres.
Les fichiers textuels sont construits de manière à être de taille
sensiblement similaires (autour de 280K mots ou 2M caractères). Ils
respectent des coupures logiques (pages, articles) ou physiques
(fichiers) des corpus originels.
Ce corpus CPCv2 est encore incomplet dans le sens où
il manque certains styles de documents comme de l'oral, du mail et du
technique.
Corpus
| Corpus |
#seg |
#mots (Mmots) |
avg (Kmots) |
| Total |
332 |
101.1 |
304.5 |
|
wikisource
|
58 |
20.2 |
348.2 |
|
frwiki
|
66 |
20.3 |
306.8 |
|
EstRepublicain
|
87 |
20.1 |
231.4 |
|
jrcacquis
|
63 |
20.2 |
320.6 |
|
europarl
|
58 |
20.3 |
350.2 |
Sources
- Wikipedia FR
-
Textes encyclopédiques, structurés en pages
- Wikisource FR
-
Wikisource rassemble des textes passés dans le domaine public ou
publiés sous licence libre.
- EuroParl
-
European Parliament Proceedings Parallel Corpus 1996-2006.
Partie française des transcriptions des débats du parlement européen
- The JRC-Acquis Multilingual Parallel Corpus
-
Textes législatifs de l'Union Européenne.
- Version 3
-
home: http://langtech.jrc.it/JRC-Acquis.html
- Licence: The European Commission's Office for Official
Publications OPOCE manages the distribution rights of this aligned
multilingual parallel corpus. OPOCE agreed that the corpus can be
given to research partners for non-commercial use.
- Est Republicain
-
Texte journalistique, Année 1999 à 2002
Liens
Auteur
Éric de la Clergerie [Eric.de_La_Clergerie@inria.fr]
INRIA