Si vous utilisez cette ressource, merci de citer l'article
suivant:
-
Sagot Benoît et Fišer Darja (2008). Building a free French wordnet from
multilingual resources. In Ontolex 2008, Marrakech, Maroc
Le WOLF (Wordnet Libre du Français) est une ressource lexicale sémantique (wordnet) libre pour le français.
Le WOLF a été construit à partir du Princeton WordNet (PWN) et de diverses ressources
multilingues (Sagot et Fišer 2008a, Sagot et Fišer 2008b, Fišer et Sagot 2008). Les lexèmes
polysémiques ont été traités au moyen d'une approche reposant sur l'alignement en mots d'un corpus
parallèle en cinq langues. Le lexique multilingue extrait a été désambiguïsé sémantiquement à l'aide
des wordnets des langues concernées. Par ailleurs, une approche bilingue a été suffisante pour
construire de nouvelles entrées à l'aide des mots monosémiques. Nous avons pour cela extrait des
lexiques bilingues à partir de Wikipedia et de thésaurus. Le wordnet obtenu a été évalué par rapport
au wordnet français issu du projet EuroWordNet.
En 2009, un travail spécifique a été effectué sur les synsets adverbiaux (Sagot, Fort et
Venant 2009a, Sagot, Fort et Venant 2009b).
Depuis, plusieurs travaux ont permis de compléter le WOLF et d'en diminuer le
bruit. Tout d'abord, une technique de désambiguisation de traductions extraites de
ressources libres a permis de construire la version 0.2 (Sagot et Fišer 2011,
2012a). Deux approches plus spécifiques ont tiré parti de l'extraction de
nominalisations à partir de corpus analysés syntaxiquement (version 0.2.1, Gábor et
al. 2012) et de clusters induits à partir de corpus bilingues (version 0.2.2, Apidianaki
et Sagot, 2012). La version 0.2.5 est le résultat de la fusion du WOLF 0.2.2 et d'un
wordnet extrait automatiquement par une nouvelle approche à base de graphes de
traductions extraites de wiktionnaires (Hanoka et Sagot 2012).
Une approche d'identification automatique d'erreurs a été également développée (Sagot et
Fišer, 2012b), et une validation manuelle de plusieurs milliers de candidats erreurs a
été réalisée et prise en compte. En parallèle, une validation et complétion manuelle de
la plupart des synsets verbaux faisant partie des synsets de base (Basic Concept Sets du
projet BalkaNet) a été effectuée. Enfin, un nettoyage manuel d'un nombre important de
couples (lemme, synsets) dont la catégorie ne correspondait pas aux catégories connues
du lexique Lefff a permis une diminution supplémentaire du bruit. Le résultat de ces
travaux semi-manuels est la version 1.0b4.
Le WOLF contient tous les synsets du Princetown WordNet, y compris ceux pour lesquels
aucun lexème français n'est connu.
Le WOLF est au format XML utilisé par l'outil DebVisDic, issu du format XML utilisé par
le projet BalkaNet. Pour l'instant, les éléments SENSE sont remplis par des informations
sur les sources par lesquelles le lexème a été trouvé, et non par son numéro de
sens. Parmi elles, une étiquette commençant par "ManVal" indique un couple (synset,
lemme) validé manuellement, et une étiquette commençant par "ManAdd" un couple ajouté
manuellement.
Le WOLF est une ressource libre, distribuée sous licence Cecill-C (compatible LGPL).