- Titre:
- Vers l'extraction d'une ontologie botanique
- Laboratoire:
- Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr
- Lieu du stage:
- Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html
- Équipe:
- ATOLL (Atelier d'outils
logiciels pour le langage naturel)
http://atoll.inria.fr
- Responsable administratif du stage:
Éric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)
- Responsable du suivi du stage:
Éric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger
- Présentation générale du sujet:
-
Dans le cadre de l'action nationale BIOTIM
(http://www-rocq.inria.fr/imedia/biotim/ et
http://graves.inria.fr/biotim/), le projet Atoll est impliqué
dans l'extraction de connaissances à partir de corpus botanique. En
particulier, il est prévu d'utiliser des techniques d'apprentissage
sur des sorties d'analyse syntaxique pour extraire une ontologie
botaniques. Une telle ontologie doit identifier les propriétés
utilisées pour décrire les organes d'une plante et à quelles grandes
catégories (forme, couleur, texture, ...) elles appartiennent.
Par exemple, on aimerait apprendre que «lancéolé» est un adjectif de
forme servant à décrire les feuilles. Une telle ontologie peut
ensuite servir à extraire, sans ambiguïté, les propriétés attachées
à une plante donnée à partir de sa description textuelle.
Le but de stage est de mener à bien la phase de traitement
syntaxique des corpus botanique disponibles et de fournir des
données pertinentes à la phase d'apprentissage. Des outils et
ressources sont actuellement disponibles pour un tel traitement
syntaxique (voir http://atoll.inria.fr/parserdemo) mais
doivent être adaptés à cause du style très particulier et du
vocabulaire spécifique de ces corpus. Les données brutes issues de
l'analyse syntaxique (sous forme de dépendances entre mots) ne sont
pas forcement immédiatement utiles pour l'apprentissage de
l'ontologie et devront sûrement être filtrées et converties. La
phase proprement dite d'apprentissage se fera en collaboration avec
l'équipe «Contraintes et Apprentissage» du LIFO (Orléans).
Ce stage est l'occasion d'exploiter des outils de traitement
linguistiques dans le cadre d'une application réelle d'acquisition
de connaissances. Un minimum de connaissances linguistiques, en
particulier au niveau syntaxique, est souhaité pour pouvoir adapter
grammaire et lexique.
- Connaissances requises:
- Intérêt pour les techniques
statistiques et d'apprentissage. Quelques compétences en
linguistique informatique. Éventuellement des compétences en XML
et/ou Bases de données. Programmation de préférence en PERL et/ou
Prolog.
- Matériel utilisé:
PC sous Linux
Ce document a été traduit de LATEX par HEVEA