Stage d'option en Informatique
en ligne à
http://atoll.inria.fr rubrique «Rejoindre ATOLL»





Titre:
Vers l'extraction d'une ontologie botanique

Laboratoire:
Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr

Lieu du stage:
Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html

Équipe:
ATOLL (Atelier d'outils logiciels pour le langage naturel)
http://atoll.inria.fr

Responsable administratif du stage:

Éric de la Clergerie (Email Eric.De_La_Clergerie@inria.fr)

Responsable du suivi du stage:

Éric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger

Présentation générale du sujet:


Dans le cadre de l'action nationale BIOTIM (http://www-rocq.inria.fr/imedia/biotim/ et http://graves.inria.fr/biotim/), le projet Atoll est impliqué dans l'extraction de connaissances à partir de corpus botanique. En particulier, il est prévu d'utiliser des techniques d'apprentissage sur des sorties d'analyse syntaxique pour extraire une ontologie botaniques. Une telle ontologie doit identifier les propriétés utilisées pour décrire les organes d'une plante et à quelles grandes catégories (forme, couleur, texture, ...) elles appartiennent. Par exemple, on aimerait apprendre que «lancéolé» est un adjectif de forme servant à décrire les feuilles. Une telle ontologie peut ensuite servir à extraire, sans ambiguïté, les propriétés attachées à une plante donnée à partir de sa description textuelle.

Le but de stage est de mener à bien la phase de traitement syntaxique des corpus botanique disponibles et de fournir des données pertinentes à la phase d'apprentissage. Des outils et ressources sont actuellement disponibles pour un tel traitement syntaxique (voir http://atoll.inria.fr/parserdemo) mais doivent être adaptés à cause du style très particulier et du vocabulaire spécifique de ces corpus. Les données brutes issues de l'analyse syntaxique (sous forme de dépendances entre mots) ne sont pas forcement immédiatement utiles pour l'apprentissage de l'ontologie et devront sûrement être filtrées et converties. La phase proprement dite d'apprentissage se fera en collaboration avec l'équipe «Contraintes et Apprentissage» du LIFO (Orléans).

Ce stage est l'occasion d'exploiter des outils de traitement linguistiques dans le cadre d'une application réelle d'acquisition de connaissances. Un minimum de connaissances linguistiques, en particulier au niveau syntaxique, est souhaité pour pouvoir adapter grammaire et lexique.

Connaissances requises:
Intérêt pour les techniques statistiques et d'apprentissage. Quelques compétences en linguistique informatique. Éventuellement des compétences en XML et/ou Bases de données. Programmation de préférence en PERL et/ou Prolog.

Matériel utilisé:

PC sous Linux

Ce document a été traduit de LATEX par HEVEA