Stage d'option en Informatique






Titre:
Traitement linguistique d'un corpus botanique

Laboratoire:
Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr

Lieu du stage:
Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html

Equipe:
ATOLL (Atelier d'outils logiciels pour le langage naturel)
http://atoll.inria.fr

Responsable administratif du stage:

Bernard Lang (Email Bernard.Lang@inria.fr)

Responsable du suivi du stage:

Eric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger

Présentation générale du sujet:


Dans le cadre plus large d'un projet d'acquisition de connaissances à partir d'un corpus de botanique, il s'agit au cours de ce stage d'effectuer les premières étapes de traitement et de conduire une analyse stylistique du corpus pour les étapes suivantes. Ce stage peut déboucher sur une thèse où l'étudiant sera amené à coordonner l'ensemble du projet.

Résumé du travail souhaité:


Le corpus donné sous forme textuelle et est constitué d'un ensemble de fiches décrivant des espèces végétales. La première tache consiste à identifier la structure des fiches et transformer le corpus original de manière à expliciter cette structure par des balises XML. Le corpus structuré pourra ensuite être converti en format HTML pour permettre une navigation en ligne.

L'étape suivante consiste à utiliser des outils d'analyse morphologique et d'extraction de terminologie pour collecter le vocabulaire du corpus. Ce vocabulaire pourra être utilisé pour indexer le corpus et permettre d'effectuer des recherches dans celui-ci.

La dernière étape consistera à accumuler de l'information pour les phases d'acquisition de connaissances qui doivent suivre. Parmi ces information, citons en particulier l'identification de motifs syntaxique récurrents dans le corpus pouvant aider l'analyse syntaxique. En discussion avec des experts botanistes, il est également envisageable de commencer un modélisation conceptuelle des plantes (sortes de plantes, parties des plantes, caractéristiques des différentes parties).

Matériel utilisé:


PC sous Linux

Connaissances requises:


Connaissances XML et langage de scripts (Perl ou python). Intérêt pour la linguistique informatique et la mise en oeuvre de ses outils.

Ce document a été traduit de LATEX par HEVEA.