Stage d'option en Informatique
- Titre:
- Traitement linguistique d'un corpus botanique
- Laboratoire:
- Institut National de Recherche en Informatique et en Automatique (INRIA)
http://www.inria.fr
- Lieu du stage:
- Rocquencourt
http://www.inria.fr/Allera/Somm-aller-fra.html
- Equipe:
- ATOLL (Atelier d'outils
logiciels pour le langage naturel)
http://atoll.inria.fr
- Responsable administratif du stage:
Bernard Lang (Email Bernard.Lang@inria.fr)
- Responsable du suivi du stage:
Eric de la Clergerie
Tel: 01 39 63 54 10
Email: Eric.De_La_Clergerie@inria.fr
Url: http://atoll.inria.fr/~clerger
- Présentation générale du sujet:
-
Dans le cadre plus large d'un projet d'acquisition de connaissances
à partir d'un corpus de botanique, il s'agit au cours de ce stage
d'effectuer les premières étapes de traitement et de conduire une
analyse stylistique du corpus pour les étapes suivantes. Ce stage
peut déboucher sur une thèse où l'étudiant sera amené à coordonner
l'ensemble du projet.
- Résumé du travail souhaité:
Le corpus donné sous forme textuelle et est constitué d'un ensemble
de fiches décrivant des espèces végétales. La première tache
consiste à identifier la structure des fiches et transformer le
corpus original de manière à expliciter cette structure par des
balises XML. Le corpus structuré pourra ensuite être converti en
format HTML pour permettre une navigation en ligne.
L'étape suivante consiste à utiliser des outils d'analyse
morphologique et d'extraction de terminologie pour collecter le
vocabulaire du corpus. Ce vocabulaire pourra être utilisé pour
indexer le corpus et permettre d'effectuer des recherches dans
celui-ci.
La dernière étape consistera à accumuler de l'information pour les
phases d'acquisition de connaissances qui doivent suivre. Parmi ces
information, citons en particulier l'identification de motifs
syntaxique récurrents dans le corpus pouvant aider l'analyse
syntaxique. En discussion avec des experts botanistes, il est
également envisageable de commencer un modélisation conceptuelle des
plantes (sortes de plantes, parties des plantes, caractéristiques
des différentes parties).
- Matériel utilisé:
PC sous Linux
- Connaissances requises:
Connaissances XML et langage de scripts (Perl ou python). Intérêt
pour la linguistique informatique et la mise en oeuvre de ses
outils.
Ce document a été traduit de LATEX par
HEVEA.