Benoît Sagot

Directeur de Recherche Inria en Traitement Automatique des Langues et Linguistique Informatique
Responsable de l'équipe-projet ALMAnaCH
Titulaire d'une chaire dans l'institut PRAIRIE
Titulaire de la chaire annuelle « informatique et sciences numériques » du Collège de France (2023-2024)
Membre élu de la Commission d'Évaluation d'Inria


Centres d'intérêt et thèmes de recherche actuels
  • Modèles de langue neuronaux: architectures, transfert cross-lingue, interprétablité, entraînement de modèles performants
  • Création de grands corpus bruts pour l'entraînement des modèles de langue, avec une attention particulière pour le français, les langues de France et les langues peu dotées
  • Traduction automatique, Simplification de textes
  • TAL multimodal (parole, image)
  • Développement de ressources lexicales (morphologiques, syntaxiques, sémantiques, étymologiques), pour le français comme pour d'autres langues
  • Morphologie computationnelle et quantitative
  • Étymologie “classique” et computationnelle (indo-europeén…)
  • Linguistique historique computationnelle (indo-européen, français…)
  • Applications du TAL (fouille d'opinion, œnologie computationnelle…)

Outils et Ressources

Lefff

Lefff

Lexique morphologique et syntaxique du français

Alexina

Alexina

Lexiques morphologiques (parfois syntaxiques) autres que le Lefff

UDLexicons

UDLexicons

Lexiques morphologiques au format CoNLL-UL

Etymology

EtymDB

Base de données étymologiques extraites du wiktionary

WOLF

WOLF

Wordnet libre pour le français

MElt

MElt

Étiqueteur en parties du discours

SxPipe

SxPipe

Chaîne de traitement de surface

Publications

Seules mes publications récentes sont affichées ci-dessous.

Projets

Projets en cours

  • 3IA PRAIRIE (2019-): Directrice: I. Ryl. L'institut Prairie (PaRis AI Research InstitutE) est l'un des quatre instituts français de recherche en intelligence artificielle, créés dans le cadre de l'initiative nationale en IA. Plus d'informations sur le site web de PRAIRIE.
  • ANR BASNUM (2019-2023): PI: G. Williams. Autres partenaires: Litt&Arts, LATTICE. Thématiques: numérisation et analyse automatique du Dictionnaire universel de Furetière dans sa version de 1701 revue et corrigée par Basnage de Beauval.

Anciens projets

  • ANR ParSiTi (2016-2021): PI: D. Seddah. Autres partenaires: LIMSI, LIPN. Thématiques: analyse syntaxique et traduction automatique de contenus produits par les utilisateurs (User-generated content) en exploitant les informations contextuelles
  • ANR SoSweet (2015-2019): PI: J.-P. Magué. Resp. pour ALMAnaCH: D. Seddah. Autres partenaires: ICAR (ENS Lyon, CRNS), Dante (Inria). Thématiques: étude de la variabilité sociolinguistique sur Twitter, en comparant des approches linguistiques/TAL et des approches reposant sur la structure en graphe du réseau.
  • ANR Profiterole (2016-2020): PI: Sophie Prévost (LATTICE). Les membres d’ALMAnaCH sont associés au LLF (U. Paris-Diderot) pour ce projet. Thématiques: modélisation et analyse automatique du français médiéval.
  • Projet ANR EDyLex (porteur du projet) — Enrichissement Dynamique de ressources Lexicales. Autres partenaires: LIF (Marseille), LIMSI, AFP, Vecsys Research, Syllabs
  • Projet ANR Séquoïa: analyseurs syntaxiques probabilistes pour le français. Principal partenaire hors Alpage : (LIF) Marseille (Alexis Nasr)
  • Projet ANR PerGram: Théorie et implémentation d'une grammaire HPSG du Persan
  • Projet SCRIBO du pôle de compétitivité System@tic — Semi-automatic and Collaborative Retrieval of Information Based on Ontologies
  • Projet ANR Passage: construction automatique d'un très gros corpus annoté en syntaxe par utilisation et évaluation de plusieurs analyseurs syntaxiques ; acquisition d'informations linguistiques et extra-linguistiques à partir de ce corpus. Partenaires hors Alpage : LIMSI (Patrick Paroubek, Anne Vilnat), CEA (Gaël de Chalendar), ELDA/ELRA (Djamel Mostefa)
  • Projet ANR Rhapsodie
  • ARC INRIA Mosaïque: formalismes syntaxiques de haut niveau
  • Projet ILF LexSynt: lexiques syntaxiques
  • Projet technolangue EASy: Évaluation des analyseurs syntaxiques

Curriculum Vitæ

Vous pouvez télécharger ici une version pas trop ancienne de mon CV, dans laquelle les informations personnelles ont été retirées.

Contact

Coordonnées postales
Inria Paris (équipe ALMAnaCH)
2 rue Simone Iff
CS 42112
75589 Paris Cedex 12
FRANCE

  +33 1 80 49 43 14
  benoit.sagot.at.inria.fr Twitter
Google Scholar