Frantext

FORMATION À FRANTEXT, par Pascale Bernard.

22 mai 2012, 9 h, MSH, salle 332.

PRÉSENTATION

Le CELIS organise le 22 mai une journée de formation au traitement des données de la base FRANTEXT, dépendant du laboratoire ATILF de Nancy. Elle sera assurée par Pascale Bernard, ingénieur de recherches, et portera sur les fonctionnalités de la base et le traitement des fréquences lexicales. Une présentation de l’Encyclopédie en ligne aura également lieu.

PROGRAMME

La base Frantext est une base textuelle à dominante littéraire comportant des textes qui s’échelonnent du début du XIIe au début du XXIe siècle. La base comportait au début de sa création, dans les années 1960, un millier de textes, elle a été créée pour constituer une base d’exemples pour les rédacteurs du Trésor de la langue française. Elle s’est enrichie constamment de nouveaux textes pour, aujourd’hui, en contenir 4084. Depuis les années 1980, elle est associée à un puissant logiciel de recherche, offrant ainsi, aux personnes ou institutions abonnées, des possibilités d’interrogation, de consultation et d’hypernavigation.

La formation visera à une présentation générale de la base intégrale (4084 textes), de la base catégorisée (1940 textes) et de leurs différentes fonctionnalités, puis à des travaux pratiques par chacun des participants sur toutes les fonctionnalités de la base.

Fonctionnalités communes :

-  définition du corpus de travail

-  recherche dans les textes (d’un mot, d’une expression, expression de choix, un mot ou plusieurs mots quelconques dans une recherche donnée…)

-  calcul de fréquences (comptage du nombre d’occurrences d’un mot ou de plusieurs mots donnés)

-  création de listes de mots (création manuelle, par flexion d’un lemme ou automatique, celle-ci étant très utile pour des recherches de mots par finale…)

-  calcul de la fréquence de mots donnés

-  étude du voisinage d’un mot

-  rapatriement des résultats

-  écriture de grammaires (avec la possibilité de les sauvegarder et de les importer à la prochaine session de travail). Une grammaire, c’est un recueil d’expressions de séquences capables de localiser des phénomènes multiformes : toutes les formulations de date…

-  hypernavigation vers le TLFi, et les autres bases de l’ATILF

Fonctionnalités supplémentaires de la base Frantext catégorisée :

-  interrogation sur des entités catégorisées : la conjonction de coordination or, le substantif déjeuner

-  recherches de divers schémas syntaxiques : le verbe faire suivi d’une onomatopée, un nom propre précédé d’un déterminant, une apposition (ex. : nom propre + virgule + nom), le verbe arriver suivi d’un adverbe, les phrases interrogatives courtes (pas plus de 5 mots) dont le verbe se trouve en deuxième position…

-  écriture de grammaires en utilisant ici les catégories grammaticales (chercher une suite d’au minimum quatre verbes (ou d’adjectifs ou de substantifs), les contextes contenant des formes pronominales (le verbe se plaindre dans les phrases négatives chez Hugo)…

Contacts :

- Frédéric Calas : calasfrederic@wanadoo.fr

- Pascale Bernard : Pascale.bernard@atilf.fr