Analyser du texte

Roch Delannay

11/22/23

Plan de la séance

  1. Pourquoi « analyser du texte » ?
  2. Des exemples de méthodes et d’outils
  3. Présentation de Voyant Tools

1. Pourquoi « analyser du textes » ?

1.1 Data Mining

  • découverte de connaissance
  • structuration des documents

1.2 Rappel sur les caractéristiques de l’écriture numérique

  • calculable

1.3 Pourquoi employer de telles méthodes ?

2. Des exemples et des outils

2.1 Deux types d’analyse de texte

  • Analyse de texte basée sur le nombre de mots
  • Analyse de texte basée sur le traitement du langage naturel (NLP Natural language processing)

2.2 Prétraitement du texte

  • Définir le corpus et l’encoder dans un format de texte brut
  • Filtrer le corpus (est-ce qu’on retire certains éléments comme les balises HTML si c’est un corpus issu du Web, etc.)
  • Est-ce uq’il y a besoin d’uniformiser le corpus en bas de casse ?
  • Découper le corpus en différentes unités (phrases, mots, etc.)
  • Lemmatiser ou Raciniser le corpus

2.3 Traitement du texte

  • Nombre de mots
  • Modélisation des sujets
  • Analyse de sentiments
  • Regroupement hiérarchique
  • TF-IDF

3. Présentation de Voyant Tools

Capture d’écran de Voyant Tools

  • fonction(s) : extraction, calcul de la fréquence, production de statistiques, etc.
  • usage(s) : outil d’analyse de texte
  • création : 2003, Stéfan Sinclair et Geoffrey Rockwell
  • mise à jour : développements réguliers
  • changement(s) induit(s) : disposer d’outils d’analyse de texte accessibles

3.1 Jouer avec Voyant Tools