Analyser du texte
Roch Delannay
11/22/23
Plan de la séance
Pourquoi « analyser du texte » ?
Des exemples de méthodes et d’outils
Présentation de Voyant Tools
1. Pourquoi « analyser du textes » ?
1.1 Data Mining
découverte de connaissance
structuration des documents
1.2 Rappel sur les caractéristiques de l’écriture numérique
calculable
1.3 Pourquoi employer de telles méthodes ?
2. Des exemples et des outils
2.1 Deux types d’analyse de texte
Analyse de texte basée sur le nombre de mots
Analyse de texte basée sur le traitement du langage naturel (NLP Natural language processing)
2.2 Prétraitement du texte
Définir le corpus et l’encoder dans un format de texte brut
Filtrer le corpus (est-ce qu’on retire certains éléments comme les balises HTML si c’est un corpus issu du Web, etc.)
Est-ce uq’il y a besoin d’uniformiser le corpus en bas de casse ?
Découper le corpus en différentes unités (phrases, mots, etc.)
Lemmatiser ou Raciniser le corpus
2.3 Traitement du texte
Nombre de mots
Modélisation des sujets
Analyse de sentiments
Regroupement hiérarchique
TF-IDF
3. Présentation de Voyant Tools
Capture d’écran de Voyant Tools
fonction(s) : extraction, calcul de la fréquence, production de statistiques, etc.
usage(s) : outil d’analyse de texte
création : 2003, Stéfan Sinclair et Geoffrey Rockwell
mise à jour : développements réguliers
changement(s) induit(s) : disposer d’outils d’analyse de texte accessibles
3.1 Jouer avec Voyant Tools