HNU2000 - Séance 11

Notes du 22 novembre 2023

Présentation de Nohlène - Le protocole GIT

présentation PowerPoint

Qu’est-ce que le protocole GIT?

logiciel de gestion de version de projet décentralisé
versionnage: mécanisme qui consite à conserver la version d’une entité logicielle qurlquconque, de façon à pouvoir la retrouver facilement, même après l’apres l’apparition et de la mise en place de versions plus récentes.

github

Comment fonctionne-t-il?

tout commence avec la création d’un dépôt ou repository qui permet à plusieurs codeurs de travailler ensemble sans empiété sur le travail de l’autre.
staging area: est la zone de transite dite “brouillon” ou on prépare les modification de les validers.
les commits: chaque modification que l’on valide et enregistre est ce que l’on appelle un comit.
Git permet de créer plusieurs lignes de développement à l’aide de branches.
La branche par défaut est appelée master. Lorsque vous souhaitez développer une fonctionnalité ou corriger un bogue, vous pouvez créer une nouvelle branche (git branche <nom-branche>) pour encapsuler vos modifications sans affecter la ligne principale de développement.
Une fois que vous avez terminé vos modifications sur une branche, vous pouvez fusionner ces modifications dans la branche principale (ou toute autre branche) à l’aide de la commande git-merge.
distant repo :
git remote: utile dans le travail collaboratif et à distance

Avantages et limites

résolution de conflits
favorise les travaux collaboratifs
possible de travailler hors lignes
Création de base de données avec Git-ifs
Rends possible la création de siteweb avec GitHub
sytème compliqué
support window pas très développé
grands nombres de commandes

Git = logiciel efficace pour le travail collaboratif et à distance + favorise le partage de projets scientifiques

ALTERNATIVES:

Fossil: logiciel de version décentralisé
Bitucket

Analyser du texte

Texte de Sinclair et Rockwell

We have found two principles to be important when engaging with text anlaysis and
visualization tools – they may seem obvious, but they are worth stating:

Don’t expect much from the tools. Most tools at our disposal have weak or nonexistent
semantic capabilities; they count, compare, track, and represent words, but they do not
produce meaning – we do. When you don’t expect much from tools, it shifts the
interpretative responsibility for making sense of the rich variety of ways that texts can be
represented.
Try things out. Taken individually each tool may not do much, but accumulating
perspectives from many tools can be beneficial. One tool may help you notice something
that is worth exploring in more detail with another tool. Within each tool there may be
settings that are worth tinkering or playing with for different effects (Sinclair, 2003). We
use tools not to get results but to generate questions, so the more things we try, the more
questions we’re likely to have. Ramsay (2014) calls this the screwmeneutical imperative.

These two principles are expressed in part in the Voyant Tools environment that we have
developed: the individual tools are designed to be simple and modular in order to favor
interaction with and between the tools. The tools are intended to facilitate the augmented
hermeneutic cycle by enabling navigation between reading text, analysis, and visualization at
various scales (“differential reading” that slides between close and distant reading practices –
see Clement, 2013).

Pourquoi analyser du texte?

exemple. Socrate n’a rien écrit. c’est platon et d’autres les ont retranscrit bien des années plus tard même post-hum. La philosphie s’est transformé de l’oral à l’analyse de texte.

des centaines d’années plus tard, méthode de close reading - la lecture humaine qui s’appuit sur une interprétation.

DATA MINING

Dans les 80, engouement pour la fouille de texte: arrivée de la structuration des données dans le texte, html, TEI (Text Encoding Initiative), XML, etc. Une fois le contenu structuré, on peut aller travailler directement à la partie qui nous intéresse en relation à la question qu’on veut s’attarder donc granularité plus fine.

découverte de connaissance
structuration des documents

Si l’on remonte aux origines des humanités numériques, et au projet de Roberto Busa, on se rend compte que l’arrivée des méthodes computationnelles est très tardive par rapport à l’histoire de l’analyse de texte. Fayyad, Shapiro et Smyth, dans un article de 1996 intitulé « Knowledge Discovery in Databases » précise l’apparition de l’engouement pour ce type de méthode et le situe dans les années 1980. Comme nous l’avons vu précédemment, c’est à peu près à cette époque que les textes sont encodés selon des régles particulières : SGML, TEI, HTML, etc. L’engouement pour l’analyse textuelle (distant reading ou méthodes quantitatives) vient donc aussi de la capacité de pouvoir travailler sur des textes structurés dans lesquels il est plus facile de naviguer comme nous l’avons vu la semaine dernière.

RAPPEL SUR LES CARACTÉRISTQUES DE l’ÉCRITURE NUMÉRIQUE

calculable
vision numérique du texte retire toute signification du texte puisque c’est la machine qui opère
une chaine de caractère: a, b, c ex a =1 b=2 c=3 et puis on applique des algorithmes parce qu’ils ont une correspondance sous forme numérique.

Parmi les caractéristiques de l’écriture numérique, celle qui va nous intéresser aujourd’hui est la calculabilité. C’est également ce qui intéressait Busa à l’époque. Sans entrer dans les détails de la controverse sur qu’est-ce qui est une écriture numérique ou non (on peut par exemple reprendre la position tenue par Rockwell et Sinclair dans ce débat de sémiologues) on peut considérer que même si tout n’est pas écriture numérique dans un espace numérique, il y a beaucoup de texte.

Et ce texte, il faut pouvoir le manipuler. Ce n’est plus simplement du texte que l’on peut lire et que l’on peut interpréter graphiquement mais c’est un texte pour lequel chaque signe a un pendant sous forme de bytes. Un byte est composé de 8-bits, et chaque bit est lui-même composé d’un 0 ou d’un 1. Cette combinaison binaire de symboles est à la base de tous les textes que nous écrivons. Cette vision numérique du texte retire toute sémantique au texte : la manipulation des symboles requiert de retirer toute signification au texte puisque c’est la machine qui va effectuer les opérations.

Rockwell et Sinclair nous rappellent que pour effectuer de telles actions, le texte ne peut pas être formaté dans un format binaire (comme ceux issus des logiciels de traitement de texte) mais qu’il vaut mieux utiliser des formats de texte brut (comme les formats de balisage !).

POURQUOI EMPLOYER DE TELLES MÉTHODES

pour avoir de nouvelles perspectives sur le texte. nous sommes en capacité de lire le texte d’une nouvelle manière.
compter à la main pour obtenir des statiques prendrait une vie entière
regroupement par thématique, etc.

Pour découvrir de nouvelles connaissances ! Grâce aux ordinateurs, nous sommes en capacité de lire des textes d’une nouvelle manière (qui n’est plus si nouvelle que ça). Et cette nouvelle lecture apporte son lot de nouvelles connaissances que nous n’aurions pas découvert autrement.

Par exemple, si nous devions compter à la main toutes les occurrences de tous les mots de l’oeuvre de Victor Hugo, il faudrait certainement plusieurs décennies avant d’obtenir des résultats. Alors qu’avec un ordinateur, il ne faudra pas plus de quelques minutes si tout le corpus est déjà numérisé.

Deux types d’analyse de texte

Analyse de texte basée sur le nombre de mots
Analyse de texte basée sur le traitement du language naturel (NPL Natural language processing)

Pour analyser du texte il existe principalement deux méthodes basées sur le nombre de mots ou sur le traitement du langage naturel. Ce qu’il faut retenir c’est qu’actuellement ces méthodes ne permettent pas traiter la totalité des langues parlées dans le monde mais une toute petite minorité dont évidemment l’anglais fait partie

Prétraitement du texte

définir le corpus et l’encoder das un format de text brut
filtrer le corpus (est-ce qu’on reture certaines éléments comme les balises HTML si c’est un corpis issu du Web)
Est-ce qu’il y a besoin d’uniformiser le corpus en bas de casse?
Découper le corpus en différentes unités phrases, mots, etc.
Lemmatiser ou raciniser le corpus
- raciniser/stematisation: le radical plus petit ex. profession (radica) de profession, professionnel, professionnalisation
- Lemmatiser: à peu près la même chose que racine, mais que c’est la flexion d’un même terme qui partage la même signification. la lémmatisation est plus précis que la stématisation, mais plus cher. mauvais lemmatiseur peut couter cher au niveau du taux d’erreur.

80% du boulot, c’est convertir les données et le nettoyage de texte… car un corpus contient beaucoup de bruit.

Traitement de texte

nombre de mots
modélisation des sujets
analyse des sentiments
regroupement hiérarchique
TF-IDF: Term Frequency - Inverse Document Frequency

Une fois que le corpus est nettoyé on peut lui appliquer différents traitements selon ce que l’on souhaite savoir du corpus. L’une des formes de traitement les plus courantes est le nuage de mots : on compte chaque occurrence de chaque mot et on crée une représentation graphique de ce calcul où le poids de chaque mot influence sa taille. Lorsque les résultats obtenus ne correspondent pas aux résultats souhaités (par exemple lorsqu’on remarque qu’il y a encore trop de bruit dans le corpus) il faut recommencer à l’étape de pré-traitement du texte pour améliorer par boucle successive les données à traiter.

PRÉSENTATION DE VOYANT TOOLS

fonction(s) : extraction, calcul de la fréquence, production de statistiques, etc.
usage(s) : outil d’analyse de texte
création : 2003, Stéfan Sinclair et Geoffrey Rockwell
mise à jour : développements réguliers
changements induits: disposer d’outils d’analyse de texte accessibles

Voyant Tools est un projet universitaire proposant un environnement de lecture et d’analyse de texte sur le Web. C’est un outil pédagogique permettant de comprendre ce qu’est la fouille de texte. La question du logiciel libre est ici importante : comment un programme informatique ou une application web peut être créée et maintenue ? Cette application permet de comprendre les enjeux (complexes) de la fouille de texte.

Important de travailler avec des outils comme Voyant tools en mixant des méthodes de close/distant reading - car sans connaissance sur le corpus, on peut faire des déductions fausses. ex. l’importance Gutenberg dans le corpus de Dracula.