Notes du 22 novembre 2023

Présentation de Nohlène - Le protocole GIT

présentation PowerPoint

Qu’est-ce que le protocole GIT?

github

Comment fonctionne-t-il?

Avantages et limites

Git = logiciel efficace pour le travail collaboratif et à distance + favorise le partage de projets scientifiques

ALTERNATIVES:

Analyser du texte

Texte de Sinclair et Rockwell

We have found two principles to be important when engaging with text anlaysis and
visualization tools – they may seem obvious, but they are worth stating:

  1. Don’t expect much from the tools. Most tools at our disposal have weak or nonexistent
    semantic capabilities; they count, compare, track, and represent words, but they do not
    produce meaning – we do. When you don’t expect much from tools, it shifts the
    interpretative responsibility for making sense of the rich variety of ways that texts can be
    represented.

  2. Try things out. Taken individually each tool may not do much, but accumulating
    perspectives from many tools can be beneficial. One tool may help you notice something
    that is worth exploring in more detail with another tool. Within each tool there may be
    settings that are worth tinkering or playing with for different effects (Sinclair, 2003). We
    use tools not to get results but to generate questions, so the more things we try, the more
    questions we’re likely to have. Ramsay (2014) calls this the screwmeneutical imperative.

    These two principles are expressed in part in the Voyant Tools environment that we have
    developed: the individual tools are designed to be simple and modular in order to favor
    interaction with and between the tools. The tools are intended to facilitate the augmented
    hermeneutic cycle by enabling navigation between reading text, analysis, and visualization at
    various scales (“differential reading” that slides between close and distant reading practices –
    see Clement, 2013).

Pourquoi analyser du texte?

exemple. Socrate n’a rien écrit. c’est platon et d’autres les ont retranscrit bien des années plus tard même post-hum. La philosphie s’est transformé de l’oral à l’analyse de texte.

DATA MINING

Dans les 80, engouement pour la fouille de texte: arrivée de la structuration des données dans le texte, html, TEI (Text Encoding Initiative), XML, etc. Une fois le contenu structuré, on peut aller travailler directement à la partie qui nous intéresse en relation à la question qu’on veut s’attarder donc granularité plus fine.

Si l’on remonte aux origines des humanités numériques, et au projet de Roberto Busa, on se rend compte que l’arrivée des méthodes computationnelles est très tardive par rapport à l’histoire de l’analyse de texte. Fayyad, Shapiro et Smyth, dans un article de 1996 intitulé « Knowledge Discovery in Databases » précise l’apparition de l’engouement pour ce type de méthode et le situe dans les années 1980. Comme nous l’avons vu précédemment, c’est à peu près à cette époque que les textes sont encodés selon des régles particulières : SGML, TEI, HTML, etc. L’engouement pour l’analyse textuelle (distant reading ou méthodes quantitatives) vient donc aussi de la capacité de pouvoir travailler sur des textes structurés dans lesquels il est plus facile de naviguer comme nous l’avons vu la semaine dernière.

RAPPEL SUR LES CARACTÉRISTQUES DE l’ÉCRITURE NUMÉRIQUE

Parmi les caractéristiques de l’écriture numérique, celle qui va nous intéresser aujourd’hui est la calculabilité. C’est également ce qui intéressait Busa à l’époque. Sans entrer dans les détails de la controverse sur qu’est-ce qui est une écriture numérique ou non (on peut par exemple reprendre la position tenue par Rockwell et Sinclair dans ce débat de sémiologues) on peut considérer que même si tout n’est pas écriture numérique dans un espace numérique, il y a beaucoup de texte.

Et ce texte, il faut pouvoir le manipuler. Ce n’est plus simplement du texte que l’on peut lire et que l’on peut interpréter graphiquement mais c’est un texte pour lequel chaque signe a un pendant sous forme de bytes. Un byte est composé de 8-bits, et chaque bit est lui-même composé d’un 0 ou d’un 1. Cette combinaison binaire de symboles est à la base de tous les textes que nous écrivons. Cette vision numérique du texte retire toute sémantique au texte : la manipulation des symboles requiert de retirer toute signification au texte puisque c’est la machine qui va effectuer les opérations.

Rockwell et Sinclair nous rappellent que pour effectuer de telles actions, le texte ne peut pas être formaté dans un format binaire (comme ceux issus des logiciels de traitement de texte) mais qu’il vaut mieux utiliser des formats de texte brut (comme les formats de balisage !).

POURQUOI EMPLOYER DE TELLES MÉTHODES

Pour découvrir de nouvelles connaissances ! Grâce aux ordinateurs, nous sommes en capacité de lire des textes d’une nouvelle manière (qui n’est plus si nouvelle que ça). Et cette nouvelle lecture apporte son lot de nouvelles connaissances que nous n’aurions pas découvert autrement.

Par exemple, si nous devions compter à la main toutes les occurrences de tous les mots de l’oeuvre de Victor Hugo, il faudrait certainement plusieurs décennies avant d’obtenir des résultats. Alors qu’avec un ordinateur, il ne faudra pas plus de quelques minutes si tout le corpus est déjà numérisé.

Deux types d’analyse de texte

Pour analyser du texte il existe principalement deux méthodes basées sur le nombre de mots ou sur le traitement du langage naturel. Ce qu’il faut retenir c’est qu’actuellement ces méthodes ne permettent pas traiter la totalité des langues parlées dans le monde mais une toute petite minorité dont évidemment l’anglais fait partie

Prétraitement du texte

80% du boulot, c’est convertir les données et le nettoyage de texte… car un corpus contient beaucoup de bruit.

Traitement de texte

Une fois que le corpus est nettoyé on peut lui appliquer différents traitements selon ce que l’on souhaite savoir du corpus. L’une des formes de traitement les plus courantes est le nuage de mots : on compte chaque occurrence de chaque mot et on crée une représentation graphique de ce calcul où le poids de chaque mot influence sa taille. Lorsque les résultats obtenus ne correspondent pas aux résultats souhaités (par exemple lorsqu’on remarque qu’il y a encore trop de bruit dans le corpus) il faut recommencer à l’étape de pré-traitement du texte pour améliorer par boucle successive les données à traiter.

PRÉSENTATION DE VOYANT TOOLS

Voyant Tools est un projet universitaire proposant un environnement de lecture et d’analyse de texte sur le Web. C’est un outil pédagogique permettant de comprendre ce qu’est la fouille de texte. La question du logiciel libre est ici importante : comment un programme informatique ou une application web peut être créée et maintenue ? Cette application permet de comprendre les enjeux (complexes) de la fouille de texte.

Important de travailler avec des outils comme Voyant tools en mixant des méthodes de close/distant reading - car sans connaissance sur le corpus, on peut faire des déductions fausses. ex. l’importance Gutenberg dans le corpus de Dracula.


tags: HNU2000 2023