Chercher de l’information sur le Web

Roch Delannay

9/20/23

Plan de la séance

  1. Une histoire d’Internet et du Web (origines, principes, infrastructures)
  2. Les moteurs de recherches (annuaires, index et PageRank)
  3. Isidore.science

1. Une histoire d’Internet et du Web

Ce ne sont pas tant les « nouvelles technologies » en général, mais le réseau en lui-même qui a bouleversé notre rapport à la connaissance. Alain Mille, « D’Internet au web » dans Pratiques de l’édition numérique

Extrait du documentaire World Brain de Stéphane Degoutin et Gwenola Wagon

1.1 Origines

  • 1962 - 1968 : ARPAnet
  • 1969 - 1978 : Internet
  • Années 1970 et 1980 : accès aux machines
  • 1984 : u nréseau fonctionnel

Pour plus d’informations, voir le chapitre « D’Internet au Web » d’Alain Mille dans l’ouvrage Pratiques de l’édition numérique.

1.2 Principes : TCP / IP

TCP/IP : TCP (Transmission Control Protocol) et IP (Internet Protocol)

Une pile de protocoles :

  1. physique
  2. liaison
  3. réseau
  4. transport
  5. application

Expérimentation

  • utiliser traceroute en ligne de commande
  • lancer la commande traceroute umontreal.ca
  • analyser les résultats

1.3 Le Web

  • Internet != Web
  • le Web est une application d’Internet
  • un protocole (HTTP) et des langages (HTML/CSS/JavaScript)

Le Web est une application d’Internet permettant de publier et de consulter facilement des informations.

Exercice

  • Comment lire une page web via un autre outil qu’un navigateur ? 
  • utiliser la commande curl dans le terminal
  • exemple : curl https://hnu2000.en-cours-de.construction/posts/200923.html

Les moteurs de recherche

Au principe d’autorité qui a fait la force du PageRank, Google substitue de plus en plus un principe d’efficacité qui renvoie de manière toujours plus appropriée vers l’internaute les choix que l’algorithme a appris de ses comportements. Dominique Cardon, Dans l’esprit du PageRank, https://www.cairn.info/revue-reseaux-2013-1-page-63.htm

2.1 Le Web au commencement était les annuaires

Une liste classée de sites web sous la forme d’une arborescence par catégories.

2.2 Constituer des index

Un moteur de recherche a deux fonctions :

  • l’indexation de pages web et de documents ;
  • la recherche dans ces pages web et ces documents indexés.

Le PageRank

  • système de mesure quantitative de popularité d’une page web
  • inspiré par la mesure des articles académiques (Science Citation Index)

Schéma du PageRank

Exercice

Dans Google ou DuckDuckGo :

  • à partir des fonctions avancées suivantes :
    • chercher une expression exacte : “mon expression exacte à la lettre près”
    • chercher les contenus d’un site : site:lesite.com ma requête
      • chercher un format de fichier spécifique : filetype:pdf ma requête
      • chercher dans le titre d’une page web : intitle:requête
  • chercher les pages web qui parle d’humanités numériques et d’édition sur les différents sites web de l’Université de Montréal

Isidore.science

ISIDORE est un moteur de recherche permettant de découvrir et de trouver des publications, des données numériques et profils de chercheur·e·s en sciences humaines et sociales (SHS) venant du monde entier.

3.1 Un projet de recherche

  • naissance en 2011
  • objectifs : mettre à disposition un outil de recherche adapté aux sciences humaines
  • ambition : proposer des fonctionnalités pour faciliter la recherche documentaire

3.2 Fonctionnement et fonctionnalités

  • moissonner
  • construire des index
  • enrichir des données
  • proposer une API
  • inclure un espace de travail
  • accéder à son propre historique ;
  • enregistrer des requpetes de recherche ;
  • créer des collections de documents ;
  • suivre un auteur ou une autrice : être informé des nouvelles parutions ;
  • gérer ses alertes (auteurs·trices suivi·e·s, requêtes, etc.)

Exercices

  • constituez une bibliographie dans Isidore.science sur les humanités numériques et l’édition
  • pour cela vous devez vous créer un compte Isidore (et donc HumanID)
  • utilisez les fonctionnalités de la recherche avancée (un peu cachée : https://isidore.science/as) ;
  • utilisez les fonctions de tris et de facettes ;
  • partagez avec moi votre « bibliothèque ».

À partir de cette expérience, que manque-t-il à Isidore ? Quels sont ses défauts ?