Notes du 20 septembre 2023 - Chercher de l’information sur le Web

texte, Isidore:

Isidore

Histoire d’internet et du Web (origines, principes, infrastructures)

Ce ne sont pas tant les « nouvelles technologies » en général, mais le réseau en lui-même qui a bouleversé notre rapport à la connaissance. - Alain Mille dans D’internet au web

VIDÉO: Documentaire World Brain de Stéphane Degoutin et Gwenola Wagon

Origine d’internet

donc les principes: TPC / IP - Plus de détails sur ces protocoles :

Le web est une application/utilisation d’internet. Internet est une plateforme qui permet de faire parvenir des informations d’un ordinateur à un autre.Pour transmetre l’information on utilise le protocole TCP (créé en1973) et pour le procole internet, permet d’adresser les resources. celles-ci sont localisable.

* Il repose sur les trois langages html, css, et java.script.

html, css, javscript

Les moteurs de recherches (annuaires, index et PageRank)

Au principe d’autorité qui a fait la force du PageRank, Google substitue de plus en plus un principe d’efficacité qui renvoie de manière toujours plus appropriée vers l’internaute les choix que l’algorithme a appris de ses comportements. - Dominique Cardon Dans l’esprit du page rank

Le Web au commencement était les annuaires

La démarche est sensiblement différente : il s’agit d’une navigation à travers une arborescence plutôt qu’une requête. Avantages : navigation linéaire par thématiques, parcours dans une arborescence logique, aperçu potentiellement exhaustif de l’existant. Inconvénients : parfois une seule entrée pour un résultat qui concerne plusieurs thématiques, recherche fastidieuse.

Constituer des index

Il y a quatre évolutions majeures des moteurs de recherche ces dernières années :

  1. interface de recherche (UI) ;
  2. options de recherche (de plus en plus masquées) ;
  3. algorithmes (mécanisme du moteur) ;
  4. utilisation du Web sémantique (aller chercher des informations structurées de façon automatique) ;
  5. personnalisation (traçage).

Phénomène de simplification de la recherche sur Google :

Fonctionnement d’un moteur de recherche

Le PageRank

Le PageRank mesure quantitativement la popularité d’une page web, il fait partie d’autres indicateurs qui permettent le classement des pages web.

Le système du PageRank, conçu et utilisé par Google, est relativement complexe. Ce que l’on peut retenir c’est qu’il s’agit d’un système inspiré des publications académiques. Le fonctionnement est le suivant : la popularité d’une page web A est mesurée en fonction du nombre de pages web qui pointent vers cette page web A. Si les pages web qui pointent vers la page web A, alors la popularité sera d’autant plus importante. Il s’agit donc de la prise en compte du nombre de pages web qui pointent vers la page, mais également indirectement du nombre de pages web qui pointent vers les pages web qui pointent vers la page web A.

Il n’y a pas vraiment moyen de se libérer des biais des moteurs de recherche. peut-être les varier. L’accès à l’information, on a dans la poche. Enjeux se poser et se questionner.

Pour chercher du contenu plus précis utilisez:

Isidore.science (présentaion de la platforme)

ISIDORE est un moteur de recherche permettant de découvrir et de trouver des publications, des données numériques et profils de chercheur·e·s en sciences humaines et sociales (SHS) venant du monde entier.

Le but: faciliter la recherche documentaire pour les chercheurs. recherche directement dans des textes académique. Isidor ne se base pas sur des principes de pageRank comme google ou autre moteur de recherche, mais sur la web sementique.

Initialement, ISIDORE est un moteur de recherche permettant de découvrir et de trouver des publications, des données numériques et profils de chercheur·e·s en sciences humaines et sociales (SHS) venant du monde entier. Il permet de rechercher dans le texte intégral de plusieurs millions de documents (articles, thèses et mémoires, rapports, jeux de données, pages Web, notices de bases de données, description de fonds d’archives, etc.) des signalements d’événements (séminaires, colloques, etc.). De plus, ISIDORE relie entre eux ces millions de documents en les enrichissant à l’aide de concepts scientifiques issus des travaux des communautés de recherche des SHS.

Typiquement Isidore ne base pas ses algorithmes de recherche sur un système type PageRank mais sur des référentiels permettant de classer et de trouver des documents selon des techniques documentaires.

Isidore se démarque donc à la fois des moteurs de recherche dits généralistes (comme Google), mais aussi d’autres outils de recherche ou de collecte comme Google Scholar (qui propose moins de fonctionnalités et dont le classement documentaire est assez flou ou inexistant), de plateformes spécialisées comme Cairn.info ou OpenEdition (bien moins exhaustifs), ou encore de Zotero (un outil de collecte et de partage, complémentaire d’Isidore).

Fonctionnement et fonctionnalités

exercice


tags: HNU2000 2023