HNU2000 - Séance 10

Notes du 15 novembre 2023

Introduction à Wikidata - présentation de Janette

I. Présentation générale de Wikidata

Concept de base
- Wikidata, cousin organisé de Wikipédia.
- Devient la principale source de données ouvertes sur divers sujets.
- Plus de 100 millions d’éléments, 1,9 milliard de contributions depuis 2012, plus de 23 mille usagers actifs.
Utilité pour les chercheurs
- Centralise et met à jour les données à un seul endroit.
- Diffusion des données dans n’importe quelle langue sur Wikipédia.
- Visibilité sur les moteurs de recherche.

II. Caractéristiques de Wikidata

Réseau social pour les données
- Chaque donnée a un identifiant unique (numéro Q).
- Les données sont présentées en triplets : sujet, propriété, valeur.
- Possibilité d’ajouter des références, URL sources pour garantir la véracité des données.
Étiquettes de qualité
- Chaque triplet peut avoir une étiquette de qualité.
- Références et URL renforcent la crédibilité.
Accessibilité des données
- Structuration en triplets pour une lisibilité humaine et machine.
Financement et controverses
- Création financée par Microsoft, Intel et Google.
- Utilisation des données par ces géants pour développer l’intelligence artificielle.
- Débats dans la communauté wikimédienne sur les partenariats avec les géants du numérique.
- - Note : Pendant que les géants s’en mettent plein les poches, il y a aussi des groupes d’intérêt qui utilisent Wikidata, plus largement Wikipédia pour faire avancer leur cause.
  - Au Québec, des membres de la communauté LGBTQ organisent un marathon d’édition dans le but de rendre visible l’histoire de leur communauté.
  - Cette activité se fait conjointement avec le Labo des sciences humaines, le Réseau des lesbiennes du Québec, les Archives gaies du Québec et Wikimedia Canada, avec le soutien de Patrimoine Canada.
- Les géants numériques et des groupes d’intérêt accordent une importance aux données de Wikidata parce que ça assure leur existence en ligne.

III. Intérêt pour les chercheurs

Processus d’authentification
- Authentification des données à travers un processus.
- ex. Relier des individus comme auteurs d’articles scientifiques.
Analogie avec la “Justice League”
- Wikidata, prête à sauver le monde de l’ignorance avec des informations crédibles.

IV. Requêtes sur Wikidata

Complexité des requêtes
- Possibilité de poser des questions complexes.
- Exemple : “Montrez-moi tous les politiciens qui ont étudié à HEC Montréal.”
Polyglottisme de Wikidata
- Wikidata peut répondre dans presque 300 langues.
Applications des données
- Alimentation d’applications telles que des lignes de temps historiques.
- Contribution aux Knowledge Panels sur Google.

V. Création d’éléments

Nature collaborative
- Similaire à Wikipédia, ouvert à tous pour contribuer.
Possibilité de contribuer en créant de nouveaux éléments.

VI. Conclusion

Bibliothèque de connaissances interconnectées
- Wikidata comme une immense bibliothèque ouverte.
- Utilisation pour la recherche, partage de données, alimentation d’applications, et trouver des réponses à des questions importantes.

cours:

Récuperer et nettoyer les données

Question légales et éthiques

Dans l’affaire hiQ Labs, Inc. c. LinkedIn Corp., la Cour d’appel du Neuvième Circuit a statué que le scraping automatisé de données accessibles au public ne viole probablement pas le Computer Fraud and Abuse Act (CFAA - Loi sur la fraude informatique et les abus). Il s’agit d’une clarification importante de la portée du CFAA, qui devrait apporter un certain soulagement à la grande variété de chercheurs, journalistes et entreprises qui avaient des raisons de craindre des lettres de cessation et de désistement menaçant la responsabilité simplement pour accéder à des informations disponibles publiquement d’une manière que les éditeurs contestent. C’est une victoire majeure pour la recherche et l’innovation, qui espérons-le ouvrira la voie à des tribunaux et au Congrès pour limiter davantage les abus du CFAA.
Bien que cette décision représente une étape importante pour limiter l’utilisation de la CFAA pour intimider les chercheurs avec le jargon juridique des lettres de cessation et d’abstention, le neuvième circuit a malheureusement laissé la porte ouverte à d’autres réclamations, telles que l’intrusion dans des biens meubles ou même la violation du droit d’auteur, qui pourraient permettre à des acteurs comme LinkedIn de limiter la concurrence avec ses produits. Et même avec cette décision, la CFAA est sujette à de multiples interprétations contradictoires à travers les circuits fédéraux, ce qui rend probable que la Cour suprême sera finalement obligée de trancher sur la signification de termes clés comme « sans autorisation ».
Article 5 - Principes relatifs au traitement des données à caractère personnel :

Licéité, loyauté, transparence : Les données doivent être traitées de manière légale, équitable et transparente pour la personne concernée.
Limitation des finalités : Les données doivent être collectées pour des objectifs spécifiques, explicites et légitimes, et ne doivent pas être utilisées de manière incompatible avec ces objectifs initiaux. Toutefois, des utilisations ultérieures sont permises pour des raisons d’intérêt public, de recherche scientifique, historique ou statistique, sous réserve de certaines conditions.
Minimisation des données : Les données collectées doivent être adéquates, pertinentes et limitées à ce qui est nécessaire pour atteindre les objectifs pour lesquels elles sont traitées.
Exactitude : Les données doivent être exactes et, si nécessaire, tenues à jour. Toutes les mesures raisonnables doivent être prises pour corriger ou supprimer les données inexactes par rapport à leur objectif initial de traitement.
Limitation de la conservation : Les données doivent être conservées uniquement pendant la période nécessaire aux fins pour lesquelles elles ont été collectées. Cependant, une conservation plus longue est autorisée pour des objectifs d’archivage public, de recherche scientifique, historique ou statistique, sous réserve de mesures de sécurité appropriées.
Intégrité et confidentialité : Les données doivent être traitées de manière à garantir leur sécurité, en prévenant tout accès non autorisé, traitement illicite, perte, destruction ou dommage accidentel, grâce à des mesures techniques et organisationnelles appropriées.
Responsabilité : Le responsable du traitement des données est responsable de respecter ces principes et doit être en mesure de démontrer leur respect.

Article 6 : Licéité du traitement

Cette loi énonce les conditions de légalité pour le traitement des données personnelles :

Consentement : Le traitement des données personnelles est légal s’il est effectué avec le consentement explicite de la personne concernée pour des finalités spécifiques.
Exécution d’un contrat : Le traitement est légitime s’il est nécessaire pour exécuter un contrat auquel la personne concernée est partie ou pour prendre des mesures précontractuelles à sa demande.
Obligation légale : Le traitement est légal s’il est nécessaire pour respecter une obligation légale à laquelle le responsable du traitement est soumis.
Intérêts vitaux : Le traitement est justifié s’il est nécessaire pour sauvegarder les intérêts vitaux de la personne concernée ou d’une autre personne physique.
Mission d’intérêt public ou autorité publique : Le traitement est légal s’il est nécessaire pour exécuter une mission d’intérêt public ou relevant de l’exercice de l’autorité publique du responsable du traitement.
Intérêts légitimes : Le traitement est légal s’il est nécessaire pour les intérêts légitimes du responsable du traitement ou d’un tiers, à condition que les intérêts ou droits fondamentaux de la personne concernée ne prévalent pas, notamment lorsque la personne concernée est un enfant.

Ce n’est pas parce qu’une loi approuve une pratique qu’elle est forcément éthique.

Les différentes manières de collecter des données sur le web

Le web scraping : Le web scraping, parfois appelé harvesting ou en français moissonnage, est une technique d’extraction des données de sites Web par l’utilisation d’un script ou d’un programme dans le but de les transformer et les réutiliser dans un autre contexte comme l’enrichissement de bases de données, le référencement ou l’exploration de données. - Wikipédia
Le web crawling : Le crawling est donc un processus d’exploration des pages web pour les classer selon leur pertinence. Ce sont les crawlers de Google, ou robots d’indexation, qui s’en occupent. Ils vont extraire et évaluer les mots des pages web pour déterminer leur pertinence par rapport à votre requête. - Wikipédia

Scraping:
Utilise le crawling pour récupérer une liste de liens À partir d’1 url
Crawling:récupère une information cible par page - Il a le droit à 1 click de niveau 1 donc, si la page contient 4 liens il aura en tout ouvert

Le web scraping

Logiciels dédiés
Scripts personnel (en Python par exemple)
API (Application programming interface)

Le web crawling

Le crawl est un logiciel d’indexation qui explore automatiquement le web. Il peut collecter différents types de ressources :

Pages web
Images
Vidéos
Documents
etc…

Notes du 15 novembre 2023

Introduction à Wikidata - présentation de Janette

Bibliographie

I. Présentation générale de Wikidata

II. Caractéristiques de Wikidata

III. Intérêt pour les chercheurs

IV. Requêtes sur Wikidata

V. Création d’éléments

VI. Conclusion

cours:

Récuperer et nettoyer les données

Question légales et éthiques

Les différentes manières de collecter des données sur le web

Le web scraping

Le web crawling

tags: `HNU2000` `2023`

Notes du 15 novembre 2023

Introduction à Wikidata - présentation de Janette

Bibliographie

I. Présentation générale de Wikidata

II. Caractéristiques de Wikidata

III. Intérêt pour les chercheurs

IV. Requêtes sur Wikidata

V. Création d’éléments

VI. Conclusion

cours:

Récuperer et nettoyer les données

Question légales et éthiques

Les différentes manières de collecter des données sur le web

Le web scraping

Le web crawling

tags: HNU2000 2023

tags: `HNU2000` `2023`