Notes du 15 novembre 2023

Introduction à Wikidata - présentation de Janette

Bibliographie

I. Présentation générale de Wikidata

II. Caractéristiques de Wikidata

III. Intérêt pour les chercheurs

IV. Requêtes sur Wikidata

V. Création d’éléments

VI. Conclusion

cours:

Récuperer et nettoyer les données

Question légales et éthiques

  1. Licéité, loyauté, transparence : Les données doivent être traitées de manière légale, équitable et transparente pour la personne concernée.

  2. Limitation des finalités : Les données doivent être collectées pour des objectifs spécifiques, explicites et légitimes, et ne doivent pas être utilisées de manière incompatible avec ces objectifs initiaux. Toutefois, des utilisations ultérieures sont permises pour des raisons d’intérêt public, de recherche scientifique, historique ou statistique, sous réserve de certaines conditions.

  3. Minimisation des données : Les données collectées doivent être adéquates, pertinentes et limitées à ce qui est nécessaire pour atteindre les objectifs pour lesquels elles sont traitées.

  4. Exactitude : Les données doivent être exactes et, si nécessaire, tenues à jour. Toutes les mesures raisonnables doivent être prises pour corriger ou supprimer les données inexactes par rapport à leur objectif initial de traitement.

  5. Limitation de la conservation : Les données doivent être conservées uniquement pendant la période nécessaire aux fins pour lesquelles elles ont été collectées. Cependant, une conservation plus longue est autorisée pour des objectifs d’archivage public, de recherche scientifique, historique ou statistique, sous réserve de mesures de sécurité appropriées.

  6. Intégrité et confidentialité : Les données doivent être traitées de manière à garantir leur sécurité, en prévenant tout accès non autorisé, traitement illicite, perte, destruction ou dommage accidentel, grâce à des mesures techniques et organisationnelles appropriées.

  7. Responsabilité : Le responsable du traitement des données est responsable de respecter ces principes et doit être en mesure de démontrer leur respect.

Cette loi énonce les conditions de légalité pour le traitement des données personnelles :

  1. Consentement : Le traitement des données personnelles est légal s’il est effectué avec le consentement explicite de la personne concernée pour des finalités spécifiques.
  2. Exécution d’un contrat : Le traitement est légitime s’il est nécessaire pour exécuter un contrat auquel la personne concernée est partie ou pour prendre des mesures précontractuelles à sa demande.
  3. Obligation légale : Le traitement est légal s’il est nécessaire pour respecter une obligation légale à laquelle le responsable du traitement est soumis.
  4. Intérêts vitaux : Le traitement est justifié s’il est nécessaire pour sauvegarder les intérêts vitaux de la personne concernée ou d’une autre personne physique.
  5. Mission d’intérêt public ou autorité publique : Le traitement est légal s’il est nécessaire pour exécuter une mission d’intérêt public ou relevant de l’exercice de l’autorité publique du responsable du traitement.
  6. Intérêts légitimes : Le traitement est légal s’il est nécessaire pour les intérêts légitimes du responsable du traitement ou d’un tiers, à condition que les intérêts ou droits fondamentaux de la personne concernée ne prévalent pas, notamment lorsque la personne concernée est un enfant.

Ce n’est pas parce qu’une loi approuve une pratique qu’elle est forcément éthique.

Les différentes manières de collecter des données sur le web

Scraping:
Utilise le crawling pour récupérer une liste de liens À partir d’1 url
Crawling:récupère une information cible par page - Il a le droit à 1 click de niveau 1 donc, si la page contient 4 liens il aura en tout ouvert

Le web scraping

Le web crawling

Le crawl est un logiciel d’indexation qui explore automatiquement le web. Il peut collecter différents types de ressources :


tags: HNU2000 2023