Nettoyer et transformer des données avec Openrefine : des premiers pas aux usages avancés

Thème :

Traiter : réseaux et outils, outils et techniques de gestion documentaire, traitement, analyse, indexation et cartographie de l'information

Objectifs

OpenRefine est un logiciel libre et gratuit destiné à nettoyer, préparer, transformer et enrichir des données. Il est utilisable dans de nombreuses contextes scientifiques et dans les métiers de l’information et de la documentation. Son interface est proche d'un tableur et permet de réaliser des opérations au moyen de menus ou en écrivant des formules dans un langage spécifique. Au cours de la formation, les fonctionnalités simples et avancées d'OpenRefine seront présentées de manière progressive et dynamique, en s'appuyant sur des exemples et des exercices pratiques. Des supports et éléments de documentation en français seront fournis.

Programme

(l'ordre de traitement des sujets pourra varier)

 

- Présentation du logiciel

- Installation d'extensions

- Import et export de données et de traitements

- Repérage et harmonisation de variantes ou d'anomalies (tris, facettes, clusterisation)

- Modification de l'organisation générale des données

- Croisement de plusieurs fichiers

- Extraction de motifs (introduction aux expressions régulières)

- Scission de cellules contenant plusieurs valeurs, et regroupement de plusieurs valeurs dans une même cellule

- Enrichissement par récupération automatique de données sur le web (API et web scraping)

- Alignement de données avec des référentiels externes (Wikidata...)

- Formules en langage GREL (spécifique d’OpenRefine)

- Formules en langage Python

Prérequis

Bonnes connaissances informatiques

Public concerné

Enseignant du supérieur, chercheur Doctorant Professionnels de l’information

Durée

6 heures

Prochaine session


Voir le stage

Rappel : les stages sont gratuits pour tous les personnels d’établissements d’enseignement supérieur et de recherche, ainsi que pour les doctorants.

Valid XHTML 1.0 Transitional CSS Valide !