Réalisation de projets en science des données

Réalisation de projets en science des données
Réalisation de projets en science des données.

Publié le: 05.07.2022
Auteur: Alex Lavrynets

Chaque processus en science des données (p.ex. projet d’innovation) peut être décomposé en série d’étapes distinctes, effectuées par les professionnels issus de divers domaines. Une approche particulièrement soigneuse à chacune des étapes de ce processus itératif au sein d’une équipe, permet d’améliorer l’efficacité du modèle obtenu à la fin de chaque processus.

La science des données préconise une approche méthodologique inductive (bottom-up). Cette démarche scientifique a pour vocation d’expliquer un phénomène général en se basant sur les données observables recueillies.

Le processus de la science des données est un ensemble itératif d'étapes dans le cadre de complétion d’un projet ou d’une analyse. Chaque projet en science des données est unique tout comme le sont les données indispensables à son initialisation et son bon déroulement. Les étapes les plus importantes de ce processus sont décrites ci-dessous:

Formulation du problème

La formulation du problème est une étape indispensable à l’initialisation d’un processus en science des données. Il s’agit de comprendre et d’appréhender la problématique posée. L’initiateur du projet doit dès lors avoir une vue transversale des processus en place (business understanding) afin de formuler le problème de manière ciblée. Un document de pilotage du projet (p. ex. Data Science Project Canvas) permet dans cette première phase de faire l’inventaire des attentes, des besoins, des ressources et des risques en lien avec tout projet en science des données.

Collecte des données

Les données sont indispensables pour tout processus en science des données. La quantité et la qualité de ces données ont un impact sur les résultats obtenus à la fin de chaque projet. La quantité massive de données, également appelées mégadonnées (big data), nécessaire dans le cadre du projet peut être récoltée à partir de diverses sources. Ces données peuvent être structurées ou non structurées. Leur taille et leur format peuvent également varier. Il peut s’agir, par exemple, de pages web, d’images, de textes, de géodonnées, de données médicales ou de données issues de capteurs divers connectés ou isolés. Les jeux de données (data sets) sont alors constitués à partir des données collectées. Lorsqu’il s’agit de données sensibles, leur traitement est soumis au cadre légal en matière de protection des données de la Confédération.

Sélection des données

Toutes les données brutes collectées doivent être explorées et soigneusement sélectionnées afin d’assurer leur qualité pour la suite du processus. Les données aberrantes, qui peuvent être non conformes en raison d’une erreur humaine ou d’un capteur défectueux peuvent être filtrées conformément à la méthodologie sélectionnée.

Préparation des données

Après une sélection rigoureuse des données, celles-ci doivent être préparées selon une structure définie. Cette étape permet de les rendre accessibles et lisibles pour un algorithme. Les mégadonnées sont généralement préparées selon les principes FAIR: Faciles à trouver, accessibles, interopérables et réutilisables (Findable, Accessible, Interoperable, Reusable). 

Analyse des données

L’analyse des données permet d’identifier parmi la variété de données présentées celles qui sont significatives pour la problématique, et à établir des relations entre elles. Des méthodes d’analyse causale quantitatives ou qualitatives peuvent être assistées par des outils d’analyse statistique et mathématique mais également par des outils plus modernes, issus de l’apprentissage automatique et de l’intelligence artificielle. Cette approche est considérée comme le cœur de métier d’un ou d’une expert(e) en science des données (data scientist).

Evaluation et interprétation des données

Les résultats issus de l’analyse des données prennent en général la forme des nouvelles données liées et agrégées. Ces dernières peuvent être évaluées afin de s’assurer que le modèle choisi fonctionne et répond au besoin formulé lors de l’étape initiale. Leur interprétation permet en outre de découvrir de nouvelles perspectives et d’adapter ainsi le processus à des besoins potentiellement inconnus auparavant.

Mise à disposition des résultats

Les résultats sont finalement mis à disposition et permettent de retracer le travail effectué. Ces résultats peuvent être utilisés comme un point de départ pour un nouveau projet de recherche en science des données ou pour améliorer le processus existant. Un nouveau processus en science des données peut alors commencer. 

Dans le cadre de sa réalisation des projets, le Centre de compétences en science des données (DSCC) se limite à des solutions sous forme de produit minimum viable (minimal viable product, MVP) généralement fournies sous forme de code en langage de programmation R ou Python. L’implémentation de ce code en production, nécessitant des accès et la compréhension des systèmes informatiques en place (information technology, IT), ne fait pas partie de son domaine de compétences.

Légende:

Recourant à une démarche d’amélioration continue, la science des données est un processus de résolution de problèmes rigoureux et documenté.

Dernière modification 05.07.2022

Haut de page

Contact

Office fédéral de la statistique
Centre de compétences en science des données DSCC

Espace de l'Europe 10
CH-2010 Neuchâtel
Suisse

Contact

Commentaires sur le blog

Pour tout commentaire sur notre blog, veuillez utiliser le formulaire ci-dessous.
Merci beaucoup !

Formulaire Blog DSCC

https://www.bfs.admin.ch/content/bfs/fr/home/dscc/blog/2022-03-realisation-projets.html