Accueil » Publications » Big data, machine learning et évaluation : 1. Introduction

Suivez-nous

LinkedIn
RSS

Prochains évènements

  1. Séance de comité

    20.04 18:00 - 20:00

Restons en contact

Big data, machine learning et évaluation : 1. Introduction

La data science au service des administrations

0. Abstract

La révolution numérique a transformé durablement la façon dont sont menés les projets, les programmes et les politiques publiques. Les nouvelles technologies de l’information et de la communication créent de nouvelles sources de données, dont la plupart relèvent du big data. Ces dernières représentent des enjeux méthodologiques nouveaux pour les professionnels de l’évaluation, qui peinent pourtant encore à les intégrer dans leurs analyses. Cette série d’articles vise à jeter un pont entre l’évaluation et la science des données en présentant quatre cas d’application de la data science, notamment du machine learning, au service des administrations. Pour chacun d’eux, il partage les algorithmes de résolution en langage Python, en utilisant des données similaires publiques ou fictives. Grâce aux outils libres et gratuits permettant de reproduire ces codes, il invite les évaluateurs à se familiariser de façon pratique à la science des données et aux perspectives qu’elle peut leur offrir dans leurs pratiques professionnelles.


Les chapitres de ce travail


1. Introduction : l’avènement de la data science grâce à la révolution numérique

Nous vivons une époque inédite dans laquelle nous évoluons connectés, de façons multiples et instantanées, à des biens et des services qui étaient encore inaccessibles un siècle auparavant. Notre situation est historiquement si unique que l’on désigne aujourd’hui la numérisation de notre société comme une nouvelle Révolution Industrielle (Schwab 2017, 11).

Les fondamentaux du machine learning sont déjà connus depuis plus d’un demi-siècle (Foote 2020). Cependant, les conditions nécessaires à son application n’étaient pas encore réunies. C’est aujourd’hui le cas : le recours à des modèles prédictifs est devenu courant dans des domaines comme l’imagerie, la santé, le marketing, ou encore l’aide à la conduite (Gavrilova 2020). Pour entraîner un ordinateur à prédire efficacement et rapidement un résultat, il est nécessaire de disposer d’au moins deux éléments : une quantité importante de données ; et une puissance de calcul suffisante pour l’application visée. Il est ainsi facile de comprendre l’ascension du machine learning durant la dernière décennie, avec l’avènement du big data propulsé par les réseaux sociaux et la transformation numérique des entreprises.

Pourquoi le machine learning est-il important en évaluation ? Très grossièrement, le processus évaluatif peut être résumé en trois étapes : 1) formuler des questions sur le projet à évaluer ; 2) collecter et analyser les données requises pour apporter des réponses argumentées ; et 3) soumettre les recommandations sur ce qui devrait (ou non) changer dans le projet. La collecte des données demeure généralement la partie la plus chronophage et l’automation y a déjà apporté des bénéfices certains à des prix contenus (à travers une interface numérique par exemple, comme les formulaires en ligne). Le machine learning va plus loin : appliqué à un système de données informatisées, il automatise l’analyse, les recommandations et même la prise de décision, comme cela a déjà été fait dans le secteur médical (Taylor 2018). Bien entendu, si le machine learning permet d’automatiser avantageusement certaines étapes de l’évaluation, il n’est actuellement pas raisonnable de penser qu’il pourrait remplacer l’entier de ses processus. D’une part, l’évaluation garde une part d’arbitraire, par exemple dans le choix des questions d’évaluation, des méthodes de travail, ou d’interprétation des résultats. D’autre part, il est pour l’instant nécessaire de disposer de ressources humaines pour la mise en place, le maintien et l’adaptation d’un dispositif d’apprentissage automatique.

1.1. Quelques précisions sur ce travail

Ce document est une adaptation de mon travail de MAS in Evaluation de l’Université de Berne. Son contenu repose sur les différentes travaux que j’ai pu réaliser avec, entre autres, l’État de Genève entre 2019 et 2020. Ma motivation est d’offrir à mes collègues évaluateurs un aperçu accessible de machine learning appliqué, ainsi qu’un code réutilisable pour leurs propres travaux (les outils pour les exécuter sont librement disponibles sur le web). Il contient par conséquent les algorithmes développés. Par souci didactique, j’ai simplifié ces algorithmes, tout en fournissant un maximum de commentaires en langage humain (en # gris). Afin de partager mon travail sans souci de confidentialité, les données originales sont anonymisées ou remplacées par des jeux similaires.

Exemple de code Python avec commentaires en langage humain (en gris)
# Importe la librairie pour lire le fichier
import pandas as pd
# Lit le fichier
df = pd.read_csv('airline-passengers.csv')
# Transforme la colonne des mois en format date
df['Month'] = pd.to_datetime(df['Month'])
# Représente les données sous forme graphique
df.set_index(['Month']).plot();

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *