La data science au service des administrations

🥇 Gagnant du prix SEVAL 2021

0. Abstract

La révolution numérique a transformé durablement la façon dont sont menés les projets, les programmes et les politiques publiques. Les nouvelles technologies de l’information et de la communication créent de nouvelles sources de données, dont la plupart relèvent du big data. Ces dernières représentent des enjeux méthodologiques nouveaux pour les professionnels de l’évaluation, qui peinent pourtant encore à les intégrer dans leurs analyses.

❝ Cette série d’articles vise à jeter un pont entre l’évaluation et la science des données en présentant quatre cas d’application au service des administrations ❞

Cette série d’articles vise à jeter un pont entre l’évaluation et la science des données en présentant quatre cas d’application, notamment du machine learning, au service des administrations. Pour chacun d’eux, il partage les algorithmes de résolution en langage Python, en utilisant des données similaires publiques ou fictives. Grâce aux outils libres et gratuits permettant de reproduire ces codes, il invite les évaluateurs à se familiariser de façon pratique à la science des données et aux perspectives qu’elle peut leur offrir dans leurs pratiques professionnelles.

La théorie vous ennuie ? Passez directement à la partie sur les cas pratiques !

Les chapitres de ce travail

1. Introduction : l’avènement de la data science grâce à la révolution numérique

Nous vivons une époque inédite dans laquelle nous évoluons connectés, de façons multiples et instantanées, à des biens et des services qui étaient encore inaccessibles un siècle auparavant. Notre situation est historiquement si unique que l’on désigne aujourd’hui la numérisation de notre société comme une nouvelle Révolution Industrielle (Schwab 2017, 11).

Les fondamentaux du machine learning sont déjà connus depuis plus d’un demi-siècle (Foote 2020). Cependant, les conditions nécessaires à son application n’étaient pas encore réunies. C’est aujourd’hui le cas : le recours à des modèles prédictifs est devenu courant dans des domaines comme l’imagerie, la santé, le marketing, ou encore l’aide à la conduite (Gavrilova 2020). Pour entraîner un ordinateur à prédire efficacement et rapidement un résultat, il est nécessaire de disposer d’au moins deux éléments : une quantité importante de données ; et une puissance de calcul suffisante pour l’application visée. Il est ainsi facile de comprendre l’ascension du machine learning durant la dernière décennie, avec l’avènement du big data propulsé par les réseaux sociaux et la transformation numérique des entreprises.

Pourquoi le machine learning est-il important en évaluation ? Très grossièrement, le processus évaluatif peut être résumé en trois étapes : 1) formuler des questions sur le projet à évaluer ; 2) collecter et analyser les données requises pour apporter des réponses argumentées ; et 3) soumettre les recommandations sur ce qui devrait (ou non) changer dans le projet. La collecte des données demeure généralement la partie la plus chronophage et l’automation y a déjà apporté des bénéfices certains à des prix contenus (à travers une interface numérique par exemple, comme les formulaires en ligne). Le machine learning va plus loin : appliqué à un système de données informatisées, il automatise l’analyse, les recommandations et même la prise de décision, comme cela a déjà été fait dans le secteur médical (Taylor 2018). Bien entendu, si le machine learning permet d’automatiser avantageusement certaines étapes de l’évaluation, il n’est actuellement pas raisonnable de penser qu’il pourrait remplacer l’entier de ses processus. D’une part, l’évaluation garde une part d’arbitraire, par exemple dans le choix des questions d’évaluation, des méthodes de travail, ou d’interprétation des résultats. D’autre part, il est pour l’instant nécessaire de disposer de ressources humaines pour la mise en place, le maintien et l’adaptation d’un dispositif d’apprentissage automatique.

1.1. Quelques précisions sur ce travail

Ce document est une adaptation de mon travail de MAS in Evaluation de l’Université de Berne. Son contenu repose sur les différents travaux que j’ai réalisés avec, entre autres, l’État de Genève entre 2019 et 2020. Ma motivation est d’offrir à mes collègues évaluateurs un aperçu accessible de machine learning appliqué, ainsi qu’un code réutilisable pour leurs propres travaux (les outils pour les exécuter sont librement disponibles sur le web). Il contient par conséquent une version simplifiée des algorithmes développés, accompagnés de commentaires en langage humain (en # gris). Afin de partager mon travail sans souci de confidentialité, les données originales sont anonymisées ou remplacées par des jeux similaires.

Exemple de code Python avec commentaires en langage humain (en gris)

# Importe la librairie pour lire le fichier
import pandas as pd
# Lit le fichier
df = pd.read_csv('airline-passengers.csv')
# Transforme la colonne des mois en format date
df['Month'] = pd.to_datetime(df['Month'])
# Représente les données sous forme graphique
df.set_index(['Month']).plot();

À propos de Michael

**Michael Debétaz**
*Consultant*
Data Science | Evaluation | Web Dev

Je travaille comme entrepreneur et comme conseiller en organisation depuis 2016. Je suis spécialisé en data science, en évaluation et en développement d’applications web. J’ai aidé plusieurs organisations à moderniser leurs processus de travail (notamment @ ) et je cultive une passion sans borne pour ce que le numérique peut apporter à la réalisation de projets. À côté, je dirige Sympa Bonnard, un e-commerce qui promeut une consommation éthique et locale. Je trouve mon épanouissement en soutenant des organisations à développer et à améliorer leurs projets, tout en leur transmettant les outils pour développer leur propre autonomie.

LinkedIn | YouTube | Écrivez-moi