Accueil » Publications » Big data, machine learning et évaluation : 3. Quelques définitions

Suivez-nous

LinkedIn
RSS

Prochains évènements

  1. Séance de comité

    20.04 18:00 - 20:00

Restons en contact

Big data, machine learning et évaluation : 3. Quelques définitions

La data science au service des administrations

Les chapitres de cet article

3. Quelques définitions

3.1. Le machine learning

Le machine learning (ou apprentissage automatique) est le « processus par lequel un algorithme évalue et améliore ses performances sans l’intervention d’un programmeur, en répétant son exécution sur des jeux de données jusqu’à obtenir, de manière régulière, des résultats pertinents » (République française 2018). Malgré quelques développements précoces depuis les années 1950, la recherche dans le domaine ne s’est intensifiée qu’à partir du 21e siècle, grâce à l’explosion des puissances de calcul et du big data (Foote 2020). Le machine learning distingue deux types majeurs d’apprentissage (Shalev-Shwartz et Ben-David 2014, 22-23) :

  1. L’apprentissage supervisé – la machine fournit des prédictions sur la base de données labellisées (par exemple, le prix d’une maison en fonction de ses caractéristiques ou la réussite scolaire d’un étudiant en fonction de son profil).
  2. L’apprentissage non-supervisé – la machine fournit des prédictions qui n’ont pas été renseignées préalablement (par exemple, en détectant des données anormales ou en regroupant les données par fonction de similarité).

Typiquement, le machine learning trouve son utilité pour effectuer des tâches trop complexes à programmer (Shalev-Shwartz et Ben-David 2014, 21-22). Il vise particulièrement :

  • Les tâches qu’un être humain ou un animal peut effectuer de façon routinière (e. g. la détection d’objet et la conduite automatique).
  • Les tâches comprenant un si grand nombre de paramètres que leur appréhension dépasse les capacités humaines (e. g. les prévision météo).
  • Les tâches qui demandent une grande adaptation à de nouveaux paramètres (e. g. la reconnaissance de textes manuscrits).

3.2. La data science (ou science des données)

« Data science is a multifaceted discipline, which encompasses machine learning and other analytic processes, statistics and related branches of mathematics, increasingly borrows from high performance scientific computing, all in order to ultimately extract insight from data and use this new-found information to tell stories. »

(Mayo 2017)

Le machine learning est également une discipline à la frontière des sciences mathématiques et informatiques, plus récemment attribuée au domaine plus large de la data science. Si la data science ne trouve pas encore de définition universelle, elle reste le plus souvent vue comme un domaine d’étude interdisciplinaire.

Diagramme de Venn de la data science
(Conway 2013)

3.3. Le big data

Comme le machine learning, la data science doit son expansion à l’avènement du big data. Le big data marque une rupture avec les données qui le précèdent, non seulement par son volume remarquable, mais aussi par le défi qu’il pose aux méthodes traditionnelles de traitement des données.

Le big data est un « ensemble d’une très grande quantité de données, structurées ou non, se présentant sous différents formats et en provenance de sources multiples, qui sont collectées, stockées, traitées et analysées dans de courts délais, et qui sont impossibles à gérer avec des outils classiques de gestion de bases de données ou de gestion de l’information. »

(Office québécois de la langue française 2020)

En évaluation du développement, l’UN Global Pulse (2016, 34-38) précise que le big data ne se résume pas seulement à la génération de données massives : il comporte également l’écosystème des acteurs autour des données ainsi que de la façon dont ces dernières sont mises en forme et en valeur.

Les trois dimensions du big data
(UN Global Pulse 2016, 35)

3.4. L’évaluation

Dans l’usage courant, l’évaluation désigne l’opération par laquelle on juge la valeur d’une chose (CNRTL 2012). Néanmoins, les spécialistes du domaine s’accordent sur une définition plus précise :

« Evaluation is the systematic assessment of the design, implementation or results of an initiative for the purposes of learning or decision-making. »

(CES 2016)

L’évaluation est par définition liée à la gestion de projet, de programme ou de politique publique (par métonymie, le terme désigne aussi la discipline consacrée à son étude). Elle s’attache principalement à produire des connaissances utiles au moyen d’une méthodologie rigoureuse. La question des buts de l’évaluation reste toutefois ouverte selon les différents courants de pensée qui l’abordent. Ces courants révèlent trois paradigmes principaux sur le but premier de l’évaluation :

  1. L’évaluation comme outil d’aide à la décision (Campbell 1969) : elle mesure la valeur d’une nouvelle réforme sur la base d’expérimentations contrôlées.
  2. L’évaluation comme outil de production de savoir (Scriven 1991) : elle produit des connaissances sur les effets du projet, indépendamment des objectifs de ce dernier.
  3. L’évaluation comme outil d’amélioration (Patton 2008) : elle guide continuellement le projet en fonction des besoins de ses destinataires.
Arbre des théories en évaluation
(Alkin 2004, 13)

Les nouvelles méthodes de récolte et d’analyse apportées par la data science s’appliquent particulièrement bien à l’amélioration continue du projet (approche de Patton), en raison de l’immédiateté du big data et de la possibilité d’un monitoring en temps réel.

Utilisation des données de téléphonie mobile pour mesurer les déplacements de populations
(UN Global Pulse 2016, 41)

Des projets en data science peuvent également être réalisés ex-post (approche de Campbell), typiquement pour enrichir une étude qui inclut différents outils d’analyse. Enfin, en pratique, l’application du big data permet également la découverte d’informations inédites et indépendantes des objectifs du mandat (approche de Scriven). En effet, les masses de données à disposition ne sont généralement pas récoltées dans un but particulier et peuvent renfermer des informations inattendues.

Considérer l’évaluation comme un outil d’amélioration de projets, de programmes ou de politiques publiques s’insère dans les perspectives théoriques étayées sur le sujet. Dès lors, il est raisonnable de considérer le machine learning (et, plus largement, la data science) comme un instrument d’analyse opportun, voire parfois incontournable pour tirer profit du big data, pour lequel les méthodes traditionnelles sont inadaptées.


Les chapitres de cet article

  1. Introduction : l’avènement de la data science grâce à la révolution numérique
    1. Quelques précisions sur ce travail
  2. Survol de la discussion scientifique
    1. Début des années 2010 : les premiers retours de terrain
    2. Le milieu des années 2010 : l’envol de la thématique
    3. L’accalmie du débat depuis 2018
  3. Quelques définitions
    1. Le machine learning
    2. La data science (ou science des données)
    3. Le big data
    4. L’évaluation
  4. Prédire les contraventions impayées de la ville Détroit
    1. Algorithme de prédiction des contraventions impayées
  5. La prédiction des pannes (ou maintenance prédictive)
    1. Algorithme de prédiction des pannes
  6. La gestion des tickets d’incident
    1. Algorithme de prédiction des questions similaires
  7. La détection d’anomalies
    1. Algorithme de détection d’anomalies
    2. Algorithme de détection d’erreurs de saisie
  8. Conclusion
    1. Un retard d’adaptation
    2. Une évolution sans révolution
    3. Ouvrir la réflexion sur les enjeux éthiques
  9. Bibliographie

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *