1.0.1 Introduction à l’exploration des données

Photographie datée de 1912 de Karl Pearson (auteur inconnu – Google Books – Nock, Albert Jay (1912-03). « A New Science And Its Findings ». The American Magazine LXXIII: 579. The Phillips Publishing Co.., Domaine public, https://commons.wikimedia.org/w/index.php?curid=4578734, et Google Books: Karl Pearson, The Grammar of Science, Adam et Charles Black, 1911, Londres : https://www.google.com/books/edition/The_Grammar_of_Science/9mISAAAAIAAJ?hl=en&gbpv=1&dq=grammar+of+science&printsec=frontcover, Domaine public.

 

Karl Pearson, pionnier controversé des mathématiques et de la biostatistique né en Angleterre en 1857, a profondément influencé le domaine des statistiques. Son livre « The Grammar of Science », publié pour la première fois en 1892, est un pilier de la philosophie scientifique; il peut être considéré comme un lien entre les statistiques et l’ingénierie dans la mesure où il met l’accent sur l’importance des méthodes statistiques pour comprendre et décrire les phénomènes naturels.  Cette perspective trouve un écho particulier dans le domaine de l’ingénierie, lequel repose en grande partie sur l’observation, la mesure, la description, la communication technique et l’application créative – des aspects clés de la méthode scientifique qui s’appuient fortement sur le raisonnement statistique.

Les statistiques et les méthodes statistiques sont essentielles dans les domaines de l’ingénierie et de l’ingénierie biomédicale, car elles jouent un rôle crucial dans la conception, l’analyse et l’interprétation des données. Ces domaines reposant de plus en plus sur la technologie et les données, la littératie statistique et la capacité à utiliser « la grammaire de la science » deviennent essentielles pour les ingénieur.e.s en biomédecine.

Principaux points à retenir

Ce cours porte sur l’exploitation des données et sur la description et la communication de leur incertitude à l’aide de méthodes statistiques.

Ces méthodes sont essentielles dans le domaine de la santé et nécessaires pour créer, tester et comprendre l’impact des nouvelles technologies biomédicales, qui produisent d’énormes quantités de données. Contrairement à ce qui est d’usage en mathématiques pures, dans le monde réel, les données contiennent toujours des erreurs et des variations. Les statistiques facilitent la prise de décision éclairées dans ce contexte d’incertitude inhérente, une compétence essentielle dans divers domaines tels que l’économie, la santé, le commerce et l’ingénierie.

Les statistiques comprennent deux grands domaines : les méthodes descriptives, qui résument les données d’un échantillon, et les méthodes inférentielles, qui tirent des conclusions sur une population plus grande. L’exploration, le nettoyage et la catégorisation des données sont essentiels pour choisir la bonne méthode d’analyse statistique. Il est fondamental de pouvoir comprendre la tendance globale et la variation des données et de pouvoir en parler; c’est là qu’interviennent des mesures comme la moyenne, le mode, l’écart-type et l’écart interquartile.

Cette partie du cours se concentre sur les concepts fondamentaux de la statistique. Elle présente l’utilisation de l’informatique statistique et certains concepts fondamentaux de la science des données qui permettent d’appliquer des méthodes statistiques aux données. La science des données est le domaine interdisciplinaire des statistiques, de l’informatique scientifique, de la science et de l’ingénierie. Son objectif est d’extraire des connaissances à partir de données et d’en faire usage.  Dans ce cours, nous utiliserons les JupyterLab Notebooks basés sur Python comme outil de calcul statistique pour explorer les concepts statistiques et les mettre en application.

Objectifs d’apprentissage

Objectifs d’apprentissage de la partie 1

  • Distinguer les statistiques descriptives et inférentielles et comprendre leurs applications dans des contextes d’ingénierie.
  • Comprendre les échantillons statistiques et les techniques d’échantillonnage de base.
  • Connaître et comprendre la planification d’expériences et les plans d’expériences en ingénierie.
  • Identifier, classer et utiliser différents types de données statistiques (catégoriques, classées, discrètes et continues).
  • Revoir les fondements du nettoyage et de la préparation des données pour les explorer.

Objectifs d’apprentissage de la partie 1 – Tutoriels Jupyter Notebooks

  • Ouvrir et utiliser un tutoriel JupyterLab Notebook et lire un jeu de données simple.
  • Utiliser le calcul statistique pour nettoyer et préparer les données.

La partie 1 de ce cours établit les bases pour tout ce qui suit – elle contient une feuille de route pour l’étude des statistiques en ingénierie. Elle définit le sujet, décrit son importance, introduit des termes de base et aborde la question importante des mesures. Enfin, elle se penche sur le rôle des modèles mathématiques dans la réalisation des objectifs des statistiques en ingénierie.

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.

Partagez ce livre