Introduction#

Statistiques: une définition ?#

Les mathématiques (du grec Mathema \(\approx\) apprendre) sont une manière:

La statistique souffre d’un problème de nomenclature. On a deux « statistiques » (définitions TLF):

  • « Recueil de données numériques concernant des faits économiques et sociaux »; par exemple des données démographiques (répartition en âge, métiers, etc. de la population), ou économiques (taux de chômage, salaire médian, etc.). «L’ensemble des connaissances que doit posséder un homme d’État », introduit en allemand Statistik par l’économiste G. Achenwall (1719-1772) (de l’italien statista, homme d’”Etat).

  • « Branche des mathématiques ayant pour objet l’analyse et l’interprétation de données quantifiables.»

Utiliser les maths
pour
extraire des informations
à partir de
données
en présence
d'incertitudes

Les données sont absolument partout de nos jours.

  • OFS: démographie, chômage \(\rightarrow\) décisions politiques;

  • science: expérience \(\rightarrow\) données \(\rightarrow\) conclusion;

  • utilisation d’internet: « cookies » \(\rightarrow\) publicités ciblées.

Et les probabilités ?#

Les probabilités nous aident à appréhender l’incertitude; elles permettent de la transcrire en un formalisme mathématique.

  • C’est la discipline qui étudie les phénomènes aléatoires (ou stochastiques).

  • C’est la base indispensable à toute étude mathématiquement rigoureuse de ces phénomènes.

Les probabilités nous donnent le formalisme dans lequel on peut comprendre et quantifier l’effet que la présence d’incertitude dans les données a sur notre analyse de ces données.

Le but de la statistique#

L’expérience montre que de nombreuses expériences sont intrinsèquement aléatoire: jet de dé, un tirage au sort, une campagne de vaccination.
D’autres ne le sont peut-être pas intrinsèquement, mais il s’avère impossible de les reproduire exactement: tir au panier, mesure physique etc. Ainsi, le hasard est une composante essentielle de bien des expériences.
La plupart du temps, le but de la statistique est de comprendre ce hasard.

On peut identifier quatres étapes majeures de la démarche statistique:

  • planification de l’expérience; (développement théorique du problème, élaboration du plan expérimental);

  • collecte des données;

  • analyse des données;

  • présentation des résultats et conclusions / actions;

Ce cours se concentre sur l’analyse des données. Je conseille fortement la référence suivante: Cox, D. R. and Donnelly, C. A. (2011) Principles of applied statistics, Cambridge, UK: Cambridge University Press.

  • L’analyse exploratoire des données: consiste en l’utilisation de méthodes simples, intuitives, essentiellement graphiques. Son objectif est l’identification informelle de la structure d’un jeu de données (tendances, formes, observation atypiques). Elle permet donc de se familiariser avec les données.

L’analyse exploratoire suggère des hypothèses de travail et des modèles, qui sont formalisés et vérifiés dans le second pôle:

  • L’analyse confirmatoire des données: elle conduit à des conclusions statistiques à partir de données en utilisant des notions de la théorie des probabilités. Cette partie plus formelle concerne notamment des méthodes de test, d’estimation et de prévision.

On distingue en général deux grands types d’études: expérimentales et observationnelles. La démarche est fondamentalement différente, ainsi que les conclusions que l’on peut en tirer.

_images/table.svg

Les statistiques dans le monde moderne#

Les statistiques sont très présentes autour de nous.

  • En science, la statistique est l’outil clé pour obtenir des conclusions scientifiques rigoureuses.

  • En politique, les décisions sont basées sur les statistiques qui donnent un aperçu d’une certaine situation.

  • Plus généralement, les statistiques sont utilisés pour comprendre l’état présent d’un système ou anticiper son état futur. Par exemple, à l’aide d’un sondage, on peut évaluer l’état de l’opinion publique à un moment donné, et anticiper le résultat d’une élection.

Structure du cours#

Ce cours a pour objectifs formels: - d’introduire les bases de la théorie des probabilités; - d’introduire les bases de la théorie statistiques.

Ce cours est très, très loin d’être exhaustif et constitue un aperçu de ce domaine. Le fil rouge de ce cours consiste à comprendre des données dans différentes situations.

  • Statistitique exploratoire: comprendre visuellement des données;

  • Probabilités: construire un cadre théorique pour comprendre des données au-delà du visuel. Se constituer une boîte à outils.

  • Statistique inférentielle:

    • Comprendre des données à partir d’un modèle: estimation d’un modèle;

    • Comprendre des données et les confronter à une théorie: tests d’hypothèses;

    • Comprendre des données à l’aide d’autres données: régression.

Le cours sera divisé en quatre chapitres:

  1. Statistique exploratoire (\(\leq \) 2 semaines) - types de données, étude graphique des variables, synthèses numériques de la distribution, loi normale.

  2. Calcul des probabilités (\(\sim\) 6 semaines) - probabilités d’évènements, variables aléatoires, valeurs caractéristiques, théorèmes fondamentaux.

  3. Idées fondamentales de la statistique (\(\sim\) 4 semaines) - modèles statistiques, estimation de paramètres, estimation par intervalles, tests statistiques, test \(\chi^2\) (prononcer khi-carré).

  4. Régression linéaire (\(\sim\) 3 semaines) - introduction, principe des moindres carrés, régression linéaire simple et multiple.

Remarque

  • Si vous avez déjà fait de la probabilité, la section probabilité pourrait être redondante avec vos cours précédents. Elle est nécessaire pour les étudiants qui n’ont pas encore vu ce domaine des mathématiques.

  • Ne faites pas l’impasse sur la probabilité. On ne peut pas comprendre la statistique sans comprendre la probabilité.

  • La probabilité et la statistique présentent camparativement peu de difficultés mathématiques (calculs difficiles, etc.) mais des difficultés conceptuelles.