Aller au contenu

Cours - Échantillonnage

1. Notion d'échantillon⚓︎

On considère une expérience aléatoire à deux issues : je jeu de pile ou face avec une pièce bien équilibrée. Cette expérience conduit à deux issues notées \(P\) et \(F\) avec \(p(P)=p(F)=\frac{1}{2}\).

image20

Lorsque cette expérience est répétée \(n\) fois (avec \(n\) entier naturel quelconque), on obtient une liste de \(n\) résultats successifs : une telle liste est un échantillon aléatoire de taille \(n\) pour cette expérience aléatoire.

Par exemple, si je joue trois fois à pile ou face et que j'obtiens successivement 2 piles ou 1 face, je produis un échantillon aléatoire de taille 3 : \(P\), \(P\), \(F\).

Définition

Étant donnée une expérience aléatoire et un entier naturel \(n\), on appelle échantillon aléatoire de taille \(n\) pour cette expérience aléatoire une liste de \(n\) résultats produite par \(n\) répétitions de la même expérience aléatoire dans des conditions identiques.

Pour étudier les propriétés des échantillons, nous aurons souvent besoin de considérer des valeurs de \(n\) très grandes. Plutôt que de passer des heures à jouer à pile ou face, un programme informatique est utile pour modéliser l'expérience aléatoire et produire des échantillons de grande taille.

La fonction Python ci-dessous simule \(n\) lancers d'une pièce bien équilibrée. Chaque lancer est modélisé par un entier aléatoire égal à 0 ou à 1 avec équiprobabilité, grâce à la fonction randint(0,1) du module random.

from random import randint

def echantillon(n):
    """Produit un échantillon de taille n du jeu de Pile ou Face
    n entier naturel"""
    for k in range(n):
        lancer = randint(0,1)
        if lancer == 0:
            print("Pile")
        else:
            print("Face")

2. La loi des grands nombres⚓︎

Théoriquement, s'agissant d'une pièce bien équilibrée, la probabilité d'obtenir Face est égale à \(\frac{1}{2}\).

Modifions la fonction précédente pour qu'elle affiche la fréquence de réalisation de l'événement "Face" dans l'échantillon.

def frequence_face(n):
    """Retourne la fréquence d'apparition de "Face" dans un échantillon de taille n
    n entier naturel"""
    nb_faces = 0
    for k in range(n):
        lancer = randint(0,1)
        if lancer == 1:
            nb_faces = nb_faces + 1
    return nb_faces/n

En exécutant cette fonction plusieurs fois avec la même valeur de \(n\) par exemple \(n=50\) on remarque que les résultats obtenus varient autour de la probabilité théorique \(\frac{1}{2}\). Ce phénomène est appelé fluctuation d'échantillonnage.

Cependant, lorsque la taille \(n\) de l'échantillon augmente on constate que la fluctuation d'échantillonnage diminue et les fréquences s'éloignent moins de la probabilité théorique.

Ce phénomène est général et se nomme la loi des grands nombres.

Théorème : La loi des grands nombres (énoncé simplifié)

La fréquence de réalisation d'un événement \(A\) dans un échantillon de taille \(n\) d'une expérience aléatoire tend vers la probabilité \(p(A)\) lorsque \(n\) devient grand.

Le graphique ci-dessous illustre cette loi. On a simulé 50 échantillons de taille 10 (points verts), de taille 100 (en bleu), de taille 1000 (en cyan) et de taille 10 000 (en rouge). On observe d'une part à l'intérieur d'une même couleur une forte fluctuation d'échantillonnage, mais aussi de façon très claire la diminution de cette fluctuation lorsque \(n\) devient grand.

image

Nous pouvons être plus précis grâce au résultat suivant : quand nous produisons un échantillon de taille \(n\) la probabilité que la fréquence observée \(f\) dans cet échantillon (fréquence de réalisation de l'événement \(A\)) appartienne à l'intervalle

\[\left[p-\frac{1}{\sqrt{n}};p+\frac{1}{\sqrt{n}}\right]\]

est supérieure à \(95\%\). Cet intervalle est appelé intervalle de fluctuation d'échantillonnage.

Exemple

Sur le graphique ci-dessus on s'intéresse aux point bleus correspondant au cas où \(n=100\). Dans ce cas, l'intervalle de fluctuation d'échantillonnage est \(I=\left[p-\frac{1}{\sqrt{n}};p+\frac{1}{\sqrt{n}}\right]=\left[0,5-\frac{1}{\sqrt{100}};0,5+\frac{1}{\sqrt{100}}\right]=[0,4 ; 0,6]\).

On a tracé sur le graphique (en bleu aussi) les droites d'équation \(y=0,4\) et \(y=0,6\).

Compter le nombre de points qui n'appartiennent pas à \(I\) puis vérifier que plus de \(95\%\) des échantillons conduisent à une fréquence qui appartient à \(I\).

Réponses

On compte 3 points bleus en dehors des droites bleues, il y a donc 43 points bleus entre les lignes (au sens large) soit \(96\%\).

3. Estimation d'une proportion inconnue⚓︎

Une application fondamentale de la loi des grands nombres est l'estimation d'une proportion inconnue. En effet, avec les notations du théorème, si la probabilité \(p=p(A)\) est inconnue, on peut en estimer une valeur approchée en calculant la fréquence \(f\) de réalisation de l'événement \(A\) dans un échantillon assez grand.

D'après la loi des grands nombres, on sait que cette estimation sera bonne si \(n\) est grand.

Plus précisément on a :

\[\begin{matrix} f\in \left[p-\frac{1}{\sqrt{n}};p+\frac{1}{\sqrt{n}}\right] & \iff & p-\frac{1}{\sqrt{n}}\leqslant f \leqslant p+\frac{1}{\sqrt{n}}\\ & \iff & -\frac{1}{\sqrt{n}}\leqslant f-p \leqslant \frac{1}{\sqrt{n}}\\ & \iff & -f-\frac{1}{\sqrt{n}}\leqslant -p \leqslant -f +\frac{1}{\sqrt{n}}\\ & \iff & f-\frac{1}{\sqrt{n}}\leqslant p \leqslant f +\frac{1}{\sqrt{n}}\\ & \iff & p\in \left[f-\frac{1}{\sqrt{n}};f+\frac{1}{\sqrt{n}}\right] \end{matrix}\]

Le premier intervalle est l'intervalle de fluctuation d'échantillonnage pour \(f\) : lors de la réalisation d'un échantillon, \(f\) va appartenir à cet intervalle avec une probabilité d'au moins \(95\%\). Le dernier intervalle est appelé intervalle de confiance pour p : avec une confiance d'au moins \(95\%\), la proportion inconnue \(p\) se trouve dans cet intervalle.

Remarque

On parle ici de confiance et non de probabilité : en effet, la valeur de la proportion est inconnue, mais elle existe et n'est pas aléatoire. Ou bien elle est dans l'intervalle de confiance ou elle n'y est pas. Par contre, la fréquence observée, elle, provient de la réalisation d'une expérience aléatoire et on peut donc parler de probabilité en ce qui concerne l'intervalle de fluctuation d'échantillonnage.

Exemple

Les biologistes utilisent souvent les intervalles de confiance pour estimer la fréquence d'une certaine caractéristique dans une population.

Considérons par exemple un lac contenant seulement des poissons dont une espèce notée \(A\). On souhaite estimer la proportion de poissons \(A\) dans le lac.

Un biologiste prélève 150 poissons dans le lac et il dénombre 35 poissons \(A\) dans cet échantillon.

Comment peut-on estimer la proportion de poissons \(A\) dans ce lac ?

Réponse

La fréquence observée est ici : \(f=\frac{35}{150}\approx 0,23\) et la taille \(n\) de l'échantillon est égale à 150.

L'intervalle de confiance à \(95\%\) est donc : \(I=\left[0,23-\frac{1}{\sqrt{150}} ; 0,23+\frac{1}{\sqrt{150}}\right]\), soit approximativement \(I=[0,14 ; 0,32]\).

On peut donc estimer que la proportion de poissons \(A\) dans le lac est comprise entre \(14\%\) et \(32\%\) avec une confiance de \(95\%\).

Pour obtenir une estimation plus précise, il faudrait capturer plus de poissons.

Retour en haut de la page