"

4.2.4 Théorème central limite

Effet central limite

L’une des statistiques les plus fréquemment utilisées dans les applications d’ingénierie est la moyenne de l’échantillon. Nous avons déjà évoqué les équations pour la moyenne et la variance de la distribution de probabilité d’une moyenne d’échantillon ou d’une observation unique lorsque le modèle de variables iid s’applique.  L’un des faits les plus utiles de la probabilité appliquée est que si la taille de l’échantillon est raisonnablement grande, il est également possible d’approximer la forme de la distribution de probabilité de \bar{X}, quelle que soit la forme de la distribution sous-jacente des observations individuelles. Autrement dit, le fait suivant est avéré :

.

Proposition 4.2.4.1 Théorème central limite

Soient X_1, X_2, \ldots, X_{n} des variables aléatoires iid (avec une moyenne \mu et une variance \sigma^2). Pour des échantillons à grand n, la variable \bar{X} est approximativement normalement distribuée. (En d’autres termes, on peut approximer les probabilités de \bar{X} avec une distribution normale de moyenne \mu et de variance \sigma^2 / n.)

.

La preuve de la proposition 4.2.4.1 dépasse le cadre de ce manuel, mais on peut en saisir intuitivement la notion à l’aide d’un exemple.

Exemple 4.2.4.1 Effet central limite et moyenne d’un échantillon de numéros de série d’outils (suite)

Reprenons l’exemple de la section 3.2.1.2 concernant le dernier chiffre du numéro de série d’outils pneumatiques sélectionnés de manière essentiellement aléatoire. Supposons que

.

W_1= le dernier chiffre du numéro de série observé lundi prochain à 9 h.
.
W_2= le dernier chiffre du numéro de série observé le lundi suivant à 9 h.
.
On peut raisonnablement supposer que les variables aléatoires W_1, W_2 sont indépendantes, chacune avec la fonction de probabilité marginale :
.
4.2.4.1          f(w)= \begin{cases}0,1 & \text { si } w=0,1,2, \ldots, 9 \\ 0 & \text { sinon }\end{cases}
.
Cette fonction de probabilité marginale est illustrée à la figure 4.2.4.1
.
Grâce à ce modèle, il est très facile de déduire que \bar{W}=\frac{ 1}{ 2}\left(W_1+W_2\right) a la fonction de probabilité donnée au tableau 4.2.4.1 et illustrée à la figure 4.2.4.2.
.

Figure 4.2.4.1 Histogramme de probabilité de [latex]W[/latex]

.

Figure 4.2.4.2 Histogramme de probabilité de [latex]\bar{W}[/latex], avec [latex]n=2[/latex]

.

Tableau 4.2.4.1

.

En comparant les figures 4.2.4.1 et 4.2.4.2, il est clair que même pour une distribution sous-jacente complètement plate et uniforme de W et une taille d’échantillon de n=2, la distribution de probabilité de \bar{W} commence à prendre une forme de cloche – à tout le moins, plus que la distribution sous-jacente. La raison en est claire. Plus on s’éloigne de la moyenne ou de la valeur centrale de \bar{W}, moins il y a de combinaisons de w_1 et w_2 qui peuvent produire une valeur donnée de \bar{w}. Par exemple, pour que \bar{W}=0, il faut que W_=0 et W_=0 – autrement dit, il faut non pas une, mais deux valeurs extrêmes. En revanche, il existe 10 combinaisons différentes de w_1 et w_2 qui produisent \bar{W}=4,5.
.
Il est possible d’utiliser le même type de logique que celle qui a conduit au tableau 4.2.4.1 pour produire des distributions de probabilités exactes pour \bar{W} avec de grandes tailles d’échantillons n. Mais ce travail est fastidieux, et pour indiquer plus ou moins comment l’effet central limite prend le dessus au fur et à mesure que n grossit, il suffit d’approximer la distribution de \bar{W} en simulant un échantillon de grande taille. À cette fin, regardons l’histogramme de fréquence (figure 4.2.4.3) de 1 000 ensembles de valeurs pour les variables iid W_1, W_2, \ldots, W_8 (avec une distribution marginale qui a été simulée et chaque ensemble pondéré pour produire 1 000 valeurs simulées de \bar{W} avec n=8. Remarquez le caractère en forme de cloche du graphique. (La moyenne simulée de \bar{W} était de 4,508 \approx 4,5=E(\bar{W})=E(W), alors que la variance de \bar{W} était de 1,025 \approx 1,013=\operatorname{Var (\bar{W})}=8,25 / 8, en étroite concordance avec les formules.)
.

Figure 4.2.4.3 Histogramme des 1 000 valeurs simulées de [latex]\bar{W}[/latex] avec [latex]n=8[/latex].

.

Taille de l’échantillon et effet central limite
Ce qui constitue un « grand échantillon n » dans la proposition 4.2.4.1 n’est pas évident. En réalité, la taille de l’échantillon nécessaire pour que \bar{X} puisse être considérée comme essentiellement normale dépend de la forme de la distribution sous-jacente des observations individuelles. Les distributions sous-jacentes ayant des formes résolument non normales requièrent des valeurs un peu plus élevées de n. Mais dans la plupart des applications d’ingénierie, n \geq 25 est généralement suffisant pour que \bar{X} soit essentiellement normale pour la majorité des mécanismes de génération de données. (Les exceptions sont celles qui sont sujettes à la production occasionnelle de valeurs très éloignées de la réalité.) En effet, comme le suggère l’exemple 4.2.4.2, dans de nombreux cas \bar{X} est essentiellement normale pour des tailles d’échantillon très inférieures à 25.
.
L’utilité pratique de la proposition 4.2.4.1 est que, dans de nombreux contextes, il suffit d’une table normale pour évaluer les probabilités des moyennes d’échantillon.
.

Exemple 4.2.4.2 Exigence en matière de délai de vente de timbres.

Supposons qu’il y ait des exigences concernant le délai de vente des timbres, et que nous voulions observer n=100 durées de service excessives pour obtenir :
.
\bar{S}= le temps moyen de l’échantillon (au-dessus du seuil de 7,5 \mathrm{sec}) nécessaire pour réaliser les 100 prochaines ventes de timbres.
.
Supposons en outre que nous voulions approximer image17] » title= »P[\bar{S}>17] » class= »latex mathjax »>.
.
Nous supposerons qu’un modèle iid avec une distribution de probabilité marginale exponentielle \alpha=16,5 est plausible pour les temps de service excessifs individuels S. Ainsi, on obtient
.
E (\bar{S})=\alpha=16,5 \text{ sec }
.
et
.
\sqrt{\operatorname{Var (\bar{S})}}=\sqrt{\frac{\alpha^2}{ 100}}=1,65 \text{ sec}
.
pour \bar{S}, selon nos équations. En outre, en tenant compte du fait que n=100 est grand, la table de probabilité normale peut être utilisée pour calculer les probabilités approximatives de \bar{S}. La figure 4.2.4.4 illustre une distribution approximative pour \bar{S} et l’aire correspondant à image17] » title= »P[\bar{S}>17] » class= »latex mathjax »>.
.

Figure 4.2.4.4 Distribution de probabilité approximative pour [latex]\bar{S}[/latex] et [latex]P[\bar{S}>17][/latex].

.

Comme toujours, il faut obtenir les cotes z avant de consulter la table normale standard. Dans ce cas, la moyenne et l’écart-type à utiliser sont (respectivement) 16,5 \text{ sec} et 1,65 \text{ sec}. Les cotes z valent donc :
.
z=\frac{17-16,5}{ 1,65}=0,30
.
Ainsi :
.
image17] \approx P[Z>0,30]=1-\Phi(0,30)=0,38″ title= »P[\bar{S}>17] \approx P[Z>0,30]=1-\Phi(0,30)=0,38″ class= »latex mathjax »>
.

Cote z d’une moyenne d’échantillon

La cote z calculée dans l’exemple est une application de l’équation générale suivante :
.
4.2.4.1 Cote z calculée pour la moyenne d’un échantillon
  z=\frac{\bar{x}-E(\bar{X})}{\sqrt{\operatorname{Var(\bar{X})}}}=\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}
.
Cette application est appropriée lorsqu’on utilise le théorème central limite pour approximer les probabilités de la moyenne d’un échantillon. L’équation 4.2.4.1 est pertinente parce que, comme l’indique la proposition 4.2.4.1, \bar{X} est approximativement normale si n est grand, auquel cas il y a des équations pour obtenir sa moyenne et son écart-type.

Licence

Introduction aux méthodes statistiques en ingénierie© par C. Bassim et Bryan Lee. Tous droits réservés.