Contenu
- Motivation
- Déclaration du théorème
- Pourquoi est-ce partout?
- Copules gaussiennes
- Dérivation
- Commodité informatique
En statistique, la distribution gaussienne, ou normale, est utilisée pour caractériser des systèmes complexes comportant de nombreux facteurs. Comme le décrit The History of Statistics de Stephen Stigler, Abraham De Moivre a inventé la distribution qui porte le nom de Karl Fredrick Gauss. La contribution de Gauss réside dans son application de la méthode de la distribution à la méthode des moindres carrés afin de minimiser les erreurs lors de l’ajustement des données avec une droite de meilleur ajustement. Il en a donc fait la distribution d'erreur la plus importante en statistiques.
Motivation
Quelle est la distribution d'un échantillon de données? Que faire si vous ne connaissez pas la distribution sous-jacente des données? Est-il possible de tester des hypothèses sur les données sans connaître la distribution sous-jacente? Grâce au théorème central limite, la réponse est oui.
Déclaration du théorème
Il indique qu'une moyenne d'échantillon d'une population infinie est approximativement normale, ou gaussienne, avec une moyenne identique à celle de la population sous-jacente, et une variance égale à la variance de la population divisée par la taille de l'échantillon. L'approximation s'améliore à mesure que la taille de l'échantillon augmente.
L’énoncé d’approximation est parfois considéré à tort comme une conclusion à propos de la convergence vers une distribution normale. Étant donné que la distribution normale approximative change à mesure que la taille de l'échantillon augmente, une telle déclaration est trompeuse.
Le théorème a été développé par Pierre Simon Laplace.
Pourquoi est-ce partout?
Les distributions normales sont omniprésentes. La raison vient du théorème de la limite centrale. Souvent, lorsqu'une valeur est mesurée, c'est l'effet de somme de nombreuses variables indépendantes. Par conséquent, la valeur mesurée a elle-même une qualité moyenne d'échantillon. Par exemple, une distribution de performances d’athlètes peut avoir la forme d’une cloche en raison de différences dans l’alimentation, la formation, la génétique, l’entraînement et la psychologie. Même la hauteur des hommes a une distribution normale, fonction de nombreux facteurs biologiques.
Copules gaussiennes
Ce que l’on appelle une «fonction de copule» avec une distribution gaussienne a fait les manchettes en 2009 en raison de son utilisation dans l’évaluation du risque lié à l’investissement dans des obligations garanties. L’utilisation abusive de la fonction a joué un rôle dans la crise financière de 2008-2009. Bien que la crise ait eu de nombreuses causes, les distributions gaussiennes n’auraient probablement pas dû être utilisées à posteriori. Une fonction avec une queue plus épaisse aurait attribué une plus grande probabilité d'événements indésirables.
Dérivation
Le théorème de la limite centrale peut être prouvé dans de nombreuses lignes en analysant la fonction génératrice du moment (mgf) de (moyenne de l'échantillon - moyenne de la population) /? (Variance de la population / taille de l'échantillon) en fonction du mgf de la population sous-jacente. La partie approximative du théorème est introduite par l’extension du mgf de la population sous-jacente en tant que série de puissances, puis en montrant que la plupart des termes sont non significatifs à mesure que la taille de l’échantillon devient importante.
Cela peut être prouvé dans beaucoup moins de lignes en utilisant un développement de Taylor sur l'équation caractéristique de la même fonction et en agrandissant la taille de l'échantillon.
Commodité informatique
Certains modèles statistiques présument que les erreurs sont gaussiennes. Cela permet d’utiliser les distributions de fonctions de variables normales, telles que la distribution du chi carré et la distribution F, dans le test d’hypothèses. Plus précisément, dans le test F, la statistique F est composée d’un ratio de distributions du khi-deux, elles-mêmes fonction d’un paramètre de variance normale. Le rapport entre les deux provoque l'annulation de la variance, ce qui permet de tester des hypothèses sans connaître les variances en dehors de leur normalité et de leur constance.