Les inconvénients de la régression linéaire

Posted on
Auteur: Peter Berry
Date De Création: 19 Août 2021
Date De Mise À Jour: 13 Novembre 2024
Anonim
Les inconvénients de la régression linéaire - Science
Les inconvénients de la régression linéaire - Science

Contenu

La régression linéaire est une méthode statistique permettant d’examiner la relation entre une variable dépendante, notée y et une ou plusieurs variables indépendantes, notées X. La variable dépendante doit être continue, en ce sens qu'elle peut prendre n'importe quelle valeur, ou du moins presque continue. Les variables indépendantes peuvent être de tout type. Bien que la régression linéaire ne puisse pas montrer le lien de causalité en soi, la variable dépendante est généralement affectée par les variables indépendantes.


La régression linéaire est limitée aux relations linéaires

De par sa nature, la régression linéaire n’examine que les relations linéaires entre les variables dépendantes et indépendantes. En d’autres termes, cela suppose qu’il existe une relation linéaire entre eux. Parfois, c'est incorrect. Par exemple, la relation entre le revenu et l’âge est incurvée, c’est-à-dire que le revenu a tendance à augmenter au début de l’âge adulte, à s’effacer à la fin de l’âge adulte et à diminuer après la retraite. Vous pouvez déterminer s'il s'agit d'un problème en consultant des représentations graphiques des relations.

La régression linéaire ne regarde que la moyenne de la variable dépendante

La régression linéaire examine une relation entre la moyenne de la variable dépendante et les variables indépendantes. Par exemple, si vous examinez la relation entre le poids à la naissance des nourrissons et les caractéristiques maternelles telles que l'âge, la régression linéaire considérera le poids moyen des bébés nés de mères d'âges différents. Cependant, vous devez parfois examiner les extrêmes de la variable dépendante, par exemple, les bébés courent un risque lorsque leur poids est faible. Vous voudrez donc examiner les extrêmes dans cet exemple.


Tout comme la moyenne n'est pas une description complète d'une seule variable, la régression linéaire ne constitue pas une description complète des relations entre les variables. Vous pouvez résoudre ce problème en utilisant la régression quantile.

La régression linéaire est sensible aux valeurs aberrantes

Les valeurs aberrantes sont des données surprenantes. Les valeurs aberrantes peuvent être univariées (basées sur une variable) ou multivariées. Si vous examinez l’âge et le revenu, les valeurs univariées s’apparentent à une personne âgée de 118 ans ou ayant gagné 12 millions de dollars l’année dernière. Une valeur aberrante multivariée serait un jeune de 18 ans gagnant 200 000 $. Dans ce cas, ni l'âge ni le revenu ne sont très extrêmes, mais très peu de personnes âgées de 18 ans gagnent autant.


Les valeurs aberrantes peuvent avoir des effets énormes sur la régression. Vous pouvez résoudre ce problème en demandant des statistiques d'influence à votre logiciel de statistiques.

Les données doivent être indépendantes

La régression linéaire suppose que les données sont indépendantes. Cela signifie que les scores d'une matière (comme une personne) n'ont rien à voir avec ceux d'une autre. C'est souvent, mais pas toujours, raisonnable. Deux cas courants où cela n’a aucun sens sont les regroupements dans l’espace et dans le temps.

Un exemple classique de regroupement dans l'espace sont les résultats de tests d'élèves, lorsque vous avez des élèves de différentes classes, classes, écoles et districts scolaires. Les élèves d’une même classe ont tendance à se ressembler à bien des égards, c’est-à-dire qu’ils viennent souvent des mêmes quartiers, qu’ils ont les mêmes enseignants, etc. Ils ne sont donc pas indépendants.

Les études dans lesquelles vous mesurez plusieurs fois les mêmes sujets sont des exemples de regroupement dans le temps. Par exemple, dans une étude sur le régime alimentaire et le poids, vous pouvez mesurer chaque personne plusieurs fois. Ces données ne sont pas indépendantes car ce qu'une personne pèse à une occasion est lié à ce qu'il pèse à d'autres occasions. Une solution consiste à utiliser des modèles à plusieurs niveaux.