Contenu
- Exemples de régression multiple
- Avantages de la régression multiple
- Inconvénients de la régression multiple
La régression multiple est utilisée pour examiner la relation entre plusieurs variables indépendantes et une variable dépendante. Alors que les modèles de régression multiples vous permettent d'analyser les influences relatives de ces variables indépendantes ou prédicteurs sur la variable dépendante ou critère, ces ensembles de données souvent complexes peuvent conduire à de fausses conclusions s'ils ne sont pas analysés correctement.
Exemples de régression multiple
Un agent immobilier pourrait utiliser la régression multiple pour analyser la valeur des maisons. Par exemple, elle pourrait utiliser comme variables indépendantes la taille des maisons, leur âge, le nombre de chambres à coucher, le prix moyen des maisons dans le quartier et la proximité des écoles. En les traçant dans un modèle de régression multiple, elle pourrait ensuite utiliser ces facteurs pour voir leur relation avec les prix des maisons comme variable critère.
Un autre exemple d'utilisation d'un modèle de régression multiple pourrait être une personne des ressources humaines déterminant le salaire des postes de direction - la variable critère. Les variables prédites pourraient être l’ancienneté de chaque responsable, le nombre moyen d’heures travaillées, le nombre de personnes gérées et le budget ministériel des responsables.
Avantages de la régression multiple
L'analyse des données à l'aide d'un modèle de régression multiple présente deux principaux avantages. Le premier est la capacité de déterminer l’influence relative d’une ou de plusieurs variables prédictives sur la valeur du critère. L’agent immobilier pourrait constater que la taille des maisons et le nombre de chambres à coucher ont une forte corrélation avec le prix d’une maison, tandis que la proximité des écoles n’a aucune corrélation, ni même une corrélation négative s’il s’agit principalement d’une retraite. communauté.
Le deuxième avantage est la capacité d'identifier les valeurs aberrantes ou les anomalies. Par exemple, en examinant les données relatives aux salaires des cadres, le responsable des ressources humaines pouvait constater que le nombre d'heures travaillées, la taille du service et son budget étaient tous fortement corrélés aux salaires, contrairement à l'ancienneté. Alternativement, il se peut que toutes les valeurs prédites répertoriées soient corrélées à chacun des salaires examinés, à l’exception d’un gestionnaire qui était trop payé par rapport aux autres.
Inconvénients de la régression multiple
L’inconvénient de l’utilisation d’un modèle de régression multiple se limite généralement aux données utilisées. Deux exemples en sont l'utilisation de données incomplètes et la conclusion erronée qu'une corrélation est une causalité.
En examinant le prix des maisons, par exemple, supposons que l’agent immobilier n’a examiné que 10 maisons, dont sept ont été achetées par de jeunes parents. Dans ce cas, la relation entre la proximité des écoles peut lui donner à penser que cela a eu une incidence sur le prix de vente de toutes les maisons vendues dans la communauté. Ceci illustre les pièges de données incomplètes. Si elle avait utilisé un échantillon plus important, elle aurait pu constater que, sur 100 maisons vendues, seulement 10% de la valeur des maisons était liée à la proximité des écoles. Si elle avait utilisé l'âge des acheteurs comme valeur prédictive, elle aurait pu constater que les acheteurs plus jeunes étaient prêts à payer plus cher pour les maisons de la communauté que les acheteurs plus âgés.
Dans l'exemple des salaires de direction, supposons qu'il y ait un cas particulier qui avait un budget plus petit, moins d'ancienneté et moins de personnel à gérer, mais qui gagnait plus que quiconque. Le responsable des ressources humaines pourrait examiner les données et conclure que cette personne est surpayée. Cependant, cette conclusion serait erronée s’il ne tenait pas compte du fait que ce responsable était en charge du site Web de la société et possédait un ensemble de compétences très convoité en matière de sécurité des réseaux.