Comment calculer les valeurs aberrantes

Posted on
Auteur: Lewis Jackson
Date De Création: 14 Peut 2021
Date De Mise À Jour: 15 Peut 2024
Anonim
Feature Engineering: Comment Détecter les Valeurs Aberrantes (Outliers)?
Vidéo: Feature Engineering: Comment Détecter les Valeurs Aberrantes (Outliers)?

Contenu

Une valeur aberrante est une valeur dans un ensemble de données qui est loin des autres valeurs. Les valeurs aberrantes peuvent être causées par des erreurs expérimentales ou de mesure, ou par une population à longue queue. Dans les premiers cas, il peut être souhaitable d'identifier les valeurs aberrantes et de les supprimer des données avant de procéder à une analyse statistique, car elles peuvent rejeter les résultats de sorte qu'ils ne représentent pas avec précision la population de l'échantillon. La méthode la plus simple pour identifier les valeurs aberrantes est la méthode des quartiles.


    Triez les données par ordre croissant. Par exemple, prenez l'ensemble de données {4, 5, 2, 3, 15, 3, 3, 5}. Triées, les exemples de données sont {2, 3, 3, 3, 4, 5, 5, 15}.

    Trouvez la médiane. C'est le nombre auquel la moitié des points de données sont plus grands et la moitié sont plus petits. S'il y a un nombre pair de points de données, les deux médians sont en moyenne. Pour l'exemple de jeu de données, les points centraux sont 3 et 4, la médiane est donc (3 + 4) / 2 = 3,5.

    Trouvez le quartile supérieur, Q2; c'est le point de données auquel 25% des données sont plus grandes. Si l'ensemble de données est pair, faites la moyenne des 2 points autour du quartile. Pour l'exemple de jeu de données, il s'agit de (5 + 5) / 2 = 5.

    Trouvez le quartile inférieur, Q1; c'est le point de données auquel 25% des données sont plus petites. Si l'ensemble de données est pair, faites la moyenne des 2 points autour du quartile. Pour les données d'exemple, (3 + 3) / 2 = 3.


    Soustrayez le quartile inférieur du quartile supérieur pour obtenir l'intervalle interquartile, le QI. Pour l'exemple de jeu de données, Q2 - Q1 = 5 - 3 = 2.

    Multipliez l'intervalle interquartile par 1,5. Ajoutez ceci au quartile supérieur et soustrayez-le du quartile inférieur. Tout point de données en dehors de ces valeurs est une valeur aberrante légère. Pour l'exemple, 1,5 x 2 = 3; donc 3 - 3 = 0 et 5 + 3 = 8. Ainsi, toute valeur inférieure à 0 ou supérieure à 8 constituerait une valeur aberrante légère. Cela signifie que 15 est considéré comme une valeur aberrante légère.

    Multipliez l'intervalle interquartile par 3. Ajoutez ceci au quartile supérieur et soustrayez-le du quartile inférieur. Tout point de données en dehors de ces valeurs est une valeur extrême extrême. Pour l'exemple, 3 x 2 = 6; donc 3 - 6 = –3 et 5 + 6 = 11. Ainsi, toute valeur inférieure à –3 ou supérieure à 11 constituerait une valeur aberrante extrême. Cela signifie que 15 constitue une valeur extrême extrême.


    Conseils