Contenu
- Visualisation rapide des données
- Visualiser l'abondance relative
- Les ensembles de données complexes peuvent nécessiter une classification en intervalles
- Les tables de fréquences peuvent masquer l'inclinaison et le kurtosis
Les tableaux de fréquence peuvent être utiles pour décrire le nombre d'occurrences d'un type de donnée particulier dans un jeu de données. Les tableaux de fréquence, également appelés distributions de fréquence, sont l’un des outils les plus fondamentaux pour l’affichage de statistiques descriptives. Les tableaux de fréquence sont largement utilisés comme référence instantanée dans la distribution des données; ils sont faciles à interpréter et peuvent afficher de grands ensembles de données de manière assez concise. Les tableaux de fréquence peuvent aider à identifier les tendances évidentes dans un ensemble de données et peuvent être utilisés pour comparer des données entre des ensembles de données du même type. Les tableaux de fréquence ne sont toutefois pas appropriés pour chaque application. Ils peuvent masquer des valeurs extrêmes (plus de X ou moins que Y) et ne se prêtent pas à des analyses du biais et de la kurtose des données.
Visualisation rapide des données
Les tableaux de fréquence peuvent rapidement révéler des valeurs aberrantes et même des tendances significatives dans un ensemble de données avec une inspection superficielle. Par exemple, une enseignante peut afficher les notes des élèves à mi-parcours sur un tableau de fréquences afin d’obtenir un aperçu de la situation globale de sa classe. Le nombre dans la colonne de fréquence représenterait le nombre d'élèves ayant reçu cette note; pour une classe de 25 étudiants, la distribution de fréquence des notes de lettres reçues pourrait ressembler à ceci: Fréquence des notes A .............. 7 B ........... ..13 C .............. 3 D .............. 2
Visualiser l'abondance relative
Les tableaux de fréquence peuvent aider les chercheurs à examiner l'abondance relative de chaque donnée cible particulière au sein de leur échantillon. L'abondance relative représente la partie de l'ensemble de données qui comprend les données cibles. L'abondance relative est souvent représentée par un histogramme de fréquence, mais peut facilement être affichée dans un tableau de fréquences. Considérez la même distribution de fréquence des notes à mi-parcours. L'abondance relative est simplement le pourcentage d'élèves ayant obtenu une note donnée et peut être utile pour conceptualiser des données sans trop la penser. Par exemple, avec la colonne ajoutée qui affiche le pourcentage d'occurrences de chaque note, vous pouvez facilement voir que plus de la moitié de la classe a obtenu un B, sans avoir à examiner les données de manière plus détaillée.
Grade Fréquence Abondance relative (% de fréquence) A .............. 7 .............. 28% B ......... .... 13 ............ 52% C .............. 3 ............. 12% D .............. 2 .............. 8%
Les ensembles de données complexes peuvent nécessiter une classification en intervalles
Un inconvénient est qu’il est difficile de comprendre des ensembles de données complexes qui sont affichés sur une table de fréquences. Les grands ensembles de données peuvent être divisés en classes d'intervalle pour une visualisation facile à l'aide d'un tableau de fréquences. Par exemple, si vous demandiez aux 100 prochaines personnes de connaître leur âge, vous obtiendrez probablement un large éventail de réponses allant de trois à quatre-vingt-treize. Plutôt que d'inclure des lignes pour chaque âge dans votre tableau de fréquences, vous pouvez classer les données en intervalles, tels que 0 à 10 ans, 11 à 20 ans, 21 à 30 ans, etc. Ceci peut également être appelé distribution de fréquence groupée.
Les tables de fréquences peuvent masquer l'inclinaison et le kurtosis
Sauf s'ils sont affichés sur un histogramme, les asymétries et les kurtoses de données peuvent ne pas apparaître facilement dans un tableau de fréquences. L'asymétrie vous indique la direction que prennent vos données. Si les notes étaient affichées sur l'axe des X d'un graphique indiquant la fréquence des notes à mi-parcours pour nos 25 étudiants ci-dessus, la distribution serait biaisée en direction de As et Bs. Kurtosis vous informe sur le pic central de vos données, qu'il s'agisse d'une distribution normale (une courbe en cloche agréable et lisse) ou d'une taille élevée et nette. Si vous représentez les notes à mi-parcours dans notre exemple, vous découvrirez un pic élevé en B avec une chute brutale de la distribution des notes inférieures.