Aucun résultat trouvé
Nous ne pouvons rien trouver avec ce terme pour le moment, essayez de chercher autre chose.
Calculez instantanément la moyenne, la médiane, le mode et l'étendue de vos données statistiques. Un outil en ligne gratuit, rapide et facile à utiliser !
| Résultat | |||
|---|---|---|---|
| Moyenne x̄ | 16.75 | Valeurs aberrantes | 6, 33, 35 |
| Médiane x̃ | 15 | Quartile Q1 | 12.5 |
| Mode | 15 est apparu 3 fois | Quartile Q2 | 15 |
| Portée | 29 | Quartile Q3 | 16 |
| Minimum | 6 | Écart interquartile IQR | 3.5 |
| Maximum | 35 | ||
| Somme | 201 | ||
| Nombre n | 12 | ||
Il y avait une erreur avec votre calcul.
Interpréter des tableaux et des graphiques de données statistiques peut parfois sembler complexe. Il est souvent nécessaire de synthétiser de larges ensembles de données et d'en dégager les caractéristiques clés afin d'optimiser la qualité des informations statistiques.
En statistiques, diverses métriques sont employées pour résumer l'information. Certaines décrivent le centre de gravité des données : ce sont les mesures de tendance centrale. D'autres évaluent l'étalement des valeurs : on parle alors de mesures de dispersion. Enfin, les mesures de position permettent de déterminer la proportion de données se situant en dessous ou au-dessus d'un seuil précis.
L'objectif principal de cette calculatrice statistique est de calculer les mesures de tendance centrale (comme la moyenne et la médiane), qui représentent la valeur typique ou centrale d'un ensemble de données. Son second objectif est d'évaluer le degré de variation de ces données en déterminant des mesures de dispersion comme l'étendue, les quartiles et l'écart interquartile.
La moyenne arithmétique correspond à la somme de toutes les valeurs divisée par leur nombre total. Ce concept se calcule aisément à l'aide de la formule suivante, qui permet de déterminer la moyenne d'un échantillon :
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
La formule de la moyenne pour la population globale est la suivante :
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
Dans ces formules, le numérateur représente la somme totale de toutes les valeurs du jeu de données, tandis que le dénominateur correspond au nombre total d'observations.
La principale caractéristique de la moyenne arithmétique est qu'elle prend en considération absolument tous les points de données de la série.
Toutefois, sa grande limite réside dans sa forte sensibilité aux valeurs extrêmes (anormalement grandes ou petites). Ces points atypiques, appelés "valeurs aberrantes" (ou outliers), ont le pouvoir de fausser significativement le résultat de la moyenne.
Il est également important de noter que la valeur moyenne ne représente pas nécessairement la valeur "typique" des données. D'ailleurs, la moyenne calculée peut très bien être un nombre qui n'est même pas présent dans l'échantillon d'origine.
La "population" englobe l'ensemble total des individus ou des valeurs étudiés. L'"échantillon" est un sous-groupe plus restreint et représentatif extrait de cette population.
La méthode de calcul de la moyenne reste exactement la même pour un échantillon ou une population ; seule la notation mathématique change.
Pour un échantillon x₁, x₂,..., xₙ, la moyenne obtenue est appelée "moyenne empirique" (ou moyenne de l'échantillon) et est représentée par le symbole x̄. La moyenne de la population est, quant à elle, désignée par la lettre grecque 𝜇.
En statistiques, la convention veut que l'on utilise la lettre minuscule n pour indiquer la taille d'un échantillon, et la lettre majuscule N pour la taille d'une population.
Prenons un exemple concret : Luigi, un chef cuisinier passionné, décide d'ouvrir sa propre pizzeria à Bali. Pour convaincre un investisseur, il élabore un business plan. Afin d'estimer ses futures performances financières, il cherche d'abord à calculer le prix moyen d'une pizza dans les divers restaurants de l'île.
Après avoir étudié les prix de la pizza Margherita à Bali, il a récolté une série de données. Pour simplifier les calculs, nous ignorerons les trois derniers zéros et raisonnerons en milliers. Ainsi, le nombre "60" représentera 60.000 roupies indonésiennes (IDR).
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Luigi n'ayant pas interrogé l'intégralité des pizzerias de l'île, mais seulement 20 établissements choisis au hasard, nous sommes ici en présence d'un échantillon.
Utilisons notre formule pour calculer la valeur moyenne de ce jeu de données :
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Nous obtenons le résultat suivant : x̄ = 71,9.
L'étude de Luigi démontre que le prix moyen d'une pizza Margherita à Bali s'élève à 71.900 IDR. Il peut désormais s'appuyer sur ce tarif pour affiner ses projections.
La médiane est une mesure de position (et de tendance centrale) qui correspond à la valeur située exactement au centre d'un ensemble de données préalablement triées par ordre croissant ou décroissant.
L'objectif du calcul de la médiane est de trouver le point d'équilibre qui scinde la série en deux parties égales : 50 % des valeurs sont inférieures à la médiane, et 50 % y sont supérieures. C'est la raison pour laquelle, pour déterminer manuellement la médiane sans notre calculatrice, il est impératif de classer d'abord les valeurs de façon ordonnée.
La méthode de calcul varie selon que le nombre total d'observations dans la série est pair ou impair.
Si l'effectif total est impair (c'est-à-dire que n ou N est un nombre impair), la formule est la suivante :
$$Médiane=(\frac{n+1}{2})-me\ élément$$
Cependant, si l'effectif est pair (n est un nombre pair), la médiane correspond à la moyenne des deux valeurs centrales :
$$Médiane=\frac{\left[(\frac{n}{2})-me\ élément+(\frac{n}{2}+1)-me\ élément\right]}{2}$$
L'avantage majeur de la médiane est sa "robustesse" : contrairement à la moyenne, elle est très peu ou pas influencée par les valeurs extrêmement élevées ou extrêmement faibles.
Reprenons notre ensemble de vingt valeurs :
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Voici comment calculer la médiane étape par étape :
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Déterminez le nombre d'observations dans la série de données. Ici, n = 20.
Si n est impair, on choisit directement la valeur centrale des données. Si n est pair, on calcule la moyenne arithmétique des deux valeurs médianes (en les additionnant et en divisant la somme par 2).
Puisque 20 est un nombre pair, nous prenons les deux valeurs centrales de notre échantillon, qui sont la 10ème et la 11ème position : 69 et 70.
Le calcul de la médiane s'effectue ainsi :
$$Médiane = \frac{69 + 70}{2} = 69,5$$
Imaginons maintenant que Luigi dispose d'une série de 21 valeurs (effectif impair) :
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Après avoir ordonné l'ensemble :
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
Il lui suffirait de repérer la valeur située exactement au milieu, c'est-à-dire à la 11ème position : la médiane serait alors 70.
Bien que la moyenne et la médiane soient toutes deux des indicateurs de tendance centrale, il est crucial de comprendre leurs différences fondamentales.
La distinction principale réside dans leur méthode de calcul : la moyenne intègre absolument chaque valeur de la série, tandis que la médiane ne s'intéresse qu'à la position centrale (la ou les deux valeurs du milieu).
Cette nuance est déterminante face à des séries comportant un ou plusieurs nombres exceptionnellement grands ou petits (les fameuses valeurs aberrantes). Alors qu'une seule de ces valeurs suffit à faire dévier drastiquement la moyenne, la médiane restera quasiment insensible à leur présence.
En statistiques, on qualifie de "robuste" (ou résistante) une mesure dont la valeur ne fluctue pas brusquement à cause de points extrêmes. La médiane est donc un indicateur robuste, contrairement à la moyenne.
Ces deux outils abordent le concept de "milieu" sous des angles différents. La moyenne est le centre de gravité où s'équilibrent mathématiquement les valeurs. La médiane agit comme une frontière scindant l'échantillon exactement à 50/50. Dans une distribution parfaitement symétrique, la moyenne et la médiane sont égales.
Mais dans la réalité, elles le sont rarement.
Lorsque la moyenne diffère de la médiane, on dit de la série de données qu'elle est "asymétrique".
Si la valeur de la moyenne est inférieure à la médiane (située à sa gauche), on observe une distribution étalée vers la gauche (asymétrie négative). Inversement, si la moyenne est supérieure à la médiane (située à sa droite), on parle d'une distribution étalée vers la droite (asymétrie positive).
Il n'y a pas d'indicateur "parfait". Chacun révèle une facette différente des données. Néanmoins, les analystes privilégient souvent la médiane en présence de distributions très asymétriques ou parasitées par des valeurs extrêmes, car elle offre alors le reflet le plus fidèle d'une valeur "type".
Le mode est la valeur qui apparaît le plus fréquemment au sein d'une série de données. C'est, en d'autres termes, l'observation dominante ou le pic de fréquence.
Lorsqu'une seule valeur se distingue par sa fréquence d'apparition maximale, l'ensemble de données est qualifié d'unimodal.
Si deux valeurs distinctes partagent exactement la même fréquence maximale, les deux sont considérées comme des modes. La série est alors dite bimodale.
Au-delà de deux valeurs atteignant ce pic de fréquence, chacune d'entre elles est retenue comme mode, et la série prend le nom de multimodale.
À l'inverse, si aucune valeur ne se répète, on déclare que la série "ne possède aucun mode". Attention : il serait erroné d'affirmer que le mode est égal à 0. En effet, "0" peut parfaitement exister en tant que véritable donnée observée (par exemple dans des relevés de température).
L'atout majeur du mode réside dans sa simplicité de repérage et son insensibilité totale aux valeurs extrêmes. Son inconvénient principal est qu'il peut tout simplement être inexistant dans certaines distributions homogènes.
Reprenons l'exemple de nos vingt valeurs :
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Voici la marche à suivre pour l'identifier facilement :
Classez la série de données par ordre croissant ou décroissant (ce n'est pas mathématiquement obligatoire, mais cela aide à visualiser). L'ordre est le suivant :
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Ensuite, repérez le nombre qui se répète le plus souvent. Ici, la valeur 70 apparaît à quatre reprises. La valeur modale (le mode) de ce jeu de données est donc 70.
Bien que le mode soit couramment classé parmi les mesures de tendance centrale, il faut rester vigilant. Il peut très bien correspondre à l'extrémité la plus haute ou la plus basse d'une distribution. Regardez cette série fictive :
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Le mode serait ici "120". Or, ce chiffre se situant à l'extrême bord de la distribution, il échoue complètement à traduire une véritable "tendance centrale".
Particularité intéressante : alors que la moyenne et la médiane exigent obligatoirement des données quantitatives (des nombres), le mode peut parfaitement s'appliquer à des données qualitatives (des catégories ou des mots).
Illustrons cela. Anna mange de la pizza en moyenne 12 fois par mois, réparties de cette façon :
Ici, les données sont catégorielles. Nous obtenons une distribution bimodale : la "Napolitaine" et la "Margherita" sont les deux modes.
Les mesures de dispersion (ou de variabilité) servent à quantifier l'étalement d'un ensemble de données. Elles indiquent à quel point les observations s'éloignent ou se rapprochent de la valeur centrale. Pour évaluer la variance dans une série, les indicateurs les plus courants sont l'étendue, les quartiles et l'écart interquartile (EI).
L'étendue d'un jeu de données correspond à la différence arithmétique entre la valeur la plus grande (maximum) et la valeur la plus petite (minimum). Pour l'obtenir, il suffit de repérer les bornes extrêmes de l'échantillon et d'appliquer la formule suivante :
$$Gamme = La\ plus\ grande\ valeur - La\ plus\ petite\ valeur$$
Toujours avec notre groupe de vingt observations :
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Voici comment déterminer l'étendue. Un tri visuel permet de repérer instantanément les extrêmes :
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Nous identifions notre maximum (160) et notre minimum (42). En appliquant le calcul :
$$Gamme = La\ plus\ grande\ valeur - La\ plus\ petite\ valeur = 160 - 42 = 118$$
Par conséquent, pour cette série de données, l'étendue est de 118.
Les quartiles sont des points de coupe qui scindent un ensemble de données ordonnées en quatre groupes d'effectifs égaux (en quatre quarts). Il existe trois points critiques : le premier, le deuxième et le troisième quartile.
Le premier quartile, noté Q₁, est le palier sous lequel se situent les 25 % des valeurs les plus basses de l'échantillon. Les 75 % restants se trouvent au-dessus de ce seuil.
Le deuxième quartile, noté Q₂, correspond très exactement à la médiane. Il coupe la distribution au milieu : 50 % des données sont en dessous, 50 % sont au-dessus de Q₂.
Le troisième quartile, noté Q₃, est le point sous lequel se concentrent 75 % des observations, laissant le "top 25 %" des valeurs au-dessus.
Voici la méthode pas-à-pas pour calculer manuellement les quartiles d'une série :
Disposez d'abord systématiquement les données dans l'ordre croissant.
Pour identifier le deuxième quartile, il suffit de calculer la médiane.
Pour trouver les premier et troisième quartiles, déterminez d'abord n, le nombre total de valeurs dans la série.
Calculez un indicateur de position, nommé L : utilisez la formule L = 0,25n pour repérer le premier quartile, et L = 0,75n pour le troisième quartile.
Si L s'avère être un nombre entier, le quartile se calcule en effectuant la moyenne entre le nombre en position L et le nombre en position L + 1.
Si L n'est pas un nombre entier, arrondissez-le à l'entier supérieur suivant. Le quartile sera tout simplement la valeur qui se trouve à la position correspondant à cet index arrondi.
Appliquons cette méthode à nos vingt prix de pizzas :
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Démarche à suivre :
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Médiane = 70 (il s'agit de notre Q₂)
Nous cherchons l'index L pour le premier quartile : 0,25 × 20 = 5. L pour le troisième quartile : 0,75 × 20 = 15.
5 étant un entier, Q₁ correspond à la moyenne entre le 5ème (55) et le 6ème élément (59) de la série :
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73,5$$
Bilan pour ce jeu de données : le premier quartile est fixé à 57, le second (la médiane) à 70, et le troisième à 73,5.
L'écart interquartile (ou intervalle interquartile, noté EI ou IQR en anglais) représente la différence mesurée entre le troisième $(Q₃)$ et le premier Q₁ quartile. Cette métrique sert à évaluer la dispersion de la tranche centrale (les 50 % du milieu de l'échantillon). La formule de calcul est directe :
EI = Q₃ - Q₁
Dans la section précédente, nous avons isolé nos premier et troisième quartiles, qui sont respectivement 57 et 73,5. Il suffit maintenant d'insérer ces valeurs dans l'équation :
EI = Q₃ - Q₁ = 73,5 - 57 = 16,5
Ainsi, l'écart interquartile de notre distribution de prix s'élève à 16,5.
Que peut déduire Luigi de sa mini-enquête balinaise ? Tout d'abord, la moyenne (71,9) et la médiane (70) n'étant pas strictement identiques, une légère asymétrie s'est formée dans la répartition des prix. Toutefois, l'écart reste modéré : les deux mesures constituent donc des indicateurs fiables de la tendance centrale sur ce marché.
Pour concevoir son business plan sur la base du "prix classique" d'une Margherita, Luigi doit arbitrer entre ces données. Fixer intellectuellement un tarif de référence à 71.900 ou 69.500 IDR n'est pas très pratique. Fort heureusement, le mode et la médiane convergent vers un chiffre rond, qui fait d'ailleurs partie de la fourchette de marché : 70.000 IDR. C'est ce prix typique que Luigi a tout intérêt à retenir pour modéliser avec réalisme ses futurs revenus.
S'il envisageait d'ouvrir une pizzeria ciblant une clientèle plus économe (low cost), il pourrait ajuster ses tarifs autour du premier quartile, soit environ 57.000 IDR. En revanche, s'appuyer sur le troisième quartile pour fixer un prix "haut de gamme" à ses clients les plus exigeants serait moins judicieux ici : le Q₃ subit l'étirement des valeurs extrêmes de l'échantillon et perd alors en représentativité.