Statistikberegnere
Gennemsnit, median og typetal-beregner


Gennemsnit, median og typetal-beregner

Beregn hurtigt gennemsnit, median, typetal og variationsbredde. Brug vores gratis statistikberegner til at finde gennemsnittet og centrale tendenser.

Resultat
Gennemsnit x̄ 16.75 Afvigende værdier 6, 33, 35
Median x̃ 15 Kvartil Q1 12.5
Typetal 15 forekom 3 gange Kvartil Q2 15
Variationsbredde 29 Kvartil Q3 16
Minimum 6 Interkvartilbredde IKB 3.5
Maksimum 35
Sum 201
Antal n 12

Der opstod en fejl i din beregning.

Indholdsfortegnelse

  1. Mål for central tendens
  2. Gennemsnitsberegner
  3. Gennemsnit for stikprøven og populationen
  4. Eksempel på beregning af gennemsnit
  5. Medianberegner
  6. Eksempel på beregning af medianen
  7. Forskellen mellem gennemsnittet og medianen
  8. Typetal-beregner
  9. Eksempel på beregning af typetal
  10. Spredningsmål
  11. Beregner til variationsbredde
  12. Eksempel på beregning af variationsbredde
  13. Kvartilberegner
    1. Beregning af kvartiler
  14. Eksempel på beregning af kvartiler
  15. Beregner til interkvartilbredde (IQR)
  16. Eksempel på beregning af IQR
  17. Resultater

Gennemsnit, median og typetal-beregner

Mål for central tendens

Rå statistiske data i tabeller og grafer kan ofte være svære at tolke ved første øjekast. For at udtrække meningsfuld indsigt er vi nødt til at opsummere datasæt og identificere deres vigtigste karakteristika.

I statistik bruges forskellige metrikker til at opsummere og beskrive data. Nogle metrikker identificerer midten af datasættet, kendt som mål for central tendens. Andre metrikker, kaldet spredningsmål, fortæller os, hvor spredte dataværdierne er. Derudover viser positionsmål den andel af data, der falder under en bestemt værdi.

Det primære formål med denne statistikberegner er at udregne mål for central tendens – specifikt gennemsnit og median – som repræsenterer den typiske eller centrale værdi i et datasæt. Det sekundære formål med dette værktøj er at bestemme graden af variation i dine data ved at beregne variationsbredden, kvartiler og interkvartilbredden (IQR).

Gennemsnitsberegner

Gennemsnittet er det aritmetiske gennemsnit, som beregnes ved at lægge alle værdierne sammen og dividere med det samlede antal værdier. Det er den mest anvendte metrik til at finde gennemsnittet, og det beregnes ved hjælp af følgende formel for en stikprøve:

$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$

Formlen for at beregne gennemsnittet for en hel population er:

$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$

I disse ligninger repræsenterer tælleren summen af alle værdier i datasættet, mens nævneren repræsenterer det samlede antal af disse værdier.

Den største fordel ved at bruge det aritmetiske gennemsnit er, at det inddrager hvert eneste datapunkt i dit datasæt.

Dets primære begrænsning er dog, at det er følsomt over for ekstreme værdier. Usædvanligt høje eller lave tal, kendt som outliers (afvigere), kan skævvride gennemsnittet markant.

Det er også vigtigt at bemærke, at gennemsnittet ikke altid er den "typiske" værdi i dataene. Faktisk kan det beregnede gennemsnit være et tal, der slet ikke findes i selve datasættet.

Gennemsnit for stikprøven og populationen

En population omfatter hele det sæt af værdier, du undersøger. En stikprøve er en mindre, repræsentativ gruppe udvalgt fra denne population.

Den matematiske metode til at beregne gennemsnittet er identisk for både stikprøver og populationer. Den eneste forskel ligger i den statistiske notation.

Hvis x₁, x₂,..., xₙ repræsenterer en stikprøve, kaldes det beregnede gennemsnit for stikprøvegennemsnittet, som angives med symbolet x̄. Hvis du beregner gennemsnittet for en hel population, angives det med det græske bogstav 𝜇 (mu).

I statistik bruger vi det lille bogstav n til at angive stikprøvestørrelsen og det store bogstav N til at angive populationsstørrelsen.

Eksempel på beregning af gennemsnit

Lad os se på et praktisk eksempel: Luigi er mesterkok og pizzaentusiast, og han vil gerne åbne et nyt pizzeria på Bali. For at tiltrække en investor er Luigi ved at skrive en forretningsplan, og han har brug for at finde gennemsnitsprisen for en pizza på tværs af forskellige restauranter på øen for at kunne forudsige sin fremtidige økonomiske præstation.

Han undersøgte prisen på en Margherita-pizza på forskellige lokale restauranter og samlede et datasæt. For at gøre regnestykket enklere, fjerner vi de sidste tre nuller og bruger prisen i tusinder. For eksempel repræsenterer en værdi på 60 i vores beregninger 60.000 indonesiske rupiah (IDR).

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

Luigi kunne ikke besøge hvert eneste pizzeria på øen, så han udvalgte tilfældigt 20 restauranter. Derfor arbejder vi med en stikprøve.

Lad os beregne gennemsnitsværdien for dette datasæt ved hjælp af formlen for stikprøvegennemsnit:

$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$

Det resulterende gennemsnit er x̄ = 71,9.

Luigis undersøgelse viser, at 71.900 IDR er gennemsnitsprisen for en Margherita-pizza på Bali. Han kan nu bruge dette basistal til sine økonomiske prognoser.

Medianberegner

Medianen er et positionsmål, der repræsenterer den nøjagtige midterværdi i et datasæt, når det er sorteret i stigende eller faldende rækkefølge.

Når vi beregner medianen, leder vi efter det tal, der deler dataene præcist i to. Præcis 50 % af dataværdierne vil være mindre end medianen, og 50 % vil være større. Det er grunden til, at du først skal sortere tallene, hvis du vil finde medianen manuelt – uden hjælp fra en medianberegner.

Beregningsmetoden varierer lidt afhængigt af, om det samlede antal værdier i dit datasæt er ulige eller lige.

Hvis det samlede antal elementer er ulige (hvilket betyder, at n eller N er et ulige tal), bruger du følgende formel:

$$Median=(\frac{n+1}{2})-th \ element$$

Men hvis antallet af elementer er lige, gælder følgende formel:

$$Median=\frac{\left[(\frac{n}{2})-th \ element+(\frac{n}{2}+1)-th \ element\right]}{2}$$

Den største fordel ved at bruge medianen er dens modstandsdygtighed over for outliers. I modsætning til gennemsnittet påvirkes medianen minimalt af ekstremt høje eller ekstremt lave værdier.

Eksempel på beregning af medianen

Med udgangspunkt i Luigis stikprøve på tyve pizzapriser:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

Vi kan beregne medianen trin for trin:

  1. Sorter datasættet i stigende eller faldende rækkefølge. Arrangeret sekventielt ser dataene således ud:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

  1. Bestem antallet af værdier i datasættet. Her er n = 20.

  2. Hvis n er ulige, er medianen den midterste værdi. Hvis n er lige, er medianen det aritmetiske gennemsnit af de to midterste tal (læg dem sammen og divider med 2).

Da 20 er et lige tal, finder vi de to midterste værdier.

De midterste værdier i vores sorterede stikprøve er 69 og 70. Vi beregner medianen således:

$$Median = \frac{69 + 70}{2} = 69.5$$

Hvis Luigi havde indsamlet et ulige sæt på 21 værdier, for eksempel:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70

Ville han sortere værdierne:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160

Og blot vælge den præcise midterværdi på den 11. position, som er 70.

Forskellen mellem gennemsnittet og medianen

Selvom både gennemsnittet og medianen fungerer som mål for central tendens, er det vigtigt at forstå, hvordan de adskiller sig i statistisk analyse.

Den grundlæggende forskel er, at gennemsnittet inddrager hver enkelt værdi i datasættet, hvorimod medianen udelukkende bestemmes af det midterste tal (eller de to midterste tal).

Denne forskel er særligt kritisk, når man håndterer datasæt, der indeholder usædvanligt store eller små tal, kendt som outliers (afvigere). Outliers vil forvrænge gennemsnittet markant, men de vil have lille eller ingen indflydelse på medianen.

I statistik betragtes et mål som "modstandsdygtigt" (robust), hvis ekstreme værdier ikke påvirker det i høj grad. Derfor er medianen et yderst modstandsdygtigt mål, mens gennemsnittet ikke er modstandsdygtigt.

Disse to metrikker måler "midten" på forskellige måder. Gennemsnittet fungerer som balancepunktet for dataenes vægt. Medianen er midtpunktet, der adskiller de nederste 50 % af dataene fra de øverste 50 %. I et perfekt symmetrisk datasæt vil gennemsnittet og medianen være identiske.

I virkelige data matcher de dog sjældent hinanden præcist.

Når gennemsnittet og medianen er forskellige, siges datasættet at være skævt (skewed).

Hvis gennemsnittet er betydeligt lavere end medianen, er datasættet venstreskævt (negativt skævt). Hvis gennemsnittet er betydeligt højere end medianen, er datasættet højreskævt (positivt skævt).

Hverken gennemsnittet eller medianen er universelt "bedre". De tjener bare forskellige formål. Dataanalytikere foretrækker ofte medianen, når et datasæt er meget skævt eller indeholder massive outliers, da medianen giver en mere præcis repræsentation af en "typisk" værdi.

Typetal-beregner

Typetallet (mode) er den værdi, der optræder hyppigst i et datasæt.

Hvis et datasæt har én tydelig værdi, der forekommer oftere end nogen anden, beskrives det som unimodalt.

Hvis to forskellige værdier deler førstepladsen for højeste frekvens, betragtes begge som typetal, hvilket gør datasættet bimodalt.

Hvis tre eller flere værdier deler den højeste frekvens, er hver af dem et typetal, og datasættet klassificeres som multimodalt.

Hvis hver værdi i et datasæt kun optræder præcis én gang, har datasættet intet typetal. Bemærk, at "intet typetal" ikke er det samme som et typetal på nul. Nul kan være et gyldigt typetal, hvis det er det hyppigst forekommende tal i datasættet (for eksempel ved temperaturmålinger om vinteren).

Den største fordel ved typetallet er, at det er let at finde og fuldstændig upåvirket af ekstreme outliers. Den primære ulempe er, at nogle datasæt ganske enkelt slet ikke har et typetal.

Eksempel på beregning af typetal

Med udgangspunkt i vores tidligere datasæt med tyve pizzapriser:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

Kan vi finde typetallet med disse trin:

Først arrangeres datasættet i rækkefølge:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

Find derefter det tal, der gentages flest gange. I denne liste optræder 70 fire gange, hvilket er mere end noget andet tal. Derfor er typetallet 70.

Selvom typetallet er et mål for central tendens, repræsenterer det ikke altid det faktiske centrum af dataene, især ikke i stærkt skæve fordelinger. Typetallet kan teknisk set være den højeste værdi, den laveste værdi eller hvor som helst derimellem. Overvej for eksempel dette datasæt:

42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120

Her er typetallet 120. Men 120 afspejler tydeligvis ikke gruppens centrale tendens.

Interessant nok, mens gennemsnittet og medianen kun kan beregnes for kvantitative (numeriske) data, kan typetallet bruges til både kvantitative og kvalitative (kategoriske) data.

Forestil dig for eksempel, at Anna spiser pizza 12 gange om måneden, fordelt således:

  • 3 gange en Napolitana-pizza,
  • 3 gange en Margherita-pizza,
  • 2 gange en Calzone-pizza,
  • 1 Pepperoni,
  • 1 Marinara,
  • 1 Fire Oste (Four Cheese),
  • 1 Caprese.

I dette kvalitative datasæt er der to typetal: Napolitana og Margherita.

Spredningsmål

Spredningsmål, også kendt som variabilitetsmål, bestemmer spredningen i et datasæt. De illustrerer, hvor langt datapunkterne afviger fra den centrale værdi. Vi kan analysere denne varians ved hjælp af tre nøglemetrikker: variationsbredden, kvartiler og interkvartilbredden (IQR).

Beregner til variationsbredde

Variationsbredden er det simpleste spredningsmål. Den repræsenterer den absolutte forskel mellem den højeste og laveste værdi i et datasæt. Formlen er ligetil:

Variationsbredde = Største værdi - Mindste værdi

Eksempel på beregning af variationsbredde

Hvis vi ser tilbage på vores datasæt med tyve pizzapriser:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

For at beregne variationsbredden organiseres dataene først for nemt at identificere yderpunkterne:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

Den højeste værdi er 160, og den laveste værdi er 42. Ved hjælp af formlen:

Variationsbredde = største værdi - mindste værdi = 160 - 42 = 118

Variationsbredden for dette datasæt er 118.

Kvartilberegner

Kvartiler er statistiske værdier, der inddeler et sorteret datasæt i fire lige store dele, eller fjerdedele, ved hjælp af tre delepunkter: første, anden og tredje kvartil.

Den første kvartil (Q₁) er den 25. percentil. Præcis 25 % af dataene falder under denne værdi, hvilket efterlader 75 % over den.

Den anden kvartil (Q₂) er den 50. percentil, som er nøjagtig det samme som medianen. Den deler dataene direkte i to.

Den tredje kvartil (Q₃) er den 75. percentil. Her ligger 75 % af dataene under denne værdi, og 25 % ligger over den.

Beregning af kvartiler

For at beregne kvartilerne i et datasæt skal du følge denne procedure:

  1. Arranger datapunkterne i stigende rækkefølge.

  2. Find den anden kvartil ved at beregne medianen. For at finde første og tredje kvartil fortsættes til de næste trin ved at bruge n (det samlede antal værdier i datasættet).

  3. For at finde positionen for første kvartil beregnes L = 0,25n. For at finde positionen for tredje kvartil beregnes L = 0,75n.

  4. Hvis L er et helt tal, er kvartilen gennemsnittet af værdien på position L og værdien på position L + 1.

  5. Hvis L ikke er et helt tal, rundes op til det næste hele tal. Kvartilen er den værdi, der er placeret på denne afrundede position.

Eksempel på beregning af kvartiler

Med vores sæt af tyve pizzapriser:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

Lad os beregne kvartilerne:

  1. Sorter datasættet i stigende rækkefølge:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

  1. Fra vores tidligere medianberegning kender vi allerede den anden kvartil:

Median = 70

  1. Beregn L for den første kvartil: 0,25 × 20 = 5. Beregn L for den tredje kvartil: 0,75 × 20 = 15.

  2. Fordi 5 er et helt tal, er Q₁ gennemsnittet af den 5. og 6. værdi (55 og 59):

$$Q₁=\frac{55+59}{2}=57$$

  1. Fordi 15 også er et helt tal, er Q₃ gennemsnittet af den 15. og 16. værdi (72 og 75):

$$Q₃=\frac{72+75}{2}=73.5$$

For dette datasæt er den første kvartil 57, den anden (medianen) er 70, og den tredje kvartil er 73,5.

Beregner til interkvartilbredde (IQR)

Interkvartilbredden (IQR) måler spredningen for de midterste 50 % af dit datasæt. Den defineres som forskellen mellem tredje kvartil (Q₃) og første kvartil (Q₁). Det er et yderst robust mål for statistisk spredning, der beregnes med denne formel:

IQR = Q₃ - Q₁

Eksempel på beregning af IQR

Da vi allerede har beregnet første og tredje kvartil (57 og 73,5), er det lige så enkelt at beregne interkvartilbredden som at sætte dem ind i formlen:

IQR = Q₃ - Q₁ = 73,5 - 57 = 16,5

Interkvartilbredden for vores pizzadatasæt er 16,5.

Resultater

Takket være hans statistiske analyse af priserne på Margherita-pizzaer, kan Luigi drage flere brugbare forretningsmæssige konklusioner.

For det første, selvom gennemsnittet (71,9) og medianen (69,5) ikke er identiske – hvilket indikerer en lille højreskævhed på grund af nogle få dyre restauranter – er forskellen minimal. Både gennemsnittet og medianen fungerer her som pålidelige mål for central tendens.

Hvis Luigi ønsker at fastsætte en gennemsnitlig, konkurrencedygtig pris for sine pizzaer, kan han bruge begge metrikker. Dog kan skæve priser som 71.900 IDR eller 69.500 IDR være svære for kunderne at huske. Heldigvis ligger typetallet i hans datasæt perfekt mellem gennemsnittet og medianen på præcis 70.000 IDR. Dette gør typetallet til et yderst praktisk og mindeværdigt prispunkt for Luigis forretningsstrategi.

Alternativt, hvis Luigi beslutter at målrette mod et mere prisbevidst publikum, kan han prissætte sine pizzaer tættere på den første kvartil med et mål på cirka 57.000 IDR. At basere sig på den tredje kvartil (73.500 IDR) for at tiltrække high-end kunder ville være mindre effektivt i dette scenarie, da den øvre kvartil er lettere skæv og mindre repræsentativ for det sande prisloft på luksusmarkedet.