Ingen resultater fundet
Vi kan ikke finde noget med det udtryk i øjeblikket, prøv at søge efter noget andet.
Beregn hurtigt gennemsnit, median, typetal og variationsbredde. Brug vores gratis statistikberegner til at finde gennemsnittet og centrale tendenser.
| Resultat | |||
|---|---|---|---|
| Gennemsnit x̄ | 16.75 | Afvigende værdier | 6, 33, 35 |
| Median x̃ | 15 | Kvartil Q1 | 12.5 |
| Typetal | 15 forekom 3 gange | Kvartil Q2 | 15 |
| Variationsbredde | 29 | Kvartil Q3 | 16 |
| Minimum | 6 | Interkvartilbredde IKB | 3.5 |
| Maksimum | 35 | ||
| Sum | 201 | ||
| Antal n | 12 | ||
Der opstod en fejl i din beregning.
Rå statistiske data i tabeller og grafer kan ofte være svære at tolke ved første øjekast. For at udtrække meningsfuld indsigt er vi nødt til at opsummere datasæt og identificere deres vigtigste karakteristika.
I statistik bruges forskellige metrikker til at opsummere og beskrive data. Nogle metrikker identificerer midten af datasættet, kendt som mål for central tendens. Andre metrikker, kaldet spredningsmål, fortæller os, hvor spredte dataværdierne er. Derudover viser positionsmål den andel af data, der falder under en bestemt værdi.
Det primære formål med denne statistikberegner er at udregne mål for central tendens – specifikt gennemsnit og median – som repræsenterer den typiske eller centrale værdi i et datasæt. Det sekundære formål med dette værktøj er at bestemme graden af variation i dine data ved at beregne variationsbredden, kvartiler og interkvartilbredden (IQR).
Gennemsnittet er det aritmetiske gennemsnit, som beregnes ved at lægge alle værdierne sammen og dividere med det samlede antal værdier. Det er den mest anvendte metrik til at finde gennemsnittet, og det beregnes ved hjælp af følgende formel for en stikprøve:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Formlen for at beregne gennemsnittet for en hel population er:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
I disse ligninger repræsenterer tælleren summen af alle værdier i datasættet, mens nævneren repræsenterer det samlede antal af disse værdier.
Den største fordel ved at bruge det aritmetiske gennemsnit er, at det inddrager hvert eneste datapunkt i dit datasæt.
Dets primære begrænsning er dog, at det er følsomt over for ekstreme værdier. Usædvanligt høje eller lave tal, kendt som outliers (afvigere), kan skævvride gennemsnittet markant.
Det er også vigtigt at bemærke, at gennemsnittet ikke altid er den "typiske" værdi i dataene. Faktisk kan det beregnede gennemsnit være et tal, der slet ikke findes i selve datasættet.
En population omfatter hele det sæt af værdier, du undersøger. En stikprøve er en mindre, repræsentativ gruppe udvalgt fra denne population.
Den matematiske metode til at beregne gennemsnittet er identisk for både stikprøver og populationer. Den eneste forskel ligger i den statistiske notation.
Hvis x₁, x₂,..., xₙ repræsenterer en stikprøve, kaldes det beregnede gennemsnit for stikprøvegennemsnittet, som angives med symbolet x̄. Hvis du beregner gennemsnittet for en hel population, angives det med det græske bogstav 𝜇 (mu).
I statistik bruger vi det lille bogstav n til at angive stikprøvestørrelsen og det store bogstav N til at angive populationsstørrelsen.
Lad os se på et praktisk eksempel: Luigi er mesterkok og pizzaentusiast, og han vil gerne åbne et nyt pizzeria på Bali. For at tiltrække en investor er Luigi ved at skrive en forretningsplan, og han har brug for at finde gennemsnitsprisen for en pizza på tværs af forskellige restauranter på øen for at kunne forudsige sin fremtidige økonomiske præstation.
Han undersøgte prisen på en Margherita-pizza på forskellige lokale restauranter og samlede et datasæt. For at gøre regnestykket enklere, fjerner vi de sidste tre nuller og bruger prisen i tusinder. For eksempel repræsenterer en værdi på 60 i vores beregninger 60.000 indonesiske rupiah (IDR).
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Luigi kunne ikke besøge hvert eneste pizzeria på øen, så han udvalgte tilfældigt 20 restauranter. Derfor arbejder vi med en stikprøve.
Lad os beregne gennemsnitsværdien for dette datasæt ved hjælp af formlen for stikprøvegennemsnit:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Det resulterende gennemsnit er x̄ = 71,9.
Luigis undersøgelse viser, at 71.900 IDR er gennemsnitsprisen for en Margherita-pizza på Bali. Han kan nu bruge dette basistal til sine økonomiske prognoser.
Medianen er et positionsmål, der repræsenterer den nøjagtige midterværdi i et datasæt, når det er sorteret i stigende eller faldende rækkefølge.
Når vi beregner medianen, leder vi efter det tal, der deler dataene præcist i to. Præcis 50 % af dataværdierne vil være mindre end medianen, og 50 % vil være større. Det er grunden til, at du først skal sortere tallene, hvis du vil finde medianen manuelt – uden hjælp fra en medianberegner.
Beregningsmetoden varierer lidt afhængigt af, om det samlede antal værdier i dit datasæt er ulige eller lige.
Hvis det samlede antal elementer er ulige (hvilket betyder, at n eller N er et ulige tal), bruger du følgende formel:
$$Median=(\frac{n+1}{2})-th \ element$$
Men hvis antallet af elementer er lige, gælder følgende formel:
$$Median=\frac{\left[(\frac{n}{2})-th \ element+(\frac{n}{2}+1)-th \ element\right]}{2}$$
Den største fordel ved at bruge medianen er dens modstandsdygtighed over for outliers. I modsætning til gennemsnittet påvirkes medianen minimalt af ekstremt høje eller ekstremt lave værdier.
Med udgangspunkt i Luigis stikprøve på tyve pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Vi kan beregne medianen trin for trin:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Bestem antallet af værdier i datasættet. Her er n = 20.
Hvis n er ulige, er medianen den midterste værdi. Hvis n er lige, er medianen det aritmetiske gennemsnit af de to midterste tal (læg dem sammen og divider med 2).
Da 20 er et lige tal, finder vi de to midterste værdier.
De midterste værdier i vores sorterede stikprøve er 69 og 70. Vi beregner medianen således:
$$Median = \frac{69 + 70}{2} = 69.5$$
Hvis Luigi havde indsamlet et ulige sæt på 21 værdier, for eksempel:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Ville han sortere værdierne:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
Og blot vælge den præcise midterværdi på den 11. position, som er 70.
Selvom både gennemsnittet og medianen fungerer som mål for central tendens, er det vigtigt at forstå, hvordan de adskiller sig i statistisk analyse.
Den grundlæggende forskel er, at gennemsnittet inddrager hver enkelt værdi i datasættet, hvorimod medianen udelukkende bestemmes af det midterste tal (eller de to midterste tal).
Denne forskel er særligt kritisk, når man håndterer datasæt, der indeholder usædvanligt store eller små tal, kendt som outliers (afvigere). Outliers vil forvrænge gennemsnittet markant, men de vil have lille eller ingen indflydelse på medianen.
I statistik betragtes et mål som "modstandsdygtigt" (robust), hvis ekstreme værdier ikke påvirker det i høj grad. Derfor er medianen et yderst modstandsdygtigt mål, mens gennemsnittet ikke er modstandsdygtigt.
Disse to metrikker måler "midten" på forskellige måder. Gennemsnittet fungerer som balancepunktet for dataenes vægt. Medianen er midtpunktet, der adskiller de nederste 50 % af dataene fra de øverste 50 %. I et perfekt symmetrisk datasæt vil gennemsnittet og medianen være identiske.
I virkelige data matcher de dog sjældent hinanden præcist.
Når gennemsnittet og medianen er forskellige, siges datasættet at være skævt (skewed).
Hvis gennemsnittet er betydeligt lavere end medianen, er datasættet venstreskævt (negativt skævt). Hvis gennemsnittet er betydeligt højere end medianen, er datasættet højreskævt (positivt skævt).
Hverken gennemsnittet eller medianen er universelt "bedre". De tjener bare forskellige formål. Dataanalytikere foretrækker ofte medianen, når et datasæt er meget skævt eller indeholder massive outliers, da medianen giver en mere præcis repræsentation af en "typisk" værdi.
Typetallet (mode) er den værdi, der optræder hyppigst i et datasæt.
Hvis et datasæt har én tydelig værdi, der forekommer oftere end nogen anden, beskrives det som unimodalt.
Hvis to forskellige værdier deler førstepladsen for højeste frekvens, betragtes begge som typetal, hvilket gør datasættet bimodalt.
Hvis tre eller flere værdier deler den højeste frekvens, er hver af dem et typetal, og datasættet klassificeres som multimodalt.
Hvis hver værdi i et datasæt kun optræder præcis én gang, har datasættet intet typetal. Bemærk, at "intet typetal" ikke er det samme som et typetal på nul. Nul kan være et gyldigt typetal, hvis det er det hyppigst forekommende tal i datasættet (for eksempel ved temperaturmålinger om vinteren).
Den største fordel ved typetallet er, at det er let at finde og fuldstændig upåvirket af ekstreme outliers. Den primære ulempe er, at nogle datasæt ganske enkelt slet ikke har et typetal.
Med udgangspunkt i vores tidligere datasæt med tyve pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Kan vi finde typetallet med disse trin:
Først arrangeres datasættet i rækkefølge:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Find derefter det tal, der gentages flest gange. I denne liste optræder 70 fire gange, hvilket er mere end noget andet tal. Derfor er typetallet 70.
Selvom typetallet er et mål for central tendens, repræsenterer det ikke altid det faktiske centrum af dataene, især ikke i stærkt skæve fordelinger. Typetallet kan teknisk set være den højeste værdi, den laveste værdi eller hvor som helst derimellem. Overvej for eksempel dette datasæt:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Her er typetallet 120. Men 120 afspejler tydeligvis ikke gruppens centrale tendens.
Interessant nok, mens gennemsnittet og medianen kun kan beregnes for kvantitative (numeriske) data, kan typetallet bruges til både kvantitative og kvalitative (kategoriske) data.
Forestil dig for eksempel, at Anna spiser pizza 12 gange om måneden, fordelt således:
I dette kvalitative datasæt er der to typetal: Napolitana og Margherita.
Spredningsmål, også kendt som variabilitetsmål, bestemmer spredningen i et datasæt. De illustrerer, hvor langt datapunkterne afviger fra den centrale værdi. Vi kan analysere denne varians ved hjælp af tre nøglemetrikker: variationsbredden, kvartiler og interkvartilbredden (IQR).
Variationsbredden er det simpleste spredningsmål. Den repræsenterer den absolutte forskel mellem den højeste og laveste værdi i et datasæt. Formlen er ligetil:
Variationsbredde = Største værdi - Mindste værdi
Hvis vi ser tilbage på vores datasæt med tyve pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
For at beregne variationsbredden organiseres dataene først for nemt at identificere yderpunkterne:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Den højeste værdi er 160, og den laveste værdi er 42. Ved hjælp af formlen:
Variationsbredde = største værdi - mindste værdi = 160 - 42 = 118
Variationsbredden for dette datasæt er 118.
Kvartiler er statistiske værdier, der inddeler et sorteret datasæt i fire lige store dele, eller fjerdedele, ved hjælp af tre delepunkter: første, anden og tredje kvartil.
Den første kvartil (Q₁) er den 25. percentil. Præcis 25 % af dataene falder under denne værdi, hvilket efterlader 75 % over den.
Den anden kvartil (Q₂) er den 50. percentil, som er nøjagtig det samme som medianen. Den deler dataene direkte i to.
Den tredje kvartil (Q₃) er den 75. percentil. Her ligger 75 % af dataene under denne værdi, og 25 % ligger over den.
For at beregne kvartilerne i et datasæt skal du følge denne procedure:
Arranger datapunkterne i stigende rækkefølge.
Find den anden kvartil ved at beregne medianen. For at finde første og tredje kvartil fortsættes til de næste trin ved at bruge n (det samlede antal værdier i datasættet).
For at finde positionen for første kvartil beregnes L = 0,25n. For at finde positionen for tredje kvartil beregnes L = 0,75n.
Hvis L er et helt tal, er kvartilen gennemsnittet af værdien på position L og værdien på position L + 1.
Hvis L ikke er et helt tal, rundes op til det næste hele tal. Kvartilen er den værdi, der er placeret på denne afrundede position.
Med vores sæt af tyve pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Lad os beregne kvartilerne:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Median = 70
Beregn L for den første kvartil: 0,25 × 20 = 5. Beregn L for den tredje kvartil: 0,75 × 20 = 15.
Fordi 5 er et helt tal, er Q₁ gennemsnittet af den 5. og 6. værdi (55 og 59):
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
For dette datasæt er den første kvartil 57, den anden (medianen) er 70, og den tredje kvartil er 73,5.
Interkvartilbredden (IQR) måler spredningen for de midterste 50 % af dit datasæt. Den defineres som forskellen mellem tredje kvartil (Q₃) og første kvartil (Q₁). Det er et yderst robust mål for statistisk spredning, der beregnes med denne formel:
IQR = Q₃ - Q₁
Da vi allerede har beregnet første og tredje kvartil (57 og 73,5), er det lige så enkelt at beregne interkvartilbredden som at sætte dem ind i formlen:
IQR = Q₃ - Q₁ = 73,5 - 57 = 16,5
Interkvartilbredden for vores pizzadatasæt er 16,5.
Takket være hans statistiske analyse af priserne på Margherita-pizzaer, kan Luigi drage flere brugbare forretningsmæssige konklusioner.
For det første, selvom gennemsnittet (71,9) og medianen (69,5) ikke er identiske – hvilket indikerer en lille højreskævhed på grund af nogle få dyre restauranter – er forskellen minimal. Både gennemsnittet og medianen fungerer her som pålidelige mål for central tendens.
Hvis Luigi ønsker at fastsætte en gennemsnitlig, konkurrencedygtig pris for sine pizzaer, kan han bruge begge metrikker. Dog kan skæve priser som 71.900 IDR eller 69.500 IDR være svære for kunderne at huske. Heldigvis ligger typetallet i hans datasæt perfekt mellem gennemsnittet og medianen på præcis 70.000 IDR. Dette gør typetallet til et yderst praktisk og mindeværdigt prispunkt for Luigis forretningsstrategi.
Alternativt, hvis Luigi beslutter at målrette mod et mere prisbevidst publikum, kan han prissætte sine pizzaer tættere på den første kvartil med et mål på cirka 57.000 IDR. At basere sig på den tredje kvartil (73.500 IDR) for at tiltrække high-end kunder ville være mindre effektivt i dette scenarie, da den øvre kvartil er lettere skæv og mindre repræsentativ for det sande prisloft på luksusmarkedet.