Ingen resultater funnet
Vi finner ingenting med det begrepet for øyeblikket, prøv å søke etter noe annet.
Regn raskt ut gjennomsnitt, median, typetall og variasjonsbredde. Bruk vår gratis statistikk-kalkulator for å finne sentralmål umiddelbart.
| Resultat | |||
|---|---|---|---|
| Gjennomsnitt x̄ | 16.75 | Avvikere | 6, 33, 35 |
| Median x̃ | 15 | Kvartil Q1 | 12.5 |
| Typetall | 15 forekom 3 ganger | Kvartil Q2 | 15 |
| Variasjonsbredde | 29 | Kvartil Q3 | 16 |
| Minimum | 6 | Interkvartilbredde IKB | 3.5 |
| Maksimum | 35 | ||
| Sum | 201 | ||
| Antall n | 12 | ||
Det oppstod en feil med beregningen din.
Rå statistisk data i tabeller og grafer kan ofte være vanskelig å tolke ved første øyekast. For å trekke ut meningsfull innsikt, må vi oppsummere datasett og identifisere deres nøkkelegenskaper.
I statistikk brukes ulike mål for å oppsummere og beskrive data. Noen mål identifiserer midten av datasettet, kjent som sentralmål. Andre mål, kalt spredningsmål, forteller oss hvor spredt dataverdiene er. I tillegg avslører posisjonsmål andelen data som faller under en bestemt verdi.
Hovedformålet med denne statistikk-kalkulatoren er å beregne sentralmål – nærmere bestemt gjennomsnitt og median – som representerer den typiske eller sentrale verdien i et datasett. Det sekundære formålet med dette verktøyet er å bestemme graden av variasjon i dataene dine ved å beregne variasjonsbredde, kvartiler og kvartilavstand (IQR).
Gjennomsnittet (det aritmetiske snittet) beregnes ved å legge sammen alle verdiene og dele på det totale antallet verdier. Det er det mest brukte målet for å finne et snitt og beregnes ved hjelp av følgende formel for et utvalg:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Formelen for å beregne gjennomsnittet av en hel populasjon er:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
I disse ligningene representerer telleren summen av alle verdier i datasettet, mens nevneren representerer det totale antallet av disse verdiene.
Den største fordelen med å bruke det aritmetiske gjennomsnittet er at det inkluderer hvert eneste datapunkt i datasettet ditt.
Dens primære begrensning er imidlertid følsomheten for ekstreme verdier. Eksepsjonelt høye eller lave tall, kjent som ekstremverdier (outliere), kan skjevfordele gjennomsnittet betydelig.
Det er også viktig å merke seg at gjennomsnittet ikke alltid er den "typiske" verdien for dataene. Faktisk kan det beregnede gjennomsnittet være et tall som ikke engang eksisterer i selve datasettet.
En populasjon omfatter hele settet av verdier du studerer. Et utvalg er en mindre, representativ gruppe trukket fra denne populasjonen.
Den matematiske metoden for å beregne gjennomsnittet er identisk for både utvalg og populasjoner. Den eneste forskjellen ligger i den statistiske notasjonen.
Hvis x₁, x₂,..., xₙ representerer et utvalg, kalles det beregnede snittet for utvalgsgjennomsnitt, angitt med symbolet x̄. Hvis du beregner gjennomsnittet for en hel populasjon, angis det med den greske bokstaven 𝜇 (mu).
I statistikk bruker vi den lille bokstaven n for å angi utvalgsstørrelsen og den store bokstaven N for å angi populasjonsstørrelsen.
La oss se på et praktisk eksempel: Luigi er en mesterkokk og pizzaentusiast som ønsker å åpne en ny pizzarestaurant på Bali. For å sikre seg en investor, skriver Luigi en forretningsplan og må bestemme den gjennomsnittlige kostnaden for en pizza på tvers av ulike restauranter på øya for å prognosere fremtidige økonomiske resultater.
Han undersøkte prisen på en Margherita-pizza på forskjellige lokale restauranter og samlet inn et datasett. For å forenkle regnestykket, fjerner vi de tre siste nullene og bruker prisen i tusen. For eksempel vil en verdi på 60 i våre beregninger representere 60 000 indonesiske rupier (IDR).
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Luigi kunne ikke besøke hver eneste pizzarestaurant på øya, så han valgte 20 restauranter tilfeldig. Derfor jobber vi med et utvalg.
La oss beregne gjennomsnittsverdien for dette datasettet ved å bruke formelen for utvalgsgjennomsnitt:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Resultatet blir x̄ = 71,9.
Luigis undersøkelser indikerer at 71 900 IDR er gjennomsnittsprisen på en Margherita-pizza på Bali. Han kan nå bruke dette basistallet for sine økonomiske prognoser.
Medianen er et posisjonsmål som representerer den nøyaktige midtverdien i et datasett når det er sortert i stigende eller synkende rekkefølge.
Når vi beregner medianen, leter vi etter tallet som deler dataene perfekt i to. Nøyaktig 50 % av dataverdiene vil være lavere enn medianen, og 50 % vil være høyere. Det er grunnen til at du må sortere tallene først når du skal finne medianen manuelt – uten hjelp fra en mediankalkulator.
Beregningsmetoden varierer litt avhengig av om det totale antallet verdier i datasettet ditt er et oddetall eller et partall.
Hvis det totale antallet elementer er et oddetall (det vil si at n eller N er et oddetall), bruker du følgende formel:
$$Median=(\frac{n+1}{2})-th \ element$$
Hvis antallet elementer derimot er et partall, gjelder denne formelen:
$$Median=\frac{\left[(\frac{n}{2})-th \ element+(\frac{n}{2}+1)-th \ element\right]}{2}$$
Den største fordelen med å bruke medianen er dens motstandsevne mot ekstremverdier (outliere). I motsetning til gjennomsnittet påvirkes medianen i minimal grad av ekstremt høye eller ekstremt lave verdier.
Ved å bruke Luigis utvalg med tjue pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Vi kan beregne medianen trinn for trinn:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Bestem antallet verdier i datasettet. Her er n = 20.
Hvis n er et oddetall, er medianen den midterste verdien. Hvis n er et partall, er medianen det aritmetiske gjennomsnittet av de to midterste tallene (legg dem sammen og del på 2).
Siden 20 er et partall, finner vi de to midterste verdiene.
Midtverdiene i vårt sorterte utvalg er 69 og 70. Vi beregner medianen på følgende måte:
$$Median = \frac{69 + 70}{2} = 69.5$$
Hvis Luigi hadde samlet inn et oddetallsutvalg på 21 verdier, for eksempel:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Ville han ha sortert verdiene slik:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
Og ganske enkelt valgt den nøyaktige midtverdien på 11. plass, som er 70.
Selv om både gjennomsnitt og median fungerer som sentralmål, er det avgjørende å forstå hvordan de skiller seg fra hverandre i statistisk analyse.
Den grunnleggende forskjellen er at gjennomsnittet inkluderer hver eneste verdi i datasettet, mens medianen kun bestemmes av det midterste tallet (eller de to midterste tallene).
Denne forskjellen er spesielt kritisk når man håndterer datasett som inneholder uvanlig store eller små tall, kjent som ekstremverdier. Ekstremverdier vil forvrenge gjennomsnittet kraftig, men de vil ha liten eller ingen innvirkning på medianen.
I statistikk regnes et mål som "robust" dersom ekstreme verdier ikke påvirker det i stor grad. Derfor er medianen et svært robust mål, mens gjennomsnittet ikke er det.
Disse to metrikkene måler "senteret" på ulike måter. Gjennomsnittet fungerer som balansepunktet for dataenes vekt. Medianen er midtpunktet som skiller de nederste 50 % av dataene fra de øverste 50 %. I et perfekt symmetrisk datasett vil gjennomsnittet og medianen være identiske.
I virkelige data stemmer de imidlertid sjelden nøyaktig overens.
Når gjennomsnittet og medianen er forskjellige, sies datasettet å være skjevfordelt.
Hvis gjennomsnittet er betydelig lavere enn medianen, er datasettet venstreskjevt (negativt skjevfordelt). Hvis gjennomsnittet er betydelig høyere enn medianen, er datasettet høyreskjevt (positivt skjevfordelt).
Hverken gjennomsnittet eller medianen er universelt "bedre". De tjener rett og slett ulike formål. Dataanalytikere foretrekker ofte medianen når et datasett er svært skjevfordelt eller inneholder massive ekstremverdier, ettersom medianen gir en mer nøyaktig representasjon av en "typisk" verdi.
Typetallet (modus) er den verdien som forekommer hyppigst i et datasett.
Hvis et datasett har én tydelig verdi som opptrer oftere enn noen annen, beskrives det som unimodalt.
Hvis to forskjellige verdier deler den høyeste frekvensen, regnes begge som typetall, og datasettet er bimodalt.
Hvis tre eller flere verdier deler høyeste frekvens, er hver av dem et typetall, og datasettet klassifiseres som multimodalt.
Hvis hver verdi i et datasett opptrer nøyaktig én gang, har ikke datasettet noe typetall. Merk at "ingenting" ikke er det samme som et typetall på null. Null kan være et gyldig typetall hvis det er det tallet som forekommer hyppigst i datasettet (for eksempel ved temperaturmålinger om vinteren).
Den største fordelen med typetallet er at det er lett å finne, og det forblir helt upåvirket av ekstreme uteliggere. Den primære ulempen er at enkelte datasett kanskje ikke har noe typetall i det hele tatt.
Ved å bruke vårt tidligere datasett med tjue pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Vi kan finne typetallet med disse trinnene:
Først ordner du datasettet i rekkefølge:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Deretter identifiserer du tallet som gjentas flest ganger. I denne listen vises 70 fire ganger, noe som er mer enn noe annet tall. Derfor er typetallet 70.
Selv om typetallet er et sentralmål, representerer det ikke alltid det faktiske midtpunktet i dataene, spesielt i svært skjevfordelte fordelinger. Typetallet kan teknisk sett være den høyeste verdien, den laveste verdien eller hva som helst i mellom. Tenk for eksempel på dette datasettet:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Her er typetallet 120. Imidlertid gjenspeiler åpenbart ikke 120 sentralmålet for denne gruppen.
Interessant nok er det slik at mens gjennomsnitt og median kun kan beregnes for kvantitative (numeriske) data, kan typetallet brukes for både kvantitative og kvalitative (kategoriske) data.
Tenk deg for eksempel at Anna spiser pizza 12 ganger i måneden, fordelt slik:
I dette kvalitative datasettet er det to typetall: Napoletana og Margherita.
Spredningsmål, også kjent som variabilitetsmål, bestemmer spredningen innenfor et datasett. De illustrerer hvor langt datapunktene avviker fra sentralverdien. Vi kan analysere denne variansen ved å bruke tre sentrale metrikker: variasjonsbredde, kvartiler og kvartilavstand (IQR).
Variasjonsbredden er det enkleste spredningsmålet. Den representerer den absolutte forskjellen mellom den høyeste og laveste verdien i et datasett. Formelen er rett frem:
Variasjonsbredde = Største verdi - Minste verdi
Ser vi tilbake på datasettet vårt med tjue pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
For å beregne variasjonsbredden, organiserer du først dataene for enkelt å identifisere ytterpunktene:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Den høyeste verdien er 160, og den laveste verdien er 42. Ved å bruke formelen:
Variasjonsbredde = største verdi - minste verdi = 160 - 42 = 118
Variasjonsbredden for dette datasettet er 118.
Kvartiler er statistiske verdier som deler et sortert datasett i fire like store deler, eller fjerdedeler, ved hjelp av tre delepunkter: første, andre og tredje kvartil.
Den første kvartilen (Q₁) er den 25. persentilen. Nøyaktig 25 % av dataene faller under denne verdien, og etterlater 75 % over den.
Den andre kvartilen (Q₂) er den 50. persentilen, som er nøyaktig det samme som medianen. Den deler dataene direkte i to.
Den tredje kvartilen (Q₃) er den 75. persentilen. Her ligger 75 % av dataene under denne verdien, og 25 % ligger over den.
Følg denne fremgangsmåten for å beregne kvartilene i et datasett:
Sorter datapunktene i stigende rekkefølge.
Bestem den andre kvartilen ved å beregne medianen. For den første og tredje kvartilen, gå videre til neste trinn ved å bruke n (det totale antallet verdier i datasettet).
For å finne posisjonen til den første kvartilen, beregn L = 0,25n. For å finne posisjonen til den tredje kvartilen, beregn L = 0,75n.
Hvis L er et heltall, er kvartilen gjennomsnittet av verdien i posisjon L og verdien i posisjon L + 1.
Hvis L ikke er et heltall, runder du det opp til neste heltall. Kvartilen er verdien som befinner seg på den avrundede posisjonen.
Ved å bruke settet vårt med tjue pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
La oss beregne kvartilene:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Median = 70
Beregn L for den første kvartilen: 0,25 × 20 = 5. Beregn L for den tredje kvartilen: 0,75 × 20 = 15.
Siden 5 er et heltall, er Q₁ gjennomsnittet av den 5. og 6. verdien (55 og 59):
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
For dette datasettet er den første kvartilen 57, den andre (median) 70, og den tredje kvartilen 73,5.
Kvartilavstanden (interquartile range, IQR) måler spredningen til de midterste 50 % av datasettet ditt. Det er definert som differansen mellom tredje kvartil (Q₃) og første kvartil (Q₁). Det er et svært robust mål på statistisk spredning, beregnet med denne formelen:
IQR = Q₃ - Q₁
Siden vi allerede har beregnet første og tredje kvartil (57 og 73,5), er beregningen av kvartilavstanden så enkel som å sette dem inn i formelen:
IQR = Q₃ - Q₁ = 73,5 - 57 = 16,5
Kvartilavstanden for pizza-datasettet vårt er 16,5.
Takket være sin statistiske analyse av priser på Margherita-pizzaer, kan Luigi trekke flere handlingsrettede forretningskonklusjoner.
For det første er ikke gjennomsnittet (71,9) og medianen (69,5) identiske – noe som indikerer en svak høyreskjevhet på grunn av noen få dyre restauranter – men forskjellen er minimal. Både gjennomsnittet og medianen fungerer som pålitelige sentralmål her.
Hvis Luigi ønsker å sette en gjennomsnittlig, konkurransedyktig pris for pizzaene sine, kan han bruke hvilken som helst av metrikkene. Imidlertid kan ukonvensjonelle priser som 71 900 IDR eller 69 500 IDR være vanskelige for kundene å huske. Heldigvis ligger typetallet for datasettet hans perfekt plassert mellom gjennomsnittet og medianen på nøyaktig 70 000 IDR. Dette gjør typetallet til et svært praktisk og minneverdig prispunkt for Luigis forretningsstrategi.
Alternativt, hvis Luigi bestemmer seg for å rette seg mot en mer budsjettbevisst målgruppe, kan han prise pizzaene sine nærmere den første kvartilen, med et mål på omtrent 57 000 IDR. Å stole på den tredje kvartilen (73 500 IDR) for å sikte seg inn mot high-end-kunder vil være mindre effektivt i dette scenariet, siden den øvre kvartilen er noe skjevfordelt og mindre representativ for luksusmarkedets sanne tak.