Inga resultat hittades
Vi kan inte hitta något med den termen just nu, försök söka efter något annat.
Beräkna snabbt medelvärde, median, typvärde och variationsbredd för alla datamängder. Använd vår kostnadsfria statistikkalkylator för att hitta snittet direkt.
| Resultat | |||
|---|---|---|---|
| Medelvärde x̄ | 16.75 | Avvikande värden | 6, 33, 35 |
| Median x̃ | 15 | Kvartil Q1 | 12.5 |
| Typvärde | 15 förekom 3 gånger | Kvartil Q2 | 15 |
| Variationsbredd | 29 | Kvartil Q3 | 16 |
| Minimum | 6 | Interkvartilavstånd IKA | 3.5 |
| Maximum | 35 | ||
| Summa | 201 | ||
| Antal n | 12 | ||
Det uppstod ett fel i din beräkning.
Rå statistisk data i tabeller och grafer kan ofta vara svår att tolka vid en första anblick. För att utvinna meningsfulla insikter måste vi sammanfatta datamängder och identifiera deras viktigaste egenskaper.
Inom statistiken används olika mätetal för att sammanfatta och beskriva data. Vissa mätetal identifierar mitten av datamängden, vilka kallas centralmått. Andra mätetal, kallade spridningsmått, talar om hur utspridda datavärdena är. Dessutom visar positionsmått andelen data som faller under ett specifikt värde.
Huvudsyftet med denna statistikkalkylator är att beräkna centralmått – specifikt medelvärde och median – som representerar det typiska eller centrala värdet i en datamängd. Verktygets sekundära syfte är att bestämma graden av variation i din data genom att beräkna variationsbredd, kvartiler och kvartilavstånd (IQR).
Medelvärdet är det aritmetiska snittet, vilket beräknas genom att addera alla värden och dividera med det totala antalet värden. Det är det vanligaste mätetalet för att hitta snittet och beräknas med följande formel för ett urval (stickprov):
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Formeln för att beräkna medelvärdet av en hel population är:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
I dessa ekvationer representerar täljaren summan av alla värden i datamängden, medan nämnaren representerar det totala antalet värden.
Den största fördelen med att använda det aritmetiska medelvärdet är att det inkluderar varje enskild datapunkt i din datamängd.
Dess främsta begränsning är dock känsligheten för extrema värden. Ovanligt höga eller låga tal, kända som extremvärden (outliers), kan förvränga snittet avsevärt.
Det är också viktigt att notera att medelvärdet inte alltid är det "typiska" värdet för datan. Faktum är att det beräknade medelvärdet kan vara ett tal som inte ens existerar inom själva datamängden.
En population omfattar hela mängden värden du studerar. Ett urval (stickprov) är en mindre, representativ grupp som dragits från den populationen.
Den matematiska metoden för att beräkna medelvärdet är identisk för både urval och populationer. Den enda skillnaden ligger i den statistiska notationen.
Om x₁, x₂,..., xₙ representerar ett urval, kallas det beräknade snittet för urvalsmedelvärde, vilket betecknas med symbolen x̄. Om du beräknar medelvärdet för en hel population betecknas det med den grekiska bokstaven 𝜇 (my).
Inom statistiken använder vi den gemena bokstaven n för att beteckna urvalsstorleken och den versala bokstaven N för att beteckna populationsstorleken.
Låt oss titta på ett praktiskt exempel: Luigi är en mästerkock och pizzaentusiast som vill öppna en ny pizzeria på Bali. För att säkra en investerare skriver Luigi en affärsplan och behöver fastställa den genomsnittliga kostnaden för en pizza på olika restauranger på ön, för att kunna prognostisera sitt framtida ekonomiska resultat.
Han undersökte priset på en Margherita-pizza på olika lokala restauranger och sammanställde en datamängd. För att förenkla matematiken tar vi bort de tre sista nollorna och använder priset i tusental. Ett värde på 60 i våra beräkningar representerar exempelvis 60 000 indonesiska rupier (IDR).
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Luigi kunde inte besöka varenda pizzeria på ön, så han valde slumpmässigt ut 20 restauranger. Därför arbetar vi med ett urval.
Låt oss beräkna snittvärdet för denna datamängd med hjälp av formeln för urvalsmedelvärde:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Det resulterande medelvärdet är x̄ = 71,9.
Luigis undersökning visar att 71 900 IDR är det genomsnittliga priset för en Margherita-pizza på Bali. Han kan nu använda denna siffra som ett riktmärke för sina ekonomiska prognoser.
Medianen är ett positionsmått som representerar det exakta mittersta värdet i en datamängd när den är sorterad i stigande eller fallande ordning.
När vi beräknar medianen letar vi efter det tal som delar datan perfekt på mitten. Exakt 50 % av datavärdena kommer att vara mindre än medianen, och 50 % kommer att vara större. Det är därför man manuellt – utan hjälp av en mediankalkylator – måste sortera siffrorna först.
Beräkningsmetoden skiljer sig något åt beroende på om det totala antalet värden i din datamängd är udda eller jämnt.
Om det totala antalet element är udda (vilket innebär att n eller N är ett udda tal), använder du följande formel:
$$Median=(\frac{n+1}{2})-th \ element$$
Om antalet element däremot är jämnt, gäller följande formel:
$$Median=\frac{\left[(\frac{n}{2})-th \ element+(\frac{n}{2}+1)-th \ element\right]}{2}$$
Den största fördelen med att använda medianen är dess motståndskraft mot extremvärden. Till skillnad från medelvärdet påverkas medianen minimalt av extremt höga eller extremt låga värden.
Med hjälp av Luigis urval av tjugo pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Kan vi beräkna medianen steg för steg:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Bestäm antalet värden i datamängden. Här är n = 20.
Om n är udda är medianen det mittersta värdet. Om n är jämnt är medianen det aritmetiska medelvärdet av de två mittersta talen (addera dem och dividera med 2).
Eftersom 20 är ett jämnt tal hittar vi de två mittersta värdena.
De centrala värdena i vårt sorterade urval är 69 och 70. Vi beräknar medianen enligt följande:
$$Median = \frac{69 + 70}{2} = 69.5$$
Om Luigi hade samlat in en udda mängd på 21 värden, till exempel:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Skulle han sortera värdena:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
Och helt enkelt välja det exakt mittersta värdet på den 11:e positionen, vilket är 70.
Även om både medelvärde och median fungerar som centralmått, är det avgörande att förstå hur de skiljer sig åt i statistisk analys.
Den grundläggande skillnaden är att medelvärdet inkluderar varenda värde i datamängden, medan medianen endast bestäms av det mittersta talet (eller de två mittersta talen).
Denna skillnad är särskilt kritisk när man hanterar datamängder som innehåller ovanligt stora eller små tal, kända som extremvärden. Extremvärden förvränger medelvärdet kraftigt, men de har liten eller ingen inverkan på medianen.
Inom statistiken anses ett mätetal vara "robust" (eller motståndskraftigt) om det inte påverkas kraftigt av extrema värden. Därför är medianen ett mycket robust mått, medan medelvärdet inte är det.
Dessa två mätetal mäter "mitten" på olika sätt. Medelvärdet fungerar som balanspunkten för datans vikt. Medianen är mittpunkten som separerar de nedre 50 % av datan från de övre 50 %. I en perfekt symmetrisk datamängd är medelvärdet och medianen identiska.
I verkliga data stämmer de dock sällan överens exakt.
När medelvärdet och medianen skiljer sig åt, säger man att datamängden är skev.
Om medelvärdet är betydligt lägre än medianen är datamängden skev åt vänster (negativt skev). Om medelvärdet är betydligt högre än medianen är datamängden skev åt höger (positivt skev).
Varken medelvärdet eller medianen är universellt "bättre". De tjänar helt enkelt olika syften. Dataanalytiker föredrar ofta medianen när en datamängd är starkt skev eller innehåller massiva extremvärden, eftersom medianen ger en mer korrekt representation av ett "typiskt" värde.
Typvärdet är det värde som förekommer oftast i en datamängd.
Om en datamängd har ett tydligt värde som förekommer oftare än något annat, beskrivs den som unimodal.
Om två olika värden delar på den högsta frekvensen, anses båda vara typvärden, vilket gör datamängden bimodal.
Om tre eller fler värden delar den högsta frekvensen är vart och ett ett typvärde, och datamängden klassificeras som multimodal.
Om varje värde i en datamängd förekommer exakt en gång saknar datamängden typvärde. Observera att "inget typvärde" inte är samma sak som att typvärdet är noll. Noll kan vara ett giltigt typvärde om det är det oftast förekommande talet i datamängden (till exempel vid avläsning av vintertemperaturer).
Den stora fördelen med typvärdet är att det är lätt att hitta och helt opåverkat av extrema värden. Den främsta nackdelen är att vissa datamängder helt enkelt inte har något typvärde alls.
Med hjälp av vår tidigare datamängd med tjugo pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Kan vi hitta typvärdet med dessa steg:
Först, ordna datamängden i storleksordning:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Därefter identifierar vi det tal som upprepas flest gånger. I den här listan förekommer 70 fyra gånger, vilket är fler än något annat tal. Därför är typvärdet 70.
Även om typvärdet är ett centralmått representerar det inte alltid det faktiska centrumet för datan, särskilt inte i kraftigt skeva fördelningar. Typvärdet kan tekniskt sett vara det högsta värdet, det lägsta värdet, eller var som helst däremellan. Ta till exempel denna datamängd:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Här är typvärdet 120. Men 120 återspeglar uppenbarligen inte gruppens centraltendens.
Intressant nog kan typvärdet användas för både kvantitativ och kvalitativ (kategorisk) data, medan medelvärde och median endast kan beräknas för kvantitativ (numerisk) data.
Föreställ dig till exempel att Anna äter pizza 12 gånger i månaden, fördelat så här:
I denna kvalitativa datamängd finns det två typvärden: Napoletana och Margherita.
Spridningsmått, även känt som variabilitetsmått, avgör spridningen eller variansen i en datamängd. De illustrerar hur långt datapunkterna avviker från centralvärdet. Vi kan analysera denna varians med hjälp av tre viktiga mätetal: variationsbredd, kvartiler och kvartilavstånd (IQR).
Variationsbredden är det enklaste spridningsmåttet. Den representerar den absoluta skillnaden mellan det högsta och lägsta värdet i en datamängd. Formeln är enkel:
Variationsbredd = Största värdet - Minsta värdet
Låt oss gå tillbaka till vår datamängd med tjugo pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
För att beräkna variationsbredden, ordna först datan för att enkelt identifiera extremvärdena:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Det högsta värdet är 160 och det lägsta värdet är 42. Med hjälp av formeln:
Variationsbredd = största värdet - minsta värdet = 160 - 42 = 118
Variationsbredden för denna datamängd är 118.
Kvartiler är statistiska värden som delar in en sorterad datamängd i fyra lika stora delar, eller fjärdedelar, med hjälp av tre delningspunkter: den första, andra och tredje kvartilen.
Den första kvartilen (Q₁) är den 25:e percentilen. Exakt 25 % av datan faller under detta värde, vilket lämnar 75 % över det.
Den andra kvartilen (Q₂) är den 50:e percentilen, vilket är exakt samma sak som medianen. Den delar datan exakt på mitten.
Den tredje kvartilen (Q₃) är den 75:e percentilen. Här ligger 75 % av datan under detta värde och 25 % ligger över det.
För att beräkna kvartilerna för en datamängd, följ denna procedur:
Ordna datapunkterna i stigande ordning.
Bestäm den andra kvartilen genom att beräkna medianen. För den första och tredje kvartilen, gå vidare till nästa steg med hjälp av n (det totala antalet värden i datamängden).
För att hitta positionen för den första kvartilen, beräkna L = 0,25n. För att hitta positionen för den tredje kvartilen, beräkna L = 0,75n.
Om L är ett heltal är kvartilen medelvärdet av värdet på position L och värdet på position L + 1.
Om L inte är ett heltal avrundar du det uppåt till närmaste högre heltal. Kvartilen är det värde som finns på den avrundade positionen.
Med hjälp av vår mängd med tjugo pizzapriser:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Låt oss beräkna kvartilerna:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Median = 70
Beräkna L för den första kvartilen: 0,25 × 20 = 5. Beräkna L för den tredje kvartilen: 0,75 × 20 = 15.
Eftersom 5 är ett heltal är Q₁ medelvärdet av det 5:e och 6:e värdet (55 och 59):
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
För denna datamängd är den första kvartilen 57, den andra (medianen) 70 och den tredje kvartilen 73,5.
Kvartilavståndet (IQR) mäter spridningen för de mittersta 50 % av din datamängd. Det definieras som skillnaden mellan den tredje kvartilen (Q₃) och den första kvartilen (Q₁). Det är ett mycket robust mått på statistisk spridning som beräknas med denna formel:
IQR = Q₃ - Q₁
Eftersom vi redan har beräknat den första och tredje kvartilen (57 och 73,5) är det lika enkelt att beräkna kvartilavståndet som att sätta in dem i formeln:
IQR = Q₃ - Q₁ = 73,5 - 57 = 16,5
Kvartilavståndet för vår pizzadatamängd är 16,5.
Tack vare sin statistiska analys av priserna på Margherita-pizzor kan Luigi dra flera användbara affärsslutsatser.
För det första, även om medelvärdet (71,9) och medianen (69,5) inte är identiska – vilket indikerar en svag positiv skevhet på grund av ett fåtal dyra restauranger – är skillnaden minimal. Både medelvärdet och medianen fungerar som tillförlitliga centralmått här.
Om Luigi vill sätta ett genomsnittligt och konkurrenskraftigt pris på sina pizzor skulle han kunna använda vilket som helst av dessa mätetal. Ovanliga priser som 71 900 IDR eller 69 500 IDR kan dock vara svåra för kunderna att lägga på minnet. Lyckligtvis ligger typvärdet i hans datamängd perfekt mellan medelvärdet och medianen på exakt 70 000 IDR. Detta gör typvärdet till en mycket praktisk och lättihågkommen prispunkt för Luigis affärsstrategi.
Alternativt, om Luigi beslutar sig för att rikta in sig på en mer prismedveten målgrupp, skulle han kunna prissätta sina pizzor närmare den första kvartilen, det vill säga runt 57 000 IDR. Att förlita sig på den tredje kvartilen (73 500 IDR) för att nå premiumkunder skulle vara mindre effektivt i detta scenario, eftersom den övre kvartilen är något skev och mindre representativ för lyxmarknadens sanna tak.