Nie znaleziono wyników
Nie możemy teraz znaleźć niczego z tym terminem, spróbuj wyszukać coś innego.
Oblicz średnią arytmetyczną, medianę, modę i rozstęp dla dowolnego zbioru danych. Szybki i darmowy kalkulator statystyczny online. Wypróbuj teraz!
| Wynik | |||
|---|---|---|---|
| Średnia x̄ | 16.75 | Wartości odstające | 6, 33, 35 |
| Mediana x̃ | 15 | Kwartyl Q1 | 12.5 |
| Moda | 15 pojawiło się 3 razy | Kwartyl Q2 | 15 |
| Zakres | 29 | Kwartyl Q3 | 16 |
| Minimum | 6 | Rozstęp międzykwartylowy IQR | 3.5 |
| Maksimum | 35 | ||
| Suma | 201 | ||
| Liczba n | 12 | ||
Wystąpił błąd w twoim obliczeniu.
Analiza surowych danych statystycznych, takich jak obszerne tabele czy skomplikowane wykresy, bywa trudna i czasochłonna. Aby wyciągnąć z nich użyteczne wnioski, często musimy podsumować zbiory danych i zidentyfikować ich najważniejsze cechy.
W statystyce do opisu danych wykorzystuje się różnego rodzaju miary. Miary tendencji centralnej wskazują na środek (centrum) rozkładu danych. Z kolei miary rozproszenia informują o tym, jak bardzo wartości są od siebie oddalone w zbiorze. Istnieją również miary położenia, które określają pozycję danej wartości na tle pozostałych statystyk.
Nasz wielofunkcyjny kalkulator statystyczny służy przede wszystkim do obliczania miar tendencji centralnej – średniej oraz mediany – które reprezentują typową, centralną wartość w analizowanym zestawie. Dodatkowo, narzędzie to pozwala określić stopień zmienności (rozrzutu) danych poprzez precyzyjne wyliczenie rozstępu (zakresu), kwartyli oraz rozstępu międzykwartylowego (IQR).
Średnia arytmetyczna to po prostu suma wszystkich wartości podzielona przez ich liczbę. Jest to najbardziej intuicyjna i najłatwiejsza do wyliczenia miara statystyczna. Aby obliczyć średnią z próby, korzystamy z następującego wzoru:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum{x}}{n}$$
Z kolei wzór na średnią dla całej populacji prezentuje się tak:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum{x}}{N}$$
W obu przypadkach licznik reprezentuje sumę wszystkich wartości w zbiorze danych, natomiast mianownik to całkowita liczba tych wartości.
Główną zaletą średniej arytmetycznej jest to, że uwzględnia ona absolutnie każdy punkt danych znajdujący się w analizowanym zbiorze.
Jej największym ograniczeniem jest jednak duża wrażliwość na wartości ekstremalne – nienaturalnie wysokie lub skrajnie niskie. Te tzw. wartości odstające (outliery) potrafią znacząco zaburzyć ostateczny wynik średniej.
Warto również pamiętać, że wyliczona średnia nie zawsze stanowi typową reprezentację danych. Często zdarza się, że obliczona średnia to wartość, która w rzeczywistości w ogóle nie występuje w badanym zestawie.
Populacja to cały zbiór badanych elementów, o których chcemy uzyskać wyczerpujące informacje. Próba (często określana jako próbka badawcza) to natomiast jedynie mniejsza, wyselekcjonowana z tej populacji grupa.
Sama metoda obliczania średniej jest identyczna dla obu przypadków. Różnica polega wyłącznie na przyjętych w matematyce oznaczeniach.
Jeśli x₁, x₂,..., xₙ reprezentują próbę, wynik nazywamy średnią z próby i oznaczamy symbolem x̄. Z kolei średnią całej populacji oznacza się grecką literą 𝜇.
Co więcej, w profesjonalnej statystyce przyjęło się używać małej litery n do określenia wielkości (liczebności) próby oraz wielkiej litery N dla rozmiaru populacji.
Spójrzmy na praktyczny przykład. Luigi to wybitny szef kuchni i wielki miłośnik pizzy, który postanowił otworzyć własną pizzerię na Bali. Tworząc biznesplan dla przyszłych inwestorów, musi ustalić średni koszt pizzy w lokalnych restauracjach, co pozwoli mu wiarygodnie oszacować przyszłe zyski.
Luigi przeprowadził krótkie badanie rynku dotyczące cen pizzy Margherita na wyspie, uzyskując konkretny zbiór danych. Dla ułatwienia obliczeń w kalkulatorze pominiemy ostatnie trzy zera (tysiące). Oznacza to, że liczba 60 w naszych wyliczeniach odpowiada kwocie 60 000 rupii indonezyjskich (IDR).
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Ponieważ Luigi nie był w stanie sprawdzić absolutnie każdej pizzerii na wyspie, wybrał losowo 20 z nich. Analizujemy więc próbę statystyczną.
Wyliczmy średnią dla tego zbioru, korzystając ze wzoru:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum{x}}{n}$$
Otrzymujemy wynik w postaci średniej x̄ = 71,9.
Badanie naszego kucharza dowodzi, że średnia cena pizzy Margherita na Bali wynosi około 71 900 rupii indonezyjskich. Luigi może śmiało oprzeć swoje finansowe kalkulacje na tej właśnie kwocie.
Mediana (wartość środkowa) to miara położenia, która wyznacza dokładnie środkowy punkt w zbiorze danych, uprzednio uporządkowanym rosnąco lub malejąco.
Szukając mediany, zależy nam na znalezieniu liczby dzielącej cały zestaw danych dokładnie na pół. Jedna połowa wartości jest zawsze mniejsza od mediany, a druga połowa – większa. Z tego powodu, określając medianę ręcznie (bez użycia naszego dedykowanego kalkulatora), musimy najpierw posortować posiadane dane.
Sposób wyznaczania mediany zależy od tego, czy całkowita liczba obserwacji w zbiorze jest parzysta, czy nieparzysta.
Gdy liczba elementów (n lub N) jest nieparzysta, stosujemy poniższy wzór:
$$Mediana=(\frac{n+1}{2})-ty \ element$$
Jeśli natomiast wielkość zbioru n jest parzysta, wykorzystujemy wzór oparty na średniej arytmetycznej dwóch środkowych wartości:
$$Mediana=\frac{\left[(\frac{n}{2})-ty \ element+(\frac{n}{2}+1)-ty \ element\right]}{2}$$
Największym atutem stosowania mediany w analizie danych jest jej imponująca odporność na wartości ekstremalne – nienaturalnie wysokie lub skrajnie niskie liczby w zasadzie nie wpływają na jej ostateczny wynik.
Wykorzystajmy nasz zbiór dwudziestu cen,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Medianę obliczymy w następujących krokach:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Ustalamy całkowitą liczbę wartości. W tym przypadku n = 20.
Ponieważ liczba 20 jest parzysta, nie znajdziemy jednej centralnej wartości. Musimy wziąć dwie środkowe liczby i wyciągnąć z nich średnią arytmetyczną (dodać je do siebie i podzielić sumę przez 2).
Wartości znajdujące się dokładnie w środku naszej próby (na 10. i 11. pozycji) to 69 oraz 70. Podstawiamy je do wzoru na medianę:
$$Mediana = \frac{69 + 70}{2} = 69,5$$
A jak wyglądałyby obliczenia, gdyby Luigi przebadał 21 restauracji (dodając jedną cenę, np. 90)?
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Po ponownym posortowaniu:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
wystarczyłoby po prostu wskazać środkową wartość znajdującą się na centralnej, 11. pozycji. Zatem mediana wyniosłaby dokładnie 70.
Chociaż zarówno średnia, jak i mediana stanowią niezwykle przydatne miary tendencji centralnej, w statystyce pełnią one nieco inne funkcje. Zrozumienie różnic między nimi jest kluczowe dla poprawnej interpretacji danych.
Podstawowa różnica matematyczna polega na tym, że wzór na średnią bierze pod uwagę absolutnie wszystkie liczby w zbiorze, podczas gdy formuła na medianę opiera się wyłącznie na jednej lub dwóch wartościach leżących w samym jego centrum.
Ma to ogromne znaczenie w przypadku zestawień posiadających wspomniane wartości odstające (outliery). Pojedyncza, nienaturalnie wielka lub skrajnie niska kwota drastycznie zawyży bądź zaniży średnią, podczas gdy w większości przypadków pozostanie bez wpływu na medianę.
W profesjonalnej statystyce posługujemy się pojęciem "odporności" miary. Jeśli drastycznie wysokie (bądź niskie) ekstrema nie zakłócają znacząco wyniku, miarę uznaje się za odporną. Podsumowując: mediana jest bez wątpienia miarą odporną, natomiast średnia arytmetyczna – nie.
Obie te statystyki wskazują centrum danych z zupełnie innej perspektywy. Średnia to punkt zrównoważenia ("środek ciężkości") całego zbioru. Mediana to z kolei fizyczny środek dystrybucji, dzielący populację idealnie na pół (50% wyników poniżej i 50% powyżej). W przypadku symetrycznych zestawów danych, średnia i mediana będą sobie równe.
W rzeczywistości jednak liczby rzadko układają się tak idealnie.
Często zdarza się sytuacja, w której średnia jest zauważalnie mniejsza lub znacznie większa od mediany. O takich zbiorach statystycy mówią, że są asymetryczne (skośne).
Gdy średnia wartość przesuwa się w dół i staje się mniejsza od mediany, mamy do czynienia ze zbiorem skośnym w lewo (asymetria lewostronna). Jeśli z kolei średnia wypada wyżej i przewyższa medianę, mówimy o rozkładzie skośnym w prawo (asymetria prawostronna).
Żadna z tych wartości nie jest z definicji "lepszą" miarą. Służą one po prostu do oglądu problemu pod różnymi kątami. Wielu analityków rynkowych woli jednak opierać się na medianie w obliczu niesymetrycznych danych zarobkowych czy cenowych, ponieważ znacznie rzetelniej oddaje ona kwotę, z jaką spotyka się typowy (przeciętny) klient.
Moda (inaczej nazywana dominantą lub wartością modalną) to ta liczba w zbiorze, która pojawia się w nim najwięcej razy.
Jeśli jedna wartość wyraźnie dominuje nad pozostałymi częstotliwością występowania, zbiór określa się mianem unimodalnego (jednomodalnego).
Zdarza się jednak, że dwie różne pozycje mają taką samą, najwyższą częstotliwość występowania – w takim scenariuszu obie traktuje się jako dominanty, a zbiór zyskuje miano bimodalnego (dwumodalnego).
Idąc dalej: jeżeli w zbiorze istnieje więcej niż kilka wartości dzielących pierwsze miejsce w rankingu częstotliwości, każda z nich staje się modą, tworząc zbiór multimodalny (wielomodalny).
Może również zajść sytuacja, gdzie absolutnie żadna liczba w próbie się nie powtarza. Wtedy twierdzi się po prostu, że analizowany zbiór nie posiada mody. Gigantycznym błędem byłoby tu przypisanie wartości "zero". Wartość zero (0) to bowiem pełnoprawna, samodzielna liczba w wielu analizach – na przykład w przypadku odczytów termometrów meteorologicznych.
Niezaprzeczalną zaletą mody jest błyskawiczna łatwość jej wskazania oraz brak jakiejkolwiek wrażliwości na wspomniane już wartości odstające. Najpoważniejszą wadą dominanty pozostaje fakt, że nie zawsze (w każdym zbiorze) da się ją wyznaczyć.
Wróćmy do naszego znanego zestawu 20 wartości,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Aby wskazać modę, robimy następującą rzecz:
Dla pełnej przejrzystości, sortujemy zbiór rosnąco (lub malejąco):
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Następnie po prostu szukamy liczby występującej najczęściej. Szybki rzut oka pozwala zorientować się, że liczba 70 powtórzyła się aż 4 razy w tabeli cen. W związku z tym dla tego konkretnego zbioru wartość modalna wynosi 70.
Warto tu jednak postawić znak ostrzegawczy – choć przypisujemy modę do miar tendencji centralnej, to nie zawsze obrazuje ona ścisłe centrum badanego zagadnienia, szczególnie przy rozkładach silnie asymetrycznych. Zdarzają się skrajne scenariusze, gdzie moda jest największą lub wręcz najmniejszą pozycją w tabeli danych. Przykładem niech będą takie notowania:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Dominantą jest bezsprzecznie 120, ale ciężko nazwać tę liczbę "tendencją centralną" tego specyficznego zbioru.
Co ciekawe na tle średniej i mediany, które działają wyłącznie dla danych liczbowych (ilościowych), kalkulator mody może być równie skuteczny przy atrybutach tekstowych i pojęciowych (danych jakościowych)!
Anna to typowy łasuch zjadający przeciętnie 12 pizz miesięcznie. Jej menu to:
Ze względu na jednakową, najwyższą częstotliwość występowania, otrzymujemy tutaj dwie mody (zbiór bimodalny): pizzę neapolitańską oraz margheritę.
Miary rozproszenia, w zaawansowanej analizie nazywane również miarami zmienności, są wskaźnikami pomagającymi określić faktyczny rozrzut danych wewnątrz badanego obszaru. Mówiąc najprościej – oceniają one odchylenie poszczególnych wyników względem ustalonego środka (zwykle średniej). Pomagają badaczom zrozumieć zróżnicowanie zebranych zestawów za pomocą zakresu (rozstępu), kwartyli i odchylenia międzykwartylowego.
Zakres (w polskiej literaturze statystycznej najczęściej pod pojęciem rozstępu) to banalnie prosta matematycznie różnica pomiędzy najwyższą a najniższą punktową wartością zgromadzoną w zestawie. Aby wygenerować wynik za pomocą tego miarodajnego wskaźnika, wystarczy zidentyfikować pozycje skrajne i zastosować poniższą formułę:
$$Zakres = Największa\ wartość - Najmniejsza\ wartość$$
Biorąc raz jeszcze na warsztat nasz dwudziestoelementowy zestaw danych:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
możemy bez trudu policzyć zakres w dwóch krokach:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
$$Zakres = największa\ wartość - najmniejsza\ wartość = 160 - 42 = 118$$
Rozstęp cenowy dla wybranej grupy restauracji zamyka się zatem w 118 jednostkach (118 000 IDR).
Kwartyle to niezwykle użyteczne wskaźniki podziałowe. To punkty rozcinające uporządkowaną listę wyników na dokładnie cztery części. Nazywa się je pierwszym (dolnym), drugim (medianowym) i trzecim (górnym) kwartylem.
Pierwszy kwartyl, znany w statystyce jako punkt Q₁, tworzy granicę obejmującą dolne 25% najmniejszych wyników, pozostawiając resztę (75%) zdecydowanie powyżej.
Drugi kwartyl, oznaczony jako Q₂, to omówiona już dogłębnie mediana – punkt odniesienia dzielący populację symetrycznie, z 50% zebranych wartości pod spodem, a pozostałą połową u góry.
Trzeci kwartyl, oznaczony naukowo jako Q₃, wytycza próg dla ogromnej większości próby, mieszcząc poniżej siebie okrągłe 75% wyników i zachowując elitarną barierę ostatnich 25% najwyższych pomiarów.
Procedura ręcznego obliczania poszczególnych kwartyli wymaga dyscypliny i przebiega tak:
Zawsze rozpoczynaj od rzetelnego posortowania wszystkich wyników rosnąco.
Aby obliczyć pozycję dla drugiego kwartyla, odszukaj standardową medianę. Dla pierwszego i trzeciego parametru wykonuj po kolei poniższe działania. Określ wpierw literę n - całkowitą liczbę wartości w analizowanej bazie.
Dla szukanego pierwszego kwartyla oblicz wskaźnik pozycji równaniem L = 0,25n. Obliczając dolną granicę trzeciego kwartyla wprowadź formułę L = 0,75n.
Jeśli wynik zmiennej L wyjdzie jako pełna, równa liczba całkowita, kwartyl leży idealnie w połowie dystansu na wyznaczonej pozycji – jest on po prostu wyliczaną średnią z wartości pod pozycją L oraz tą o stopień wyżej z miejsca L + 1.
W wariancie, w którym z L generowany jest jednak ułamek niemający zaokrąglonej wartości całkowitej, zawyż tenże wynik ułamka zaokrąglając go do najbliższej pożądanej liczby całkowitej do góry. Przykładowy kwartyl to po prostu wartość przyporządkowana do rzędu z zaokrąglonej właśnie z ułamka lokaty.
Raz jeszcze posiłkując się grupą cen z wyspy:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
możemy krok po kroku rozprawić się z kwartylami:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Mediana = 70
Szukamy odpowiedniego położenia L dla pierwszego kwartyla ze wzoru: 0,25 × 20 = 5. Zaś dla kwartyla numer trzy: 0,75 × 20 = 15.
Ponieważ L równe 5 jest u nas nieskazitelną liczbą całkowitą, to poszukiwane na tym etapie Q₁ będzie w istocie:
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73,5$$
Podsumowując parametry dla analizowanej próby Luigi'ego: pierwszy kwartyl wynosi godne uwagi 57, a zaraz zanim śledzimy medianę równą w tym wypadku 70. Parametr Q₃ wieńczy listę wynikiem 73,5.
Rozstęp międzykwartylowy (bardziej osadzony pośród fachowców ze względu na angielski skrót na giełdach międzynarodowych jako IQR - Interquartile Range) to kolejna niezwykle przydatna pochodna rozproszenia. Matematycznie rzecz ujmując jest to różnica dzieląca kwartyl pod symbolem Q₃ oraz kwartyl podstawowy Q₁. Pomaga uodpornić się od niechcianych ekstremów badając tętno średniego przedziału wartości za sprawą prostego równania:
IQR = Q₃ - Q₁
Mając na swym koncie sukcesywne obliczenie dla poszczególnych kwartyli z górnej warstwy artykułu (przypomnijmy ich stan na ten moment: Q₁ równa się 57, a Q₃ opiewa na 73,5), rachunki można przeprowadzić właściwie w pamięci:
IQR = Q₃ - Q₁ = 73,5 - 57 = 16,5
Tak oto w finale obliczeń okazuje się, że rozstęp międzykwartylowy wynosi precyzyjne 16,5.
Jakie realne korzyści biznesowe wyciągnie Luigi ze swojej rzetelnie przygotowanej, statystycznej mini-analizy lokalnego rynku gastronomicznego? Pierwsza podstawowa wytyczna jest następująca – Średnia i mediana nie są absolutnie identyczne; zauważamy więc lekki wychył symetrii rynkowej, tzw. skrzywienie danych, na rzecz jednej ze stron zestawienia. Niemniej odchylenie to nie obciąża zbytnio obiektywizmu wyników, dając przyzwolenie ekspertom, jak nasz szef, na posiłkowanie się tak dwiema wartościami by trafnie mierzyć centrum rynkowej strefy trendów.
Próbując wycenić menu własnego lokalu, Luigi z pełną akceptacją mógłby zaczerpnąć z tych uśrednionych norm. Trzeba by zaważyć jednak na feler techniczny. Promocyjna cena na kwoty obwieszczone z rachunków jako 71 900 IDR lub te sugerowane wprost z medianowego szacunku jak chociażby 69 500 IDR - niezbyt fortunnie rezonują wśród wpadającego z marszu klienta. Ocaleńcem staje się tutaj rynkowy przebój cenowy - moda. Wymodelowany pod te statystyki próg modalny to kwota równych i okrągłych 70 000 IDR co czyni go niekwestionowanym potentatem na fundament nowej drogi sprzedażowej dla Włocha.
Jeśliby Luigi, z powodu gorszych perspektyw zarobkowych klienteli, przestroił swój biznes w stronę tańszej gastronomii by przyciągnąć bardziej oszczędną elitę z ubocza – jego naturalnym doradcą staje się wskaźnik Q₁. Oferta powinna zacieśnić swe klamry zamykając się na kwocie budżetowych 57 000 IDR. Wybór drogi pod znak dyktatu zawyżonego progu dla górnego kwartyla w tej skali raczej by się nie spotkał z łaską w ekskluzywnym obozie dla portfeli, z uwagi na to, że próg trzeciego kwartyla bardzo nieroztropnie kreuje tak wymagającą politykę reprezentatywnego premium.