Walang nahanap na resulta
Wala kaming mahanap para sa terminong iyan sa ngayon, subukang maghanap ng iba pa.
Kalkulahin agad ang mean, median, mode, at range ng anumang data set. Gamitin ang libreng statistics calculator na ito para makuha ang average nang mabilis!
| Resulta | |||
|---|---|---|---|
| Mean x̄ | 16.75 | Mga outlier | 6, 33, 35 |
| Median x̃ | 15 | Kuwartil Q1 | 12.5 |
| Moda | 15 ay lumitaw nang 3 beses | Kuwartil Q2 | 15 |
| Saklaw | 29 | Kuwartil Q3 | 16 |
| Minimum | 6 | Saklaw na Interkuwartil SIK | 3.5 |
| Maximum | 35 | ||
| Kabuuan | 201 | ||
| Bilang n | 12 | ||
Nagkaroon ng error sa iyong kalkulasyon.
Ang hilaw na statistical data sa mga talahanayan (tables) at graph ay madalas mahirap intindihin sa isang tingin. Para makakuha ng makabuluhang impormasyon, kailangan nating ibuod ang mga data set at tukuyin ang mga pangunahing katangian nito.
Sa statistics, iba't ibang sukatan ang ginagamit para ibuod at ilarawan ang data. Ang ilang sukatan ay tumutukoy sa gitna ng data set, na kilala bilang mga panukat ng central tendency. Ang iba namang sukatan, na tinatawag na measures of dispersion, ay nagsasabi kung gaano kakalat o kalayo ang mga value ng data. Bilang karagdagan, inilalantad ng mga measures of position ang proporsyon ng data na nasa ibaba ng isang partikular na value.
Ang pangunahing layunin ng statistics calculator na ito ay kompyutin ang mga panukat ng central tendency—partikular ang mean at median—na kumakatawan sa tipikal o sentrong value sa loob ng isang dataset. Ang pangalawang layunin ng tool na ito ay tukuyin ang antas ng pagkakaiba-iba (variation) sa iyong data sa pamamagitan ng pag-kalkula ng range, mga quartile, at interquartile range (IQR).
Ang mean ay ang arithmetic average, na kinakalkula sa pamamagitan ng pagdaragdag ng lahat ng value at paghahati nito sa kabuuang bilang ng mga value. Ito ang pinakamadalas gamiting panukat sa paghahanap ng average at kinakalkula gamit ang sumusunod na formula para sa isang sample:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Ang formula para sa pagkalkula ng mean ng isang buong populasyon ay:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
Sa mga equation na ito, ang numerator ay kumakatawan sa kabuuan ng lahat ng value sa data set, habang ang denominator ay kumakatawan sa kabuuang bilang ng mga value na ito.
Ang pangunahing bentahe ng paggamit ng arithmetic mean ay isinasama nito ang bawat isang data point na nasa iyong dataset.
Gayunpaman, ang pangunahing limitasyon nito ay ang pagiging sensitibo nito sa mga labis na value (extreme values). Ang mga pambihirang taas o babang numero, na kilala bilang mga outlier, ay maaaring makapagpaiba (skew) nang malaki sa average.
Mahalaga ring tandaan na ang mean ay hindi palaging ang "tipikal" na value ng data. Sa katunayan, ang nakalkulang mean ay maaaring isang numero na hindi naman talaga umiiral sa loob mismo ng dataset.
Sakop ng isang populasyon ang buong set ng mga value na iyong pinag-aaralan. Ang sample ay isang mas maliit at representatibong grupo na kinuha mula sa populasyon na iyon.
Ang matematikal na paraan sa pagkalkula ng mean ay pareho lang para sa mga sample at populasyon. Ang tanging pagkakaiba ay makikita sa statistical notation.
Kung ang x₁, x₂,..., xₙ ay kumakatawan sa isang sample, ang nakalkulang average ay tinatawag na sample mean, na kinakatawan ng simbolong x̄. Kung kinakalkula mo ang mean ng buong populasyon, kinakatawan ito ng Griyegong letra na 𝜇 (mu).
Sa statistics, ginagamit natin ang maliit na letrang n para tukuyin ang laki ng sample (sample size) at ang malaking letrang N para sa laki ng populasyon (population size).
Tingnan natin ang isang praktikal na halimbawa: Si Luigi ay isang master chef at mahilig sa pizza na gustong magbukas ng bagong pizzeria sa Bali. Para makakuha ng investor, sumusulat si Luigi ng isang business plan at kailangan niyang matukoy ang average na halaga ng pizza sa iba't ibang restawran sa isla upang maplano ang kanyang pananalapi sa hinaharap.
Nagsaliksik siya ng presyo ng isang Margherita pizza sa iba't ibang lokal na restawran at gumawa ng dataset. Para mas madali ang pagkwenta, alisin natin ang huling tatlong zero at gamitin ang presyo sa libo. Halimbawa, ang value na 60 sa ating mga kalkulasyon ay kumakatawan sa 60,000 Indonesian Rupiah (IDR).
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Hindi mabisita ni Luigi ang bawat isang pizzeria sa isla, kaya nag-random select siya ng 20 restawran. Kaya naman, tayo ay gumagawa gamit ang isang sample.
Kalkulahin natin ang average value para sa data set na ito gamit ang sample mean formula:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Ang lumabas na mean ay x̄ = 71.9.
Ayon sa pananaliksik ni Luigi, 71,900 IDR ang average na presyo ng isang Margherita pizza sa Bali. Magagamit na niya ngayon ang baseline figure na ito para sa kanyang mga financial projection.
Ang median ay isang positional measure na kumakatawan sa mismong gitnang value ng isang data set kapag ito ay inayos mula pinakamababa pataas (ascending) o mula pinakamataas pababa (descending).
Kapag kinakalkula ang median, hinahanap natin ang numero na humahati sa data nang saktong magkalahati. Eksaktong 50% ng mga data value ay mas mababa sa median, at 50% ay mas mataas. Ito ang dahilan kung bakit sa pagtukoy ng median nang mano-mano—nang walang tulong ng isang median calculator—kailangan mo munang pag-sunud-sunurin ang mga numero.
Bahagyang nagkakaiba ang paraan ng pagkalkula depende kung ang kabuuang bilang ng mga value sa iyong dataset ay odd (gansal) o even (pares).
Kung ang kabuuang bilang ng mga elemento ay odd (ibig sabihin, ang n o N ay isang odd number), gagamitin mo ang sumusunod na formula:
$$Median=(\frac{n+1}{2})-th \ element$$
Gayunpaman, kung ang bilang ng mga elemento ay even, ang sumusunod na formula ang gagamitin:
$$Median=\frac{\left[(\frac{n}{2})-th \ element+(\frac{n}{2}+1)-th \ element\right]}{2}$$
Ang pinakamalaking bentahe ng paggamit ng median ay ang resistensya nito sa mga outlier. Hindi tulad ng mean, ang median ay halos hindi apektado ng mga sobrang taas o sobrang babang value.
Gamit ang sample ni Luigi na dalawampung presyo ng pizza:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Maaari nating kalkulahin ang median nang sunud-sunod (step-by-step):
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Tukuyin ang bilang ng mga value sa dataset. Dito, ang n = 20.
Kung ang n ay odd, ang median ay ang gitnang value. Kung ang n ay even, ang median ay ang arithmetic mean ng dalawang gitnang numero (pagdaragdagin ito at hahatiin sa 2).
Dahil ang 20 ay isang even number, hahanapin natin ang dalawang gitnang value.
Ang mga gitnang value sa ating nakaayos na sample ay 69 at 70. Kalkulahin natin ang median sa ganitong paraan:
$$Median = \frac{69 + 70}{2} = 69.5$$
Kung nakakolekta si Luigi ng odd set na 21 value, halimbawa:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Aayusin niya ang mga value:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
At pipiliin na lamang ang saktong gitnang value sa ika-11 posisyon, na 70.
Habang parehong nagsisilbing mga panukat ng central tendency ang mean at median, napakahalagang maunawaan kung paano sila nagkakaiba sa statistical analysis.
Ang pangunahing pagkakaiba ay isinasama ng mean ang bawat isang value sa dataset, samantalang ang median ay tinutukoy lamang ng gitnang numero (o ng dalawang gitnang numero).
Ang pagkakaibang ito ay lalong kritikal kapag humaharap sa mga dataset na naglalaman ng mga hindi pangkaraniwang malalaki o maliliit na numero, na kilala bilang mga outlier. Lubos na babaguhin (distort) ng mga outlier ang mean, ngunit kakaunti o walang magiging epekto ang mga ito sa median.
Sa statistics, ang isang sukatan ay itinuturing na "resistant" kung ang mga extreme value ay hindi gaanong nakakaimpluwensya rito. Kaya naman, ang median ay isang lubos na resistant na panukat, samantalang ang mean ay hindi resistant.
Sinusukat ng dalawang metrikong ito ang "gitna" sa magkaibang paraan. Ang mean ay nagsisilbing balansehan ng bigat ng data. Ang median ay ang mismong gitnang punto (midpoint) na naghihiwalay sa ibabang 50% ng data mula sa itaas na 50%. Sa isang perpektong simetrikong dataset, ang mean at median ay magiging magkapareho.
Gayunpaman, sa tunay na sitwasyon ng data, bihirang magtugma ang mga ito nang sakto.
Kapag nagkaiba ang mean at median, sinasabing ang data set ay skewed.
Kung ang mean ay higit na mababa kaysa sa median, ang dataset ay skewed sa kaliwa (negatively skewed). Kung ang mean ay higit na mataas kaysa sa median, ang dataset ay skewed sa kanan (positively skewed).
Walang unibersal na mas "maganda" sa pagitan ng mean at median. Nagsisilbi lamang ang mga ito para sa magkaibang layunin. Mas pinipili ng mga data analyst ang median kapag ang isang dataset ay lubhang skewed o naglalaman ng malalaking outlier, dahil nagbibigay ang median ng mas tumpak na representasyon ng isang "tipikal" na value.
Ang mode ay ang value na pinakamadalas lumabas sa isang dataset.
Kung ang isang dataset ay may isang malinaw na value na mas madalas lumabas kaysa sa iba, inilalarawan ito bilang unimodal.
Kung may dalawang magkaibang value na nagtie para sa pinakamataas na frequency, parehong itinuturing na mode ang mga ito, na nagpapaging bimodal sa dataset.
Kung tatlo o higit pang mga value ang may pinakamataas na frequency, bawat isa ay isang mode, at ang dataset ay inuuri bilang multimodal.
Kung ang bawat value sa isang dataset ay lilitaw nang eksaktong isang beses, walang mode ang dataset. Tandaan na ang "walang mode" ay hindi kapareho ng mode na zero. Ang zero ay maaaring maging isang balidong mode kung ito ang numerong pinakamadalas lumabas sa dataset (halimbawa, sa mga sukat ng temperatura tuwing taglamig).
Ang pangunahing bentahe ng mode ay madali itong hanapin at ganap na hindi apektado ng mga extreme outlier. Ang pangunahing disbentaha ay maaaring talagang walang mode ang ilang dataset.
Gamit ang ating naunang dataset ng dalawampung presyo ng pizza:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Mahanahanap natin ang mode sa pamamagitan ng mga hakbang na ito:
Una, ayusin ang dataset nang magkakasunod:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Susunod, tukuyin ang numerong pinakamadalas maulit. Sa listahang ito, ang 70 ay lumabas nang apat na beses, na mas marami kaysa sa alinmang numero. Kaya naman, ang modal value ay 70.
Habang ang mode ay isang panukat ng central tendency, hindi palagi nitong kinakatawan ang totoong gitna ng data, lalo na sa mga distribusyong lubos na skewed. Teknikal na maaaring ang mode ang pinakamataas na value, pinakamababang value, o kahit saan sa pagitan ng mga ito. Halimbawa, isaalang-alang ang dataset na ito:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Dito, ang mode ay 120. Gayunpaman, maliwanag na hindi sumasalamin ang 120 sa central tendency ng grupo.
Nakakatuwang malaman na bagaman maaari lang kalkulahin ang mean at median para sa quantitative (numerikal) na data, ang mode ay maaaring gamitin para sa quantitative at qualitative (kategoryal) na data.
Halimbawa, isiping kumakain si Anna ng pizza nang 12 beses bawat buwan, na nahahati nang ganito:
Sa qualitative dataset na ito, mayroong dalawang mode: Napoletana at Margherita.
Ang mga panukat ng dispersion, na kilala rin bilang mga measure of variability, ang tumutukoy sa lawak o pagkakakalat sa loob ng isang dataset. Inilalarawan nito kung gaano kalayo lumilihis ang mga data point mula sa gitnang value. Maaari nating suriin ang variance na ito gamit ang tatlong pangunahing metrika: ang range, mga quartile, at ang interquartile range (IQR).
Ang range ay ang pinakasimpleng panukat ng dispersion. Kumakatawan ito sa kabuuang pagkakaiba (absolute difference) sa pagitan ng pinakamataas at pinakamababang value sa isang dataset. Direkta ang formula:
Range = Pinakamalaking value - Pinakamaliit na value
Kung babalikan ang ating dataset ng dalawampung presyo ng pizza:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Upang makalkula ang range, ayusin muna ang data para madaling matukoy ang mga extremes:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Ang pinakamataas na value ay 160, at ang pinakamababang value ay 42. Gamit ang formula:
Range = pinakamalaking value - pinakamaliit na value = 160 - 42 = 118
Ang range para sa dataset na ito ay 118.
Ang mga quartile ay mga statistical value na naghahati sa isang nakaayos na dataset sa apat na pantay na bahagi, o quarters, gamit ang tatlong dividing points: ang first, second, at third quartiles.
Ang unang quartile (Q₁) ay ang ika-25 percentile. Eksaktong 25% ng data ang nasa ibaba ng value na ito, at 75% naman ang nasa itaas nito.
Ang ikalawang quartile (Q₂) ay ang ika-50 percentile, na saktong katumbas ng median. Hinahati nito ang data nang saktong magkalahati.
Ang ikatlong quartile (Q₃) ay ang ika-75 percentile. Dito, 75% ng data ang nasa ibaba ng value na ito, at 25% ang nasa itaas nito.
Upang makalkula ang mga quartile ng isang dataset, sundin ang prosesong ito:
Ayusin ang mga data point mula sa pinakamababa pataas (ascending order).
Tukuyin ang ikalawang quartile sa pamamagitan ng pagkalkula ng median. Para sa unang at ikatlong quartile, magpatuloy sa mga susunod na hakbang gamit ang n (ang kabuuang bilang ng mga value sa dataset).
Upang mahanap ang posisyon ng unang quartile, kalkulahin ang L = 0.25n. Upang mahanap ang posisyon ng ikatlong quartile, kalkulahin ang L = 0.75n.
Kung ang L ay isang buong integer, ang quartile ay ang average ng value sa posisyong L at ng value sa posisyong L + 1.
Kung ang L ay hindi isang buong integer, i-round up ito sa susunod na pinakamataas na buong numero. Ang quartile ay ang value na makikita sa na-round na posisyong iyon.
Gamit ang ating set ng dalawampung presyo ng pizza:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Kalkulahin natin ang mga quartile:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Median = 70
Kalkulahin ang L para sa unang quartile: 0.25 × 20 = 5. Kalkulahin ang L para sa ikatlong quartile: 0.75 × 20 = 15.
Dahil ang 5 ay isang buong integer, ang Q₁ ay ang average ng ika-5 at ika-6 na value (55 at 59):
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
Para sa dataset na ito, ang unang quartile ay 57, ang ikalawa (median) ay 70, at ang ikatlong quartile ay 73.5.
Sinusukat ng interquartile range (IQR) ang pagkakakalat ng gitnang 50% ng iyong dataset. Tinutukoy ito bilang ang pagkakaiba (difference) sa pagitan ng ikatlong quartile (Q₃) at unang quartile (Q₁). Isa itong lubos na matibay na sukatan ng statistical dispersion, na kinakalkula gamit ang formula na ito:
IQR = Q₃ - Q₁
Dahil nakalkula na natin ang unang at ikatlong quartile (57 at 73.5), ang pagkalkula ng interquartile range ay kasing-simple lang ng paglalagay sa mga ito sa formula:
IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5
Ang interquartile range para sa ating pizza dataset ay 16.5.
Salamat sa kanyang statistical analysis ng mga presyo ng Margherita pizza, makakakuha si Luigi ng ilang mga kongkretong desisyon sa negosyo.
Una, bagaman ang mean (71.9) at ang median (69.5) ay hindi magkapareho—na nagpapahiwatig ng bahagyang right skew dahil sa iilang mamahaling restawran—ang pagkakaiba ay minimal lamang. Parehong nagsisilbing maaasahang panukat ng central tendency ang mean at median dito.
Kung gustong magtakda ni Luigi ng isang average at mapagkumpitensyang presyo para sa kanyang mga pizza, maaari niyang gamitin ang alinman sa dalawang metrika. Gayunpaman, ang mga hindi pangkaraniwang presyo gaya ng 71,900 IDR o 69,500 IDR ay maaaring mahirap tandaan para sa mga customer. Mabuti na lang, ang mode ng kanyang dataset ay saktong nasa pagitan ng mean at median sa mismong 70,000 IDR. Ginagawa nitong isang napakapraktikal at madaling tandaang presyo ang mode para sa diskarte sa negosyo ni Luigi.
Bilang alternatibo, kung magpasya si Luigi na targetin ang demograpikong mas binabantayan ang badyet, maaari niyang presyuhan ang kanyang mga pizza nang mas malapit sa unang quartile, na nakatarget sa halos 57,000 IDR. Ang pag-asa sa ikatlong quartile (73,500 IDR) para targetin ang mga high-end na customer ay magiging hindi gaanong epektibo sa senaryong ito, dahil ang upper quartile ay bahagyang skewed at hindi gaanong kumakatawan sa tunay na pinakamataas na hangganan (ceiling) ng luxury market.