Sonuç bulunamadı
Şu anda bu terimle ilgili bir şey bulamıyoruz, başka bir şey aramayı deneyin.
Veri setiniz için aritmetik ortalama, medyan, mod ve aralık değerlerini anında hesaplayın. İstatistiksel analizleriniz için ücretsiz ve hızlı hesaplayıcı!
| Sonuç | |||
|---|---|---|---|
| Ortalama x̄ | 16.75 | Aykırı Değerler | 6, 33, 35 |
| Medyan x̃ | 15 | Çeyrek Q1 | 12.5 |
| Mod | 15, 3 kez göründü | Çeyrek Q2 | 15 |
| Aralık | 29 | Çeyrek Q3 | 16 |
| Minimum | 6 | Çeyrekler Arası Aralık IQR | 3.5 |
| Maksimum | 35 | ||
| Toplam | 201 | ||
| Sayım n | 12 | ||
Hesaplamanızda bir hata oluştu.
Ham istatistiksel verilerin tablo ve grafiklerine bakmak, çoğu zaman doğrudan anlam çıkarmayı zorlaştırır. Bu karmaşık verileri anlamlandırmak ve yararlı içgörüler elde etmek için genellikle veri kümelerini özetlemeye ve temel özellikleri belirlemeye ihtiyaç duyarız.
İstatistik biliminde verileri özetlemek amacıyla çeşitli metrikler kullanılır. Veri kümesinin merkez noktasını tanımlayan değerlere merkezi eğilim ölçüleri (ortalama, medyan, mod) adı verilir. Verilerin bu merkez etrafında ne kadar yayıldığını gösteren değerler ise dağılım ölçüleri olarak bilinir. Veri seti içindeki belirli bir değerin konumunu ve oransal yerini gösteren metrikler ise konum ölçüleri olarak adlandırılır.
Gelişmiş istatistik hesaplayıcımızın temel amacı; bir veri kümesinin tipik veya merkez değerini temsil eden ortalama (mean) ve medyan (ortanca) gibi merkezi eğilim ölçülerini hızlıca bulmaktır. Ayrıca, hesaplayıcımız aralık, çeyrekler ve çeyrekler arası aralık (IQR) hesaplamaları yaparak veri setinizdeki değişkenlik (dağılım) derecesini hassas bir şekilde belirlemenizi sağlar.
Aritmetik ortalama, veri setindeki tüm değerlerin toplamının, toplam veri sayısına bölünmesiyle bulunur. Bir örneklem (sample) için ortalama hesaplama işlemini aşağıdaki formül yardımıyla kolayca kavrayabilirsiniz:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Bir popülasyon (ana kitle) için aritmetik ortalama formülü ise şu şekildedir:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
Bu formüllerde pay, veri kümesindeki tüm değerlerin toplamını ifade ederken; payda ise veri kümesindeki toplam gözlem (değer) sayısını gösterir.
Aritmetik ortalamayı öne çıkaran en temel özellik, hesaplama sürecinde veri kümesindeki istisnasız tüm noktaları işleme dahil etmesidir.
Ancak ortalamanın en büyük zayıflığı, aşırı büyük veya aşırı küçük uç değerlere karşı oldukça hassas olmasıdır. Aykırı değerler (outliers) olarak adlandırılan bu tür sayılar, aritmetik ortalamayı ciddi şekilde saptırabilir.
Ayrıca, hesaplanan ortalama değerin her zaman o veri setindeki "tipik" veya en çok beklenen değer olması gerekmez. Hatta elde edilen ortalama değer, veri kümesinin içinde hiç yer almayan tamamen farklı bir sayı bile çıkabilir.
İstatistikte popülasyon (ana kitle), hakkında bilgi toplamak istediğimiz tüm değerlerin oluşturduğu büyük kümedir. Örneklem (sample) ise bu popülasyonu temsil etmesi için seçilen daha küçük bir gruptur.
Hem örneklem hem de popülasyon için aritmetik ortalama hesaplama mantığı birebir aynıdır. Değişen tek şey formüllerde kullanılan matematiksel sembollerdir.
Eğer elinizdeki veri seti x₁, x₂,..., xₙ bir örneklem ise, elde edilen sonuca örneklem ortalaması denir ve x̄ (x çizgi) sembolü ile ifade edilir. Tam bir popülasyonun ortalaması ise Yunan alfabesindeki 𝜇 (mü) harfi ile gösterilir.
İstatistiksel gösterimlerde örneklem büyüklüğünü ifade etmek için küçük n harfini, popülasyon büyüklüğünü ifade etmek içinse büyük N harfini kullanırız.
Gelin konuyu pratik bir örnekle pekiştirelim: Usta bir şef ve tam bir pizza tutkunu olan Luigi, Bali'de kendi pizzacısını açmaya karar veriyor. Yatırımcı bulmak amacıyla bir iş planı hazırlayan Luigi, gelecekteki finansal performansını doğru değerlendirebilmek için adadaki farklı restoranların Margherita pizza fiyatlarının ortalamasını bulmak istiyor.
Bali'deki restoranlarda biraz pazar araştırması yaparak bir fiyat veri kümesi oluşturuyor. Hesaplamaları basitleştirmek adına fiyatların son üç sıfırını atarak binlik birimler üzerinden ilerleyelim. Yani aşağıdaki veri setinde gördüğümüz "60" değeri, aslında 60.000 Endonezya Rupiahı (IDR) anlamına geliyor.
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Luigi adadaki tüm pizzacıları dolaşmadı; sadece rastgele 20 tanesini seçti. Bu nedenle elimizdeki veriler bir popülasyon değil, bir örneklemdir.
Şimdi bu örneklem veri kümesi için ortalama değeri (x̄) hesaplayalım:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Tüm değerleri toplayıp 20'ye böldüğümüzde örneklem ortalamasını x̄ = 71,9 olarak buluruz.
Luigi'nin pazar araştırması, Bali'de bir Margherita pizzanın ortalama fiyatının 71.900 Endonezya Rupiahı olduğunu gösteriyor. Artık finansal projeksiyonlarını bu gerçekçi ortalama üzerinden şekillendirebilir.
Medyan (ortanca değer), küçükten büyüğe (veya büyükten küçüğe) doğru sıralanmış bir veri setinin tam ortasında yer alan sayıyı temsil eden temel bir konum ölçüsüdür.
Medyan bulma işlemi, aslında veri kümesini iki eşit parçaya bölen noktayı tespit etmektir. Verilerin tam yarısı medyandan küçükken, diğer yarısı medyandan büyüktür. Bu nedenle, bir hesaplama aracı olmadan manuel olarak medyan bulmaya çalıştığımızda, ilk yapmamız gereken şey veri setindeki sayıları sıraya dizmektir.
Medyan hesaplama formülü, veri setindeki toplam eleman sayısının tek veya çift sayı olmasına göre değişiklik gösterir.
Eğer toplam eleman sayısı, yani n veya N tek sayı ise, şu formül uygulanır:
$$Medyan=(\frac{n+1}{2})-inci \ eleman$$
Eğer eleman sayısı, yani n çift bir sayıysa, tam ortada iki değer kalacağı için bu iki değerin ortalamasını alan şu formül kullanılır:
$$Medyan=\frac{\left[(\frac{n}{2})-inci \ eleman+(\frac{n}{2}+1)-inci \ eleman\right]}{2}$$
Medyan kullanmanın en büyük avantajı, veri setindeki son derece yüksek veya düşük uç değerlerden (aykırı değerlerden) neredeyse hiç etkilenmemesidir.
Bir önceki örneğimizdeki yirmi gözlemden oluşan pizza fiyatları veri kümesini ele alalım:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Bu veri setinin medyanını adım adım şu şekilde hesaplarız:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Veri kümesindeki eleman sayısını belirliyoruz: n = 20.
Eğer n tek sayı ise, tam ortadaki değeri doğrudan medyan olarak seçeriz. Çift ise, ortadaki iki değerin aritmetik ortalamasını almamız gerekir (sayıları toplayıp 2'ye böleriz).
Bizim örneğimizde 20, çift bir sayıdır.
Sıralanmış veride ortada kalan 10. ve 11. elemanlara bakarız. Bu değerler 69 ve 70'tir. Medyanı şu şekilde buluruz:
$$Medyan = \frac{69 + 70}{2} = 69,5$$
Eğer Luigi'nin pazar araştırmasında 21 veri noktası olsaydı (örneğin araya 90 değeri de eklenmiş olsaydı):
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Sıralanmış liste şu şekilde olacaktı:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
Bu durumda eleman sayısı tek (21) olduğu için, tam ortada, yani 11. sırada yer alan 70 değerini doğrudan medyan olarak seçecekti.
Hem aritmetik ortalama hem de medyan (ortanca) en sık kullanılan merkezi eğilim ölçüleridir. Ancak hangi durumda hangisini kullanacağınızı belirlemek için aralarındaki kritik farkları bilmek istatistiksel analiz açısından büyük önem taşır.
En belirgin fark hesaplama yöntemindedir: Ortalama, hesaplamaya veri kümesindeki her bir değeri dahil ederken; medyan yalnızca merkeze denk gelen tek veya iki sayıya odaklanır.
Bu durum, özellikle veri setinde olağandışı büyüklükte veya küçüklükte sayıların bulunduğu durumlarda fark yaratır. İstatistikte aykırı değerler (outliers) olarak bilinen bu aşırı uç noktalar, aritmetik ortalamayı kendi yönlerine doğru güçlü bir şekilde çekerken, medyan üzerinde yok denecek kadar az etki bırakır.
İstatistikte, bir ölçüm yöntemi veri setindeki aşırı uçlardan etkilenmiyorsa o yönteme dirençli (sağlam) denir. Bu bağlamda, medyan oldukça dirençli bir ölçüyken, aritmetik ortalama dirençsizdir.
Ortalama ve medyan, verinin merkezini farklı bir perspektiften ölçer. Ortalama, tüm veri ağırlıklarının dengelendiği bir denge noktasıdır. Medyan ise verileri %50 sağda ve %50 solda kalacak şekilde ayıran bir ortancadır. Eğer veri setinin dağılımı mükemmel derecede simetrikse, ortalama ve medyan değerleri birbirine eşit çıkar.
Ancak gerçek hayattaki verilerde ortalama ve medyan her zaman eşit olmak zorunda değildir.
Birçok veri setinde ortalama medyandan büyük ya da küçük çıkabilir. Böyle durumlarda veri dağılımının çarpık (skewed) olduğunu ifade ederiz.
Eğer aritmetik ortalama medyandan küçükse (sol taraftaysa), veri kümesi sola çarpık (negatif çarpık) olarak adlandırılır. Eğer aritmetik ortalama medyandan büyükse (sağ taraftaysa), veri kümesi sağa çarpık (pozitif çarpık) bir yapıya sahiptir.
Hangi merkezi eğilim ölçüsünün daha iyi olduğu veriye göre değişir; her ikisi de merkezi farklı yöntemlerle ölçer. Ancak profesyonel veri analistleri, aşırı uç değerler barındıran oldukça çarpık veri setlerinde "tipik" veya "gerçekçi" değeri yansıtması açısından genellikle medyanı kullanmayı tercih ederler.
Bir veri kümesi içerisinde frekansı (tekrarlanma sayısı) en yüksek olan değere mod (tepe değer) adı verilir. Kısacası mod, veri setinde en sık karşımıza çıkan sayıdır.
Eğer bir veri setinde en çok tekrar eden yalnızca bir tek değer varsa, bu dağılıma tek modlu (unimodal) denir.
Eğer eşit sayıda en yüksek frekansa sahip iki farklı değer varsa, her ikisi de mod kabul edilir ve veri kümesi çift modlu (bimodal) olarak adlandırılır.
Aynı en yüksek frekansa sahip üç veya daha fazla değerin bulunduğu veri kümelerine ise çok modlu (multimodal) dağılım adı verilir.
Diğer taraftan, bir veri setindeki her bir değer yalnızca bir kez geçiyorsa (hiçbir sayı tekrar etmiyorsa), o veri kümesinin bir modu yoktur. Böyle bir durumda "mod sıfırdır" demek matematiksel olarak yanlıştır. Çünkü 0 (sıfır), hava sıcaklığı ölçümleri gibi birçok veri türünde başlı başına geçerli ve gerçek bir değerdir.
Mod hesaplamanın en büyük avantajı, tespit edilmesinin çok kolay olması ve aykırı değerlerden (uç noktalardan) kesinlikle etkilenmemesidir. Dezavantajı ise, bahsettiğimiz gibi bazı veri setlerinin hiçbir moda sahip olmamasıdır.
Yirmi değerden oluşan tanıdık veri kümemizi tekrar inceleyelim:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Mod değerini bulmak için şu adımları izleriz:
Öncelikle karmaşayı önlemek için veri setini artan sıraya göre düzenleyelim:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Daha sonra en çok tekrar eden sayıya bakarız. Bu listede en yüksek frekansa sahip (tam 4 kez geçen) sayı 70'tir. Dolayısıyla, bu veri kümesinin mod değeri 70'tir.
Mod, bir merkezi eğilim ölçüsü olsa da, özellikle çarpık dağılımlarda veri setinin gerçek merkezini her zaman yansıtmayabilir. Bazen veri setindeki en büyük veya en küçük sayı bile mod çıkabilir. Örneğin elinizde şu veri seti olsaydı:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Burada mod 120 olurdu. Bu uç değerin, söz konusu veri setinin merkezi eğilimini yansıtmadığı çok açıktır.
Modu diğer merkezi ölçülerden ayıran harika bir özellik daha vardır: Ortalama ve medyanı yalnızca sayısal (nicel) veriler için hesaplayabilirken; modu hem nicel hem de nitel (kategorik) veriler için bulabilirsiniz.
Örnek vermek gerekirse, Anna bir ayda ortalama 12 kez pizza yemektedir ve tercihleri şunlardır:
Bu nitel veri durumunda sayısal bir işlem yapamayız ancak modu rahatlıkla belirtebiliriz. Anna'nın pizza tercihleri çift modlu bir yapıdadır: Napoletana pizzası ve Margherita pizzası.
Değişkenlik veya yayılım ölçüleri olarak da bilinen dağılım ölçüleri, veri kümesindeki değerlerin ne kadar geniş bir alana yayıldığını veya birbirlerinden ne kadar farklılaştığını belirlemek için kullanılır. Genellikle verilerin hesaplanan merkez değerden ne derece saptığını yansıtırlar. Bir veri kümesindeki değişkenlik (varyans) durumunu analiz etmek için aralık, çeyrekler ve çeyrekler arası aralık gibi istatistiksel metriklerden faydalanırız.
İstatistikte aralık (range), bir veri kümesindeki en büyük (maksimum) değer ile en küçük (minimum) değer arasındaki farktır. Veri dağılımını ölçmenin en basit yoludur. Hesaplama formülü şu şekildedir:
$$Aralık = En\ büyük\ değer - En\ küçük\ değer$$
Yine yirmi değer içeren pizza fiyatları veri kümemize dönelim:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Bu verilerin aralığını bulmak son derece basittir:
İşlemi kolaylaştırmak için listemizi artan sırada düzenleyelim:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Burada en yüksek değer 160, en düşük değer ise 42'dir. Formüle yerleştirdiğimizde:
$$Aralık = en\ büyük\ değer - en\ küçük\ değer = 160 - 42 = 118$$
Sonuç olarak, bu veri kümesinin aralığı 118'dir. Bu da fiyatların 118 birimlik geniş bir bantta dalgalandığını gösterir.
Çeyrekler (quartiles), sıralanmış bir veri kümesini üç kesim noktasıyla dört eşit parçaya bölen konum ölçüleridir. Bunlara birinci, ikinci ve üçüncü çeyrekler denir.
Birinci çeyrek (Alt çeyrek), Q₁ olarak gösterilir. Verilerin en düşük %25'lik kısmının altında kaldığı değerdir; geri kalan %75'lik dilim bu değerin üzerindedir.
İkinci çeyrek, Q₂ olarak gösterilir ve hepimizin bildiği medyan (ortanca) ile tamamen aynı şeydir. Veri kümesini tam ortadan iki eşit parçaya böler; değerlerin %50'si altında, %50'si üstünde yer alır.
Üçüncü çeyrek (Üst çeyrek), Q₃ olarak gösterilir. Verilerin %75'inin altında kaldığı değerdir; en yüksek olan %25'lik dilim bu değerin üzerindedir.
Bir veri kümesindeki çeyreklik dilimleri hesaplamak için şu profesyonel adımları izleyebilirsiniz:
Verileri küçükten büyüğe (artan sırayla) dizin.
İkinci çeyreği bulmak için medyanı hesaplayın. Birinci ve üçüncü çeyrekler için sonraki adımlara geçin ve veri setindeki değerlerin sayısı olan n'yi belirleyin.
Birinci çeyreğin konumunu bulmak için L = 0,25n formülünü hesaplayın. Üçüncü çeyreğin konumunu bulmak için ise L = 0,75n hesaplamasını yapın.
Eğer çıkan konum değeri (L) tam sayı ise, o çeyreğin değeri; L. pozisyondaki sayı ile L + 1. pozisyondaki sayının ortalaması alınarak bulunur.
Eğer L tam sayı değilse, çıkan küsuratlı rakamı her zaman bir üst tam sayıya yuvarlayın. Yuvarladığınız bu sayıya karşılık gelen pozisyondaki değer, aradığınız çeyreklik değerdir.
Yirmi değer içeren veri kümemiz üzerinden çeyrekleri hesaplayalım:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Adım adım çözümleyelim:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Medyan = 70
Birinci çeyrek için L konumu: 0,25 × 20 = 5. Üçüncü çeyrek için L konumu: 0,75 × 20 = 15.
Bizim durumumuzda 5 değeri bir tam sayı olduğu için, Q₁ değerini 5. ve 6. sıradaki değerlerin ortalamasını alarak buluruz:
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73,5$$
Böylece bu veri kümesi için birinci çeyreği 57, ikinci çeyreği (medyan) 70 ve üçüncü çeyreği 73,5 olarak bulmuş olduk.
Çeyrekler arası aralık (Interquartile Range - IQR), bir veri kümesinin üçüncü çeyreği (Q₃) ile birinci çeyreği (Q₁) arasındaki istatistiksel farktır. Verilerin ortadaki %50'lik kısmının yayılımını ölçen ve aykırı değerlerden etkilenmeyen çok güvenilir bir dağılım metrikidir. Şu formülle hesaplanır:
IQR = Q₃ - Q₁
Bir önceki bölümde birinci ve üçüncü çeyrek değerlerimizi zaten hesaplamıştık. Bunlar 57 ve 73,5'ti. Şimdi yapmamız gereken tek şey IQR formülünü uygulamaktır.
IQR = Q₃ - Q₁ = 73,5 - 57 = 16,5
Bu hesaba göre, veri setimizdeki çeyrekler arası aralık 16,5'tir.
Tüm bu hesaplamaların ışığında, Luigi'nin Margherita pizza fiyatlarına yönelik yaptığı pazar araştırmasından çok değerli işletme sonuçları çıkarabiliriz: Analizimizde ortalama (71,9) ve medyan (69,5) tam olarak eşleşmedi. Bu da verilerimizde hafif bir çarpıklık olduğunu gösteriyor. Ancak bu fark çok belirgin olmadığı için, işletmenin analizinde hem ortalama hem de medyan merkezi eğilimi ölçmek için güvenle kullanılabilir.
Eğer Luigi Margherita pizza için piyasadaki "ortalama" fiyatı belirlemek isteseydi, 71.900 IDR veya 69.500 IDR civarında etiketler kullanabilirdi. Ancak ticari hayatta bu tarz küsuratlı rakamlar müşterinin aklında pek kalıcı olmaz. Şans eseri, piyasadaki mod (en sık tekrar eden) Margherita fiyatı tam da bu aralığa denk gelen 70.000 IDR'dir. Bu durum, 70.000 IDR'yi Luigi'nin fiyatlandırma stratejisinde kullanması için ideal ve akılda kalıcı bir rakam haline getiriyor.
Öte yandan, Luigi daha hesaplı ve fiyat odaklı bir kitle için pizzacı açmak isteseydi, birinci çeyrek (Q₁) analizine odaklanabilirdi. Bu da yaklaşık 57.000 Endonezya Rupiahı civarında bir fiyata denk gelir. Lüks ve talepkar bir müşteri kitlesine hitap etmek için fiyatı üçüncü çeyreğe (Q₃) göre belirlemek pek uygun değildir; çünkü bizim veri setimizde üçüncü çeyrek, o lüks restoran kitlesinin fiyat davranışını yansıtacak kadar temsil edici görünmemektedir.