कोई परिणाम नहीं मिला
हम इस समय उस शर्त के साथ कुछ नहीं ढूँढ पा रहे हैं, कुछ और खोजने का प्रयास करें।
किसी भी डेटा सेट के माध्य (Mean), मीडियन (Median), मोड (Mode) और रेंज की तुरंत गणना करें। इस मुफ्त और सटीक सांख्यिकी कैलकुलेटर का अभी उपयोग करें।
| परिणाम | |||
|---|---|---|---|
| माध्य x̄ | 16.75 | विसंगतियाँ | 6, 33, 35 |
| मध्यिका x̃ | 15 | चतुर्थांश Q1 | 12.5 |
| बहुलक | 15, 3 बार आया | चतुर्थांश Q2 | 15 |
| सीमा | 29 | चतुर्थांश Q3 | 16 |
| न्यूनतम | 6 | अंतर-चतुर्थांश सीमा IQR | 3.5 |
| अधिकतम | 35 | ||
| योग | 201 | ||
| गणना n | 12 | ||
आपकी गणना में त्रुटि थी।
तालिकाओं और ग्राफ़ से सांख्यिकीय डेटा (statistical data) की व्याख्या करना मुश्किल हो सकता है। सांख्यिकी (statistics) से अधिक उपयोगी जानकारी प्राप्त करने के लिए, हमें अक्सर डेटा सेट को सारांशित करने और उसकी महत्वपूर्ण विशेषताओं की पहचान करने की आवश्यकता होती है।
डेटा को सांख्यिकी में सारांशित करने के लिए, विभिन्न मापों का उपयोग किया जाता है। कुछ माप डेटा के केंद्र का वर्णन करते हैं; इन्हें केंद्रीय प्रवृत्ति के मापों (Measures of Central Tendency) के रूप में जाना जाता है। अन्य को फैलाव के माप (Measures of Dispersion) कहा जाता है, जो यह दर्शाते हैं कि डेटा का मान कितना बिखरा हुआ है। इसके अलावा, स्थिति के माप (Measures of Position) होते हैं, जो यह बताते हैं कि डेटा का कितना प्रतिशत किसी निश्चित मान से कम है।
हमारे इस कैलकुलेटर का मुख्य कार्य केंद्रीय प्रवृत्ति के मापों, जैसे कि माध्य (Mean) और मीडियन (Median) की गणना करना है, जो किसी डेटा सेट में विशिष्ट या केंद्रीय मान का प्रतिनिधित्व करते हैं। इस कैलकुलेटर का दूसरा उद्देश्य रेंज (Range), क्वार्टाइल (Quartiles) और इंटरक्वार्टाइल रेंज (Interquartile Range) की गणना करके डेटा सेट में भिन्नता या फैलाव की डिग्री निर्धारित करना है।
माध्य (Mean) की गणना सभी मानों के योग को मानों की कुल संख्या से विभाजित करके की जाती है। निम्न सूत्र का उपयोग करके सैंपल के माध्य को समझना और उसकी गणना करना सबसे आसान है:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
जनसंख्या के माध्य का सूत्र है:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
इन सूत्रों में, अंश (numerator) डेटा सेट में मौजूद सभी मानों के योग का प्रतिनिधित्व करता है, और हर (denominator) डेटा सेट में मानों की कुल संख्या को दर्शाता है।
अंकगणितीय माध्य (Arithmetic Mean) का सबसे बड़ा फायदा यह है कि यह डेटा सेट के सभी बिंदुओं को अपनी गणना में शामिल करता है।
माध्य की मुख्य सीमा यह है कि यह अत्यधिक बड़े या छोटे मानों (extreme values) से बहुत जल्दी प्रभावित होता है। आउटलेयर (Outliers) वे मान हैं जो औसत से काफी अलग होते हैं।
यह भी ध्यान रखना चाहिए कि औसत मूल्य हमेशा डेटा का कोई मौजूदा मान नहीं होता। माध्य एक ऐसा मान भी हो सकता है जो डेटा सेट में मौजूद ही न हो।
जनसंख्या (Population) उन सभी मूल्यों का संपूर्ण समूह है जिनके बारे में डेटा प्राप्त किया जाता है। जबकि सैंपल (Sample), जनसंख्या के एक छोटे उपसमूह से बना होता है।
सैंपल और जनसंख्या, दोनों के लिए माध्य की गणना करने की विधि समान होती है, केवल उनके नाम और प्रतीक अलग-अलग होते हैं।
अगर x₁, x₂,..., xₙ एक सैंपल है, तो माध्य को सैंपल माध्य कहा जाता है और इसे प्रतीक x̄ (x-bar) द्वारा दर्शाया जाता है। जनसंख्या के माध्य को ग्रीक अक्षर 𝜇 (mu) द्वारा दर्शाया जाता है।
सांख्यिकी में, हम सैंपल के आकार को दर्शाने के लिए छोटे अक्षर n और जनसंख्या के आकार को दर्शाने के लिए बड़े अक्षर N का उपयोग करते हैं।
निम्नलिखित उदाहरण पर विचार करें: लुइगी एक शानदार शेफ और पिज्जा प्रेमी है। उसने बाली में एक पिज़्ज़ेरिया खोलने का निर्णय लिया है। निवेशकों को आकर्षित करने के लिए लुइगी एक बिजनेस प्लान बनाता है। भविष्य के वित्तीय प्रदर्शन का आकलन करने के लिए, वह द्वीप के विभिन्न रेस्तरां में पिज्जा की औसत लागत का पता लगाना चाहता है।
उसने बाली के रेस्तरां में मार्गेरिटा पिज्जा की कीमत पर कुछ शोध किया और पिज्जा की कीमतों का एक डेटा सेट प्राप्त किया। गणना को आसान बनाने के लिए, हम अंतिम तीन शून्य हटा देंगे और केवल हजारों में कीमत का उपयोग करेंगे। यानी हमारी गणना में 60 का मतलब 60,000 इंडोनेशियन रुपिया होगा।
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
लुइगी ने द्वीप के हर पिज़्ज़ेरिया का दौरा नहीं किया है। उसने उनमें से 20 को यादृच्छिक रूप से (randomly) चुना है। इसलिए, हम यहाँ एक सैंपल के साथ काम कर रहे हैं।
आइए सूत्र का उपयोग करके इस डेटा सेट के औसत मूल्य की गणना करें:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
हमें औसत x̄ = 71.9 प्राप्त होता है।
लुइगी के शोध के अनुसार, बाली में एक मार्गेरिटा पिज्जा की औसत कीमत 71,900 इंडोनेशियन रुपिया है। अब वह अपनी आगे की गणनाओं को आधार देने के लिए इस कीमत का उपयोग कर सकता है।
मीडियन (Median) या माध्यिका, एक स्थितिगत माप है जो उस डेटा सेट के मध्य मूल्य का प्रतिनिधित्व करता है जिसे आरोही (ascending) या अवरोही (descending) क्रम में व्यवस्थित किया गया हो।
मीडियन की गणना करके हम एक ऐसी संख्या ज्ञात करने का प्रयास करते हैं जो पूरे डेटा सेट को दो बराबर हिस्सों में बांटती है। आधे डेटा मान मीडियन से कम होते हैं, और बाकी आधे इससे अधिक होते हैं। यही कारण है कि, मीडियन कैलकुलेटर का उपयोग किए बिना मैन्युअल रूप से मीडियन की गणना करते समय, हमें सबसे पहले मानों को क्रमबद्ध करना चाहिए।
मीडियन की गणना इस बात पर निर्भर करती है कि डेटा सेट में मानों की कुल संख्या सम (even) है या विषम (odd)।
यदि तत्वों की कुल संख्या विषम है, अर्थात n या N विषम है, तो सूत्र इस प्रकार है:
$$Median=(\frac{n+1}{2})-th \ element$$
हालाँकि, यदि तत्वों की संख्या सम है, जिसका अर्थ है कि n एक सम संख्या है, तो निम्न सूत्र का उपयोग किया जाता है:
$$Median=\frac{\left[(\frac{n}{2})-th \ element+(\frac{n}{2}+1)-th \ element\right]}{2}$$
मीडियन का उपयोग करने का मुख्य लाभ यह है कि यह अत्यंत उच्च या अत्यंत निम्न मानों (outliers) से कम से कम प्रभावित होता है।
बीस मानों के दिए गए सेट के लिए,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
हम मीडियन की गणना इस प्रकार कर सकते हैं:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
आइए डेटा सेट में मानों की संख्या निर्धारित करें। हमारे पास n = 20 है।
यदि n विषम है, तो हम डेटा के केंद्रीय मान को मीडियन मानते हैं। यदि n सम है, तो हम दो मध्य मानों का समांतर माध्य (arithmetic mean) निकालते हैं। उन्हें जोड़ें और योग को 2 से विभाजित करें।
20 एक सम संख्या है।
हमारे सैंपल में मध्य मान 69 और 70 हैं। हम मीडियन इस प्रकार ज्ञात करते हैं:
$$Median = \frac{69 + 70}{2} = 69.5$$
यदि लुइगी के पास 21 मानों का सेट होता, उदाहरण के लिए:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
वह मानों को इस प्रकार क्रमबद्ध कर सकता था:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
और बिल्कुल मध्य में, यानी 11वें स्थान पर मौजूद मान 70 का चयन करता।
केंद्रीय प्रवृत्ति की गणना के लिए माध्य और मीडियन दोनों का उपयोग किया जाता है। हालांकि, यह समझना महत्वपूर्ण है कि वे एक-दूसरे से कैसे भिन्न हैं।
माध्य, मीडियन से इस मायने में अलग है कि माध्य का सूत्र डेटा सेट के सभी मानों को ध्यान में रखता है। इसके विपरीत, मीडियन का सूत्र केवल मध्य की एक या दो संख्याओं पर निर्भर करता है।
यह उन डेटा सेट के लिए विशेष रूप से महत्वपूर्ण है जिनमें असामान्य रूप से बड़ी या छोटी संख्याएं (Outliers) होती हैं। आउटलेयर वे संख्याएँ हैं जो सामान्य पैटर्न से विचलित होती हैं। ज्यादातर मामलों में, इन आउटलेयर्स का माध्य पर बहुत बड़ा प्रभाव पड़ता है, लेकिन मीडियन पर इनका बहुत कम या कोई प्रभाव नहीं पड़ता है।
सांख्यिकी में, किसी माप को प्रतिरोधी (resistant) तब कहा जाता है जब उसका मान डेटा सेट के चरम मानों (extreme values) से महत्वपूर्ण रूप से प्रभावित नहीं होता है। इसलिए, हम कह सकते हैं कि मीडियन प्रतिरोधी है जबकि माध्य नहीं है।
माध्य और मीडियन, डेटा सेट के केंद्र को अलग-अलग तरीकों से मापते हैं। माध्य डेटा सेट का संतुलन बिंदु है। जबकि मीडियन वह मध्य बिंदु है जो डेटा के एक तरफ के 50% हिस्से को दूसरी तरफ के 50% हिस्से से अलग करता है। जब डेटा सेट सममित (symmetrical) होता है, तो माध्य और मीडियन बराबर होते हैं।
लेकिन माध्य और मीडियन का हमेशा समान होना जरूरी नहीं है।
कुछ डेटा सेटों में माध्य, मीडियन से कम हो सकता है, या माध्य, मीडियन से अधिक हो सकता है। इस स्थिति में, हम डेटा सेट को तिरछा (skewed) कहते हैं।
यदि माध्य का मान बाईं ओर है या मीडियन से कम है, तो डेटासेट को बाईं ओर तिरछा (left-skewed) कहा जाता है। यदि माध्य दाईं ओर स्थित है या मीडियन से अधिक है, तो डेटासेट को दाईं ओर तिरछा (right-skewed) कहा जाता है।
केंद्रीय प्रवृत्ति के माप के रूप में, न तो माध्य और न ही मीडियन एक-दूसरे से श्रेष्ठ हैं। दोनों ही केंद्र का निर्धारण करने के लिए अलग-अलग तरीकों का उपयोग करते हैं। जब डेटा अत्यधिक विषम (skewed) होता है या इसमें आउटलेयर्स होते हैं, तो कई विशेषज्ञ मीडियन का उपयोग करना पसंद करते हैं क्योंकि यह विशिष्ट मान का अधिक सटीक प्रतिनिधित्व करता है।
मोड (Mode) या बहुलक, डेटासेट का वह मान है जो डेटासेट में सबसे अधिक बार आता है। यानी यह वह मान है जिसकी आवृत्ति (frequency) सबसे ज्यादा होती है।
एक यूनिमॉडल (Unimodal) डेटासेट में केवल एक ही मान होता है जो सबसे अधिक बार आता है।
जब किसी डेटा सेट में दो मानों की आवृत्ति समान (और सबसे अधिक) होती है, तो दोनों मानों को मोड माना जाता है, और ऐसे डेटा सेट को बायमोडल (Bimodal) कहा जाता है।
जब किसी डेटासेट में एक समान उच्चतम आवृत्ति वाले दो से अधिक मान होते हैं, तो प्रत्येक मान को एक मोड माना जाता है, और डेटासेट को मल्टीमॉडल (Multimodal) कहा जाता है।
यदि डेटा सेट में कोई भी मान एक से अधिक बार नहीं आता है, तो यह कहा जाता है कि डेटा सेट में कोई मोड नहीं है। यह कहना गलत होगा कि इस स्थिति में मोड शून्य है। क्योंकि कुछ डेटा सेटों में, जैसे तापमान माप में, शून्य एक वास्तविक मान हो सकता है।
मोड की गणना का मुख्य लाभ यह है कि इसे खोजना आसान है और यह चरम मानों से अप्रभावित रहता है। इसकी सीमा यह है कि कुछ स्थितियों में, किसी डेटा सेट के लिए मोड का मान मौजूद ही नहीं होता है।
बीस मानों के दिए गए सेट के लिए,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
हम मोड को इस प्रकार ज्ञात कर सकते हैं:
डेटा सेट को आरोही या अवरोही क्रम में व्यवस्थित करें। यहाँ क्रम इस प्रकार है:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
तब हम वह मान खोजते हैं जो सबसे अधिक बार दोहराया गया है। इस मामले में सबसे आम मान 70 है। परिणामस्वरूप, दिए गए डेटा सेट के लिए मोडल मान 70 है।
मोड को केंद्रीय प्रवृत्ति के माप के रूप में भी जाना जाता है। हालाँकि, यह पूरी तरह से सही नहीं है। मोड डेटा सेट में सबसे बड़ा, सबसे छोटा या कोई अन्य मान भी हो सकता है। उदाहरण के लिए, मान लीजिए कि हमारे डेटा सेट में निम्नलिखित संख्याएँ हैं:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
यहाँ 120 मोड होगा। हालाँकि, इस मामले में यह केंद्रीय प्रवृत्ति को प्रतिबिंबित नहीं करेगा।
ध्यान देने योग्य बात यह है कि मात्रात्मक डेटा (quantitative data) के लिए, हम केवल माध्य और मीडियन की गणना कर सकते हैं। लेकिन मोड एक ऐसा माप है जिसकी गणना मात्रात्मक और गुणात्मक डेटा (qualitative data) दोनों के लिए की जा सकती है।
उदाहरण के लिए, एना प्रति माह औसतन 12 बार पिज्जा खाती है:
इस मामले में, हमारे पास दो मोड होंगे: नेपोलेटाना पिज्जा और मार्गेरिटा पिज्जा।
डेटा सेट में परिवर्तनशीलता या फैलाव को मापने के लिए हम फैलाव के मापों (Measures of Dispersion) का उपयोग करते हैं। ये आम तौर पर दर्शाते हैं कि डेटा अपने केंद्रीय मूल्य से कितना भिन्न या दूर है। रेंज, क्वार्टाइल और इंटरक्वार्टाइल रेंज का उपयोग करके, हम डेटा सेट में इस फैलाव की जांच कर सकते हैं।
किसी डेटा सेट की रेंज (Range) या सीमा, उसके सबसे बड़े और सबसे छोटे मानों के बीच का अंतर होती है। हम डेटा सेट के अधिकतम और न्यूनतम मान निर्धारित करके इसकी गणना कर सकते हैं। रेंज की गणना निम्न सूत्र का उपयोग करके की जाती है:
$$Range = Largest\ value - Smallest\ value$$
बीस मानों के दिए गए सेट के लिए,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
हम इस प्रकार रेंज की गणना कर सकते हैं:
डेटा सेट को आरोही या अवरोही क्रम में व्यवस्थित करें। यहाँ, क्रम इस तरह दिखता है:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
यहाँ सबसे बड़ा मान 160 है, और सबसे छोटा मान 42 है। इसलिए, रेंज:
$$Range = largest\ value - smallest\ value = 160 - 42 = 118$$
इसलिए, इस डेटा सेट के लिए, रेंज 118 है।
क्वार्टाइल (Quartiles) वे मान हैं जो एक डेटा सेट को तीन बिंदुओं से चार बराबर हिस्सों (तिमाहियों) में विभाजित करते हैं, अर्थात् पहला, दूसरा और तीसरा क्वार्टाइल।
पहला क्वार्टाइल, जिसे Q₁ के रूप में दर्शाया जाता है, उस बिंदु का प्रतिनिधित्व करता है जहाँ डेटा सेट के 25% मान इस मान से कम होते हैं, और शेष 75% मान इससे अधिक होते हैं।
दूसरा क्वार्टाइल, जिसे Q₂ कहा जाता है, वास्तव में मीडियन ही है। इसका मतलब है कि डेटा सेट का 50% हिस्सा इस मान से कम है और अन्य 50% हिस्सा Q₂ से अधिक है।
तीसरा क्वार्टाइल, जिसे Q₃ कहा जाता है, वह बिंदु है जहाँ 75% मान इस मान से कम होते हैं और शेष 25% मान इससे अधिक होते हैं।
डेटा सेट के क्वार्टाइल की गणना करने की प्रक्रिया:
डेटा को आरोही क्रम में व्यवस्थित करें।
दूसरे क्वार्टाइल की गणना करने के लिए, मीडियन निकालें। पहले और तीसरे क्वार्टाइल के लिए, निम्नलिखित चरणों का पालन करें। डेटा सेट में मानों की कुल संख्या 'n' निर्धारित करें।
प्रथम क्वार्टाइल के लिए L = 0.25n की गणना करें। तीसरे क्वार्टाइल के लिए, L = 0.75n की गणना करें।
यदि L एक पूर्णांक (integer) है, तो क्वार्टाइल 'स्थिति L' वाली संख्या और 'स्थिति L + 1' वाली संख्या का औसत होता है।
यदि L पूर्णांक नहीं है, तो इसे अगले उच्च पूर्णांक (next higher integer) तक राउंड ऑफ करें। उस राउंडेड मान वाली स्थिति पर मौजूद संख्या ही क्वार्टाइल होगी।
बीस मानों के दिए गए सेट के लिए,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
हम क्वार्टाइल की गणना इस प्रकार कर सकते हैं:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
मीडियन = 70
प्रथम क्वार्टाइल के लिए L: 0.25 × 20 = 5। तीसरे क्वार्टाइल के लिए L: 0.75 × 20 = 15।
5 एक पूर्णांक है, इसलिए हमारे मामले में Q₁ है:
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac {72+75}{2}=73.5$$
इसलिए, इस डेटा सेट के लिए, पहला क्वार्टाइल 57 है, दूसरा 70 है, और तीसरा 73.5 है।
इंटरक्वार्टाइल रेंज (IQR) डेटा सेट के तीसरे $(Q₃ )$ और पहले Q₁ क्वार्टाइल के बीच का अंतर है। यह औसत फैलाव का एक माप है, जिसकी गणना इस प्रकार की जा सकती है:
IQR = Q₃ - Q₁
पिछले भाग में, हम पहले और तीसरे क्वार्टाइल की गणना कर चुके हैं। वे 57 और 73.5 हैं। हमें बस फॉर्मूले को लागू करना है।
IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5
इस प्रकार, इस डेटा सेट के लिए, इंटरक्वार्टाइल रेंज 16.5 है।
हमारे मामले में, मार्गेरिटा पिज्जा की कीमतों पर लुइगी के शोध ने उसे निम्नलिखित निष्कर्षों तक पहुंचने में मदद की: माध्य (Mean) और मीडियन (Median) का मान बिल्कुल समान नहीं था, जिससे पता चला कि डेटा में थोड़ा तिरछापन (skewness) है। हालांकि, यह तिरछापन बहुत मामूली है। परिणामस्वरूप, केंद्रीय प्रवृत्ति का आकलन करने के लिए माध्य और मीडियन दोनों का उपयोग किया जा सकता है।
यदि वह औसत मूल्य के साथ जाना चाहता, तो लुइगी को मार्गेरिटा पिज्जा का माध्य या औसत मूल्य लेना चाहिए था। हालांकि, एक यादगार पिज्जा कीमत के रूप में IDR 71,900 या IDR 69,500 बहुत आकर्षक नहीं लगता। सौभाग्य से, मार्गेरिटा पिज्जा का मोड (सबसे आम कीमत) 70,000 इंडोनेशियन रुपिया है। नतीजतन, लुइगी अपनी गणनाओं को आधार बनाने के लिए इस सटीक कीमत का इस्तेमाल कर सकता है।
यदि वह अधिक किफायती ग्राहकों के लिए पिज़्ज़ेरिया खोलना चाहता था, तो वह पहले क्वार्टाइल के करीब के आंकड़ों पर ध्यान केंद्रित कर सकता था। यानी करीब 57,000 इंडोनेशियन रुपिया। चूँकि तीसरा क्वार्टाइल बहुत अधिक प्रतिनिधित्व नहीं करता है, इसलिए अधिक मांग वाले ग्राहकों के लिए कीमत निर्धारित करने हेतु उस पर ध्यान केंद्रित करना सही नहीं होगा।