نتیجهای یافت نشد
هم اکنون نمیتوانیم چیزی با آن عبارت پیدا کنیم، سعی کنید چیز دیگری را جستجو کنید.
با این ماشین حساب آماری آنلاین، به سرعت و با دقت میانگین، میانه، مد و دامنه تغییرات مجموعه دادههای خود را محاسبه کنید. ابزاری ایدهآل برای ریاضی و آمار.
| نتیجه | |||
|---|---|---|---|
| میانگین x̄ | 16.75 | نقاط پرت | 6, 33, 35 |
| میانه x̃ | 15 | کوارتیل Q1 | 12.5 |
| مُد | 15، 3 بار ظاهر شد | کوارتیل Q2 | 15 |
| دامنه | 29 | کوارتیل Q3 | 16 |
| حداقل | 6 | دامنه بین چارکی IQR | 3.5 |
| حداکثر | 35 | ||
| جمع | 201 | ||
| تعداد n | 12 | ||
در محاسبه شما خطایی رخ داد.
تفسیر جداول و نمودارهای حاصل از دادههای آماری گاهی در نگاه اول دشوار است. به همین دلیل، ما اغلب به خلاصهسازی مجموعه دادهها و شناسایی ویژگیهای کلیدی آنها نیاز داریم تا بتوانیم اطلاعات مفیدتر و کاربردیتری از آمار استخراج کنیم.
در علم آمار، از شاخصهای مختلفی برای خلاصهسازی دادهها استفاده میشود. دستهای از این شاخصها، نقطه مرکزی یا هسته دادهها را توصیف میکنند که به آنها شاخصهای گرایش مرکزی میگویند. دسته دیگر نشان میدهند که دادهها تا چه اندازه از هم فاصله دارند و پراکندهاند؛ این موارد به عنوان شاخصهای پراکندگی شناخته میشوند. همچنین شاخصهای دیگری به نام شاخصهای موقعیت وجود دارند که نشان میدهند چه نسبتی از دادهها در پایینتر از یک مقدار مشخص قرار گرفتهاند.
هدف اصلی این ماشین حساب آماری، محاسبه شاخصهای گرایش مرکزی — یعنی میانگین و میانه — است که میتوانند نماینده مقدار معمول یا نقطه مرکزی در یک مجموعه داده باشند. هدف ثانویه این ابزار، بررسی میزان تغییرپذیری و پراکندگی دادهها از طریق محاسبه دامنه تغییرات، چارکها و دامنه میانچارکی است.
میانگین حسابی (Mean) از تقسیم مجموع مقادیر بر تعداد کل آنها به دست میآید. سادهترین راه برای درک و محاسبه میانگینِ یک نمونه، استفاده از فرمول زیر است:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
فرمول محاسبه میانگین برای کل جامعه آماری به این شکل است:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
در این فرمولها، صورت کسر نشاندهنده مجموع تمامی مقادیر موجود در مجموعه داده است و مخرج کسر، تعداد کل مقادیر را نشان میدهد.
مهمترین ویژگی استفاده از میانگین حسابی این است که تمامی نقاط داده موجود در مجموعه را در محاسبه دخالت میدهد.
با این حال، محدودیت اصلی میانگین، حساسیت بالای آن نسبت به مقادیر بسیار بزرگ یا بسیار کوچک است. به این مقادیر افراطی در علم آمار دادههای پرت (Outliers) گفته میشود که میتوانند میانگین را به طور قابلتوجهی دستخوش تغییر کنند.
همچنین به خاطر داشته باشید که میانگین لزوماً یکی از اعداد موجود در خود مجموعه داده نیست؛ بلکه ممکن است مقداری باشد که اصلاً در بین دادههای اصلی شما وجود نداشته باشد.
جامعه آماری (Population) شامل کل مجموعه مقادیری است که میخواهیم درباره آنها اطلاعات کسب کنیم. نمونه (Sample) شامل گروه کوچکتری است که از درون همان جامعه انتخاب شده است.
روش محاسبه میانگین برای نمونه و جامعه کاملاً یکسان است و تنها تفاوت آنها در نمادهای ریاضی به کار رفته است.
اگر x₁, x₂,..., xₙ یک نمونه باشد، میانگین آن به عنوان «میانگین نمونه» شناخته شده و با نماد x̄ (بخوانید ایکس بار) نمایش داده میشود. اما میانگین کل جامعه با حرف یونانی 𝜇 (مو) نشان داده میشود.
در آمار، ما از حرف کوچک n برای نشان دادن اندازه نمونه و از حرف بزرگ N برای نشان دادن اندازه کل جامعه استفاده میکنیم.
بیایید به مثال زیر نگاه کنیم: لوئیجی یک سرآشپز درجه یک و عاشق پیتزا است. او تصمیم گرفته تا پیتزافروشی اختصاصی خود را در جزیره بالی افتتاح کند. لوئیجی برای جذب سرمایهگذار، در حال تدوین یک طرح تجاری است و برای ارزیابی عملکرد مالی آینده خود، میخواهد میانگین قیمت پیتزا در رستورانهای مختلف جزیره را به دست آورد.
او یک تحقیق میدانی کوچک درباره قیمت پیتزا مارگاریتا در رستورانهای بالی انجام داد و لیستی از قیمتها را جمعآوری کرد. برای سهولت در محاسبات، بیایید سه صفر آخر اعداد را حذف کنیم و قیمتها را بر حسب هزار وارد کنیم. یعنی عدد 60 در محاسبات ما نشاندهنده 60,000 روپیه اندونزی است.
60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70
لوئیجی به تمام پیتزافروشیهای جزیره سر نزده است؛ بلکه 20 مورد از آنها را به صورت تصادفی انتخاب کرده است. بنابراین، ما در اینجا با یک نمونه آماری سر و کار داریم.
بیایید میانگین این مجموعه داده را با استفاده از فرمول میانگین نمونه محاسبه کنیم:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
پس از جمع اعداد و تقسیم بر 20، به میانگین x̄ = 71.9 میرسیم.
تحقیقات لوئیجی نشان میدهد که میانگین قیمت یک پیتزا مارگاریتا در بالی برابر با 71,900 روپیه اندونزی است. او اکنون میتواند محاسبات مالی خود را بر پایه این قیمت استوار کند.
میانه (Median) یک شاخص موقعیتی است که مقدار میانی یک مجموعه داده را پس از مرتبسازی (به ترتیب صعودی یا نزولی) نشان میدهد.
با محاسبه میانه، ما به دنبال عددی هستیم که مجموعه داده را دقیقاً به دو نیمه برابر تقسیم کند؛ به طوری که نیمی از دادهها کمتر از میانه و نیم دیگر بیشتر از آن باشند. به همین دلیل، زمانی که میخواهیم میانه را به صورت دستی و بدون ماشین حساب پیدا کنیم، حتماً باید ابتدا مقادیر را از کوچک به بزرگ (یا برعکس) مرتب کنیم.
روش محاسبه میانه به زوج یا فرد بودن تعداد مقادیر (n) در مجموعه داده بستگی دارد.
اگر تعداد کل عناصر فرد باشد (یعنی n یا N یک عدد فرد باشد)، از فرمول زیر استفاده میشود:
$$میانه=(\frac{n+1}{2})-امین \ عنصر$$
اما اگر تعداد عناصر زوج باشد (یعنی n یک عدد زوج باشد)، فرمول زیر به کار میرود:
$$میانه=\frac{\left[(\frac{n}{2})-امین \ عنصر+(\frac{n}{2}+1)-امین \ عنصر\right]}{2}$$
بزرگترین مزیت استفاده از میانه این است که کمترین تأثیر را از دادههای پرت (مقادیر بسیار بالا یا بسیار پایین) میپذیرد.
برای مجموعه داده بیستتایی زیر که پیشتر داشتیم:
60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70
میتوانیم میانه را طی مراحل زیر محاسبه کنیم:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
تعداد مقادیر مجموعه داده را مشخص میکنیم که در اینجا n = 20 است.
از آنجایی که n زوج است، باید میانگین حسابی دو مقدار میانی را پیدا کنیم. این دو مقدار را با هم جمع کرده و بر 2 تقسیم میکنیم.
عدد 20 زوج است. مقادیر میانی در نمونه ما اعداد 69 و 70 هستند (دهمین و یازدهمین عدد). به این ترتیب میانه محاسبه میشود:
$$میانه = \frac{69 + 70}{2} = 69.5$$
اگر لوئیجی به جای 20 داده، مجموعهای از 21 داده داشت، مثلاً:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
ابتدا مقادیر را مرتب میکرد:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
و سپس مقدار موجود در مرکز (جایگاه یازدهم) که همان 70 است را مستقیماً به عنوان میانه انتخاب میکرد.
هر دو مفهوم میانگین و میانه به عنوان شاخصهای گرایش مرکزی استفاده میشوند، اما درک تفاوتهای ساختاری آنها بسیار مهم است.
تفاوت کلیدی میان این دو در این است که فرمول میانگین تمامی دادههای موجود در مجموعه را درگیر محاسبات میکند؛ در حالی که فرمول میانه تنها بر یک یا دو عدد میانی متمرکز است.
این تفاوت به ویژه در مجموعههایی که دارای یک یا چند عدد به طور غیرطبیعی بزرگ یا کوچک (دادههای پرت) هستند، اهمیت پیدا میکند. در بیشتر مواقع، دادههای پرت میانگین را به شدت تغییر میدهند، اما تأثیر بسیار کمی روی میانه دارند (یا اصلاً تأثیری ندارند).
در علم آمار، اگر مقدار یک شاخص تحت تأثیر مقادیر شدید و پرت قرار نگیرد، میگوییم آن شاخص مقاوم (Robust) است. بر این اساس، میانه یک شاخص مقاوم است اما میانگین مقاوم نیست.
میانگین و میانه، نقطه مرکزی دادهها را از زوایای متفاوتی اندازهگیری میکنند. میانگین نقطهای است که وزن دادهها در آن به تعادل میرسد، اما میانه نقطهای است که 50٪ از مقادیر در یک سمت آن و 50٪ دیگر در سمت مقابل آن قرار میگیرند. اگر توزیع دادهها کاملاً متقارن باشد، میانگین و میانه دقیقاً با هم برابر خواهند بود.
با این حال، در دنیای واقعی میانگین و میانه معمولاً برابر نیستند.
در برخی مجموعهها ممکن است میانگین کمتر یا بیشتر از میانه باشد. در چنین حالتی میگوییم که توزیع دادهها دارای چولگی (Skewness) است.
اگر مقدار میانگین کمتر از میانه (در سمت چپ آن) باشد، میگوییم توزیع دادهها چوله به چپ است. اما اگر میانگین بیشتر از میانه (در سمت راست آن) باشد، توزیع دادهها چوله به راست در نظر گرفته میشود.
نمیتوان گفت میانگین شاخص بهتری است یا میانه؛ هر یک ویژگیهای خاص خود را دارند. با این حال، بسیاری از کارشناسان آمار ترجیح میدهند در مواجهه با دادههای دارای چولگی شدید یا دادههای پرت، از میانه استفاده کنند، زیرا در این شرایط میانه نماینده بسیار بهتری برای مقدار معمول دادههاست.
مُد یا نَما (Mode)، مقداری در مجموعه داده است که بیشترین فراوانی و تکرار را دارد. به بیان ساده، مد همان دادهای است که بیشتر از بقیه در لیست شما دیده میشود.
اگر یک مجموعه داده فقط یک مقدار با بیشترین تکرار داشته باشد، به آن توزیع تکنما (Unimodal) میگویند.
اگر دو مقدار دارای بالاترین فرکانس تکرار یکسان باشند، هر دو عدد به عنوان مد در نظر گرفته میشوند و به آن توزیع دونما (Bimodal) میگویند.
اگر بیش از دو مقدار با فرکانس بالا و یکسان وجود داشته باشد، به آن مجموعه چندنما (Multimodal) گفته میشود.
اگر هیچ یک از دادهها تکرار نشوند و فراوانی همه اعداد برابرِ یک باشد، میگوییم این مجموعه فاقد مد است. توجه داشته باشید که در این حالت، قرار دادن عدد "صفر" به عنوان مد کاملاً اشتباه است؛ زیرا صفر میتواند خود یک مقدار واقعی در بسیاری از دادهها (مانند دما) باشد.
مزیت بزرگ مُد این است که پیدا کردن آن بسیار آسان است و به هیچ وجه تحت تأثیر دادههای پرت قرار نمیگیرد. نقطه ضعف اصلی آن نیز این است که گاهی ممکن است یک مجموعه داده اصلاً مُد نداشته باشد و این شاخص اطلاعاتی به ما ندهد.
برای مجموعه 20 تایی زیر:
60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70
میتوانیم مُد را به این شکل پیدا کنیم:
ابتدا دادهها را از کوچک به بزرگ مرتب میکنیم:
42، 45، 50، 53، 55، 59، 59، 60، 60، 69، 70، 70، 70، 70، 72، 75، 84، 95، 120، 160
سپس به دنبال عددی میگردیم که بیشترین تکرار را داشته باشد. در اینجا عدد 70 چهار بار تکرار شده که بیشتر از سایر اعداد است. بنابراین، در این مجموعه داده، مُد برابر با 70 است.
اگرچه مُد یک شاخص گرایش مرکزی است، اما همیشه مرکز توزیع را نشان نمیدهد (به خصوص در توزیعهای چوله). مُد میتواند بزرگترین، کوچکترین یا هر مقدار دیگری در بین دادهها باشد. برای مثال در مجموعه زیر:
42، 45، 50، 53، 55، 57، 59، 60، 63، 69، 70، 72، 79، 82، 83، 95، 96، 120، 120، 120
در اینجا مُد برابر با 120 است، که به هیچ وجه تمایل مرکزی دادهها را منعکس نمیکند.
نکته جالب اینجاست که ما میتوانیم میانگین و میانه را فقط برای «دادههای کمی و عددی» محاسبه کنیم، اما پیدا کردن مُد هم برای دادههای کمی و هم برای «دادههای کیفی و دستهای» امکانپذیر است.
به عنوان مثال، آنا به طور متوسط ماهانه 12 بار پیتزا سفارش میدهد:
در این مثال کیفی، ما دو مُد داریم: پیتزای ناپولیتانا و پیتزای مارگاریتا.
شاخصهای پراکندگی (Measures of Dispersion) که به عنوان شاخصهای تغییرپذیری نیز شناخته میشوند، برای اندازهگیری میزان پخششدگی دادهها به کار میروند. این شاخصها نشان میدهند که دادهها تا چه حد از مقدار مرکزی خود فاصله دارند. ما میتوانیم این تغییرات را به کمک محاسبه دامنه تغییرات، چارکها و دامنه میانچارکی ارزیابی کنیم.
دامنه تغییرات (Range) سادهترین شاخص پراکندگی است و تفاوت بین بزرگترین و کوچکترین عدد در مجموعه داده را نشان میدهد. ما میتوانیم با پیدا کردن مقادیر مینیمم و ماکزیمم، آن را به دست آوریم. فرمول دامنه به این شکل است:
$$دامنه = بزرگترین\ مقدار - کوچکترین\ مقدار$$
در مجموعه 20 تایی قبلی ما:
60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70
دامنه به شکل زیر محاسبه میشود:
دادهها را به ترتیب صعودی مرتب میکنیم:
42، 45، 50، 53، 55، 59، 59، 60، 60، 69، 70، 70، 70، 70، 72، 75، 84، 95، 120، 160
با مشاهده دادههای مرتبشده، بالاترین مقدار 160 و پایینترین مقدار 42 است. حال طبق فرمول:
$$دامنه = بزرگترین\ مقدار - کوچکترین\ مقدار = 160 - 42 = 118$$
بنابراین، دامنه تغییرات در این مجموعه داده 118 است.
چارکها (Quartiles) مقادیری هستند که یک مجموعه داده مرتبشده را به وسیله سه نقطه (چارک اول، دوم و سوم) به چهار بخش مساوی تقسیم میکنند.
چارک اول (که با Q₁ نشان داده میشود)، نقطهای است که 25٪ از دادهها کمتر از آن و 75٪ از دادهها بیشتر از آن هستند.
چارک دوم (که با Q₂ نشان داده میشود)، همان میانه است. این نقطه دادهها را دقیقاً به دو قسمت مساوی 50 درصدی تقسیم میکند.
چارک سوم (که با Q₃ نشان داده میشود)، نقطهای است که 75٪ از دادهها کمتر از آن و 25٪ از دادهها بیشتر از آن هستند.
مراحل یافتن چارکهای یک مجموعه داده:
ابتدا دادهها را به ترتیب صعودی (از کوچک به بزرگ) مرتب کنید.
برای یافتن چارک دوم، کافی است میانه را حساب کنید. برای چارکهای اول و سوم، مراحل زیر را دنبال کنید. تعداد کل دادهها یعنی n را مشخص کنید.
برای چارک اول مقدار L = 0.25n و برای چارک سوم مقدار L = 0.75n را محاسبه کنید.
اگر L یک عدد صحیح شد، چارک برابر است با میانگین عددی که در جایگاه L قرار دارد و عددی که در جایگاه L + 1 است.
اگر L عدد صحیح نشد، آن را به سمت بالا (به عدد صحیح بعدی) گرد کنید. چارک شما دقیقاً عددی است که در آن جایگاه (مقدار گرد شده) قرار دارد.
برای همان مجموعه 20 تایی:
60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70
چارکها را به این صورت محاسبه میکنیم:
42، 45، 50، 53، 55، 59، 59، 60، 60، 69، 70، 70، 70، 70، 72، 75، 84، 95، 120، 160
میانه = 70
محاسبه L برای چارک اول: 0.25 × 20 = 5. محاسبه L برای چارک سوم: 0.75 × 20 = 15.
عدد 5 یک عدد صحیح است، بنابراین طبق قانون، Q₁ میانگین دادههای پنجم (55) و ششم (59) خواهد بود:
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
در نتیجه برای این مجموعه داده، چارک اول 57، چارک دوم 70 و چارک سوم 73.5 است.
دامنه میانچارکی (Interquartile Range یا IQR) به اختلاف بین چارک سوم (Q₃) و چارک اول (Q₁) گفته میشود. این شاخص نشاندهنده پراکندگی 50 درصد میانی دادههاست و به دادههای پرت مقاوم است. فرمول آن به این شکل است:
IQR = Q₃ - Q₁
در بخش قبل، ما چارک اول و سوم را پیدا کردیم که به ترتیب 57 و 73.5 بودند. حال فقط باید این اعداد را در فرمول جایگذاری کنیم:
IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5
بنابراین، دامنه میانچارکی این مجموعه داده 16.5 است.
با استفاده از این ابزار و تحلیل نظرسنجی قیمتهای پیتزا، لوئیجی میتواند به نتایج ارزشمندی برسد: میانگین و میانه کاملاً بر هم منطبق نبودند، که نشاندهنده چولگی اندکی در دادههاست؛ اما این میزان چندان محسوس نیست. بنابراین او میتواند با اطمینان از هر دو شاخص برای درک قیمت معمول بازار استفاده کند.
اگر لوئیجی بخواهد میانگین قیمت را روی منوی خود اعمال کند، ارقامی مثل 71,900 یا 69,500 روپیه ممکن است در ذهن مشتریان ماندگار نباشد. خوشبختانه، مُد (بیشترین قیمت تکرار شده در بازار) عدد رُند 70,000 روپیه است که انتخابی عالی و استراتژیک برای قیمتگذاری پیتزا مارگاریتای او محسوب میشود.
از سوی دیگر، اگر استراتژی لوئیجی جذب مشتریان اقتصادیتر باشد، میتواند قیمت خود را حول چارک اول تعیین کند؛ یعنی قیمتی حدود 57,000 روپیه. اما تمرکز بر چارک سوم (برای مشتریان لوکسپسند) در این نمونه خاص توصیه نمیشود، چرا که چارک سوم در اینجا نمایانگر خوبی از رفتار اکثریت بازار نیست.