ماشین حساب‌های آماری
ماشین حساب میانگین، میانه، مد


ماشین حساب میانگین، میانه، مد

با این ماشین حساب آماری آنلاین، به سرعت و با دقت میانگین، میانه، مد و دامنه تغییرات مجموعه داده‌های خود را محاسبه کنید. ابزاری ایده‌آل برای ریاضی و آمار.

نتیجه
میانگین x̄ 16.75 نقاط پرت 6, 33, 35
میانه x̃ 15 کوارتیل Q1 12.5
مُد 15، 3 بار ظاهر شد کوارتیل Q2 15
دامنه 29 کوارتیل Q3 16
حداقل 6 دامنه بین چارکی IQR 3.5
حداکثر 35
جمع 201
تعداد n 12

در محاسبه شما خطایی رخ داد.

فهرست مطالب

  1. شاخص‌های گرایش مرکزی
  2. ماشین حساب میانگین
  3. میانگین برای نمونه و جامعه آماری
  4. مثالی از محاسبه میانگین
  5. ماشین حساب میانه
  6. مثالی از محاسبه میانه
  7. تفاوت بین میانگین و میانه
  8. ماشین حساب مد
  9. نمونه محاسبه مُد
  10. شاخص‌های پراکندگی
  11. ماشین حساب دامنه تغییرات
  12. نمونه محاسبه دامنه
  13. ماشین حساب چارک
    1. محاسبه چارک‌ها
  14. مثالی از محاسبه چارک‌ها
  15. ماشین حساب دامنه میان‌چارکی
  16. مثال محاسبه IQR
  17. نتیجه‌گیری

ماشین حساب میانگین، میانه، مد

شاخص‌های گرایش مرکزی

تفسیر جداول و نمودارهای حاصل از داده‌های آماری گاهی در نگاه اول دشوار است. به همین دلیل، ما اغلب به خلاصه‌سازی مجموعه داده‌ها و شناسایی ویژگی‌های کلیدی آن‌ها نیاز داریم تا بتوانیم اطلاعات مفیدتر و کاربردی‌تری از آمار استخراج کنیم.

در علم آمار، از شاخص‌های مختلفی برای خلاصه‌سازی داده‌ها استفاده می‌شود. دسته‌ای از این شاخص‌ها، نقطه مرکزی یا هسته داده‌ها را توصیف می‌کنند که به آن‌ها شاخص‌های گرایش مرکزی می‌گویند. دسته دیگر نشان می‌دهند که داده‌ها تا چه اندازه از هم فاصله دارند و پراکنده‌اند؛ این موارد به عنوان شاخص‌های پراکندگی شناخته می‌شوند. همچنین شاخص‌های دیگری به نام شاخص‌های موقعیت وجود دارند که نشان می‌دهند چه نسبتی از داده‌ها در پایین‌تر از یک مقدار مشخص قرار گرفته‌اند.

هدف اصلی این ماشین حساب آماری، محاسبه شاخص‌های گرایش مرکزی — یعنی میانگین و میانه — است که می‌توانند نماینده مقدار معمول یا نقطه مرکزی در یک مجموعه داده باشند. هدف ثانویه این ابزار، بررسی میزان تغییرپذیری و پراکندگی داده‌ها از طریق محاسبه دامنه تغییرات، چارک‌ها و دامنه میان‌چارکی است.

ماشین حساب میانگین

میانگین حسابی (Mean) از تقسیم مجموع مقادیر بر تعداد کل آن‌ها به دست می‌آید. ساده‌ترین راه برای درک و محاسبه میانگینِ یک نمونه، استفاده از فرمول زیر است:

$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$

فرمول محاسبه میانگین برای کل جامعه آماری به این شکل است:

$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$

در این فرمول‌ها، صورت کسر نشان‌دهنده مجموع تمامی مقادیر موجود در مجموعه داده است و مخرج کسر، تعداد کل مقادیر را نشان می‌دهد.

مهم‌ترین ویژگی استفاده از میانگین حسابی این است که تمامی نقاط داده موجود در مجموعه را در محاسبه دخالت می‌دهد.

با این حال، محدودیت اصلی میانگین، حساسیت بالای آن نسبت به مقادیر بسیار بزرگ یا بسیار کوچک است. به این مقادیر افراطی در علم آمار داده‌های پرت (Outliers) گفته می‌شود که می‌توانند میانگین را به طور قابل‌توجهی دستخوش تغییر کنند.

همچنین به خاطر داشته باشید که میانگین لزوماً یکی از اعداد موجود در خود مجموعه داده نیست؛ بلکه ممکن است مقداری باشد که اصلاً در بین داده‌های اصلی شما وجود نداشته باشد.

میانگین برای نمونه و جامعه آماری

جامعه آماری (Population) شامل کل مجموعه مقادیری است که می‌خواهیم درباره آن‌ها اطلاعات کسب کنیم. نمونه (Sample) شامل گروه کوچک‌تری است که از درون همان جامعه انتخاب شده است.

روش محاسبه میانگین برای نمونه و جامعه کاملاً یکسان است و تنها تفاوت آن‌ها در نمادهای ریاضی به کار رفته است.

اگر x₁, x₂,..., xₙ یک نمونه باشد، میانگین آن به عنوان «میانگین نمونه» شناخته شده و با نماد x̄ (بخوانید ایکس بار) نمایش داده می‌شود. اما میانگین کل جامعه با حرف یونانی 𝜇 (مو) نشان داده می‌شود.

در آمار، ما از حرف کوچک n برای نشان دادن اندازه نمونه و از حرف بزرگ N برای نشان دادن اندازه کل جامعه استفاده می‌کنیم.

مثالی از محاسبه میانگین

بیایید به مثال زیر نگاه کنیم: لوئیجی یک سرآشپز درجه یک و عاشق پیتزا است. او تصمیم گرفته تا پیتزافروشی اختصاصی خود را در جزیره بالی افتتاح کند. لوئیجی برای جذب سرمایه‌گذار، در حال تدوین یک طرح تجاری است و برای ارزیابی عملکرد مالی آینده خود، می‌خواهد میانگین قیمت پیتزا در رستوران‌های مختلف جزیره را به دست آورد.

او یک تحقیق میدانی کوچک درباره قیمت پیتزا مارگاریتا در رستوران‌های بالی انجام داد و لیستی از قیمت‌ها را جمع‌آوری کرد. برای سهولت در محاسبات، بیایید سه صفر آخر اعداد را حذف کنیم و قیمت‌ها را بر حسب هزار وارد کنیم. یعنی عدد 60 در محاسبات ما نشان‌دهنده 60,000 روپیه اندونزی است.

60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70

لوئیجی به تمام پیتزافروشی‌های جزیره سر نزده است؛ بلکه 20 مورد از آن‌ها را به صورت تصادفی انتخاب کرده است. بنابراین، ما در اینجا با یک نمونه آماری سر و کار داریم.

بیایید میانگین این مجموعه داده را با استفاده از فرمول میانگین نمونه محاسبه کنیم:

$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$

پس از جمع اعداد و تقسیم بر 20، به میانگین x̄ = 71.9 می‌رسیم.

تحقیقات لوئیجی نشان می‌دهد که میانگین قیمت یک پیتزا مارگاریتا در بالی برابر با 71,900 روپیه اندونزی است. او اکنون می‌تواند محاسبات مالی خود را بر پایه این قیمت استوار کند.

ماشین حساب میانه

میانه (Median) یک شاخص موقعیتی است که مقدار میانی یک مجموعه داده را پس از مرتب‌سازی (به ترتیب صعودی یا نزولی) نشان می‌دهد.

با محاسبه میانه، ما به دنبال عددی هستیم که مجموعه داده را دقیقاً به دو نیمه برابر تقسیم کند؛ به طوری که نیمی از داده‌ها کمتر از میانه و نیم دیگر بیشتر از آن باشند. به همین دلیل، زمانی که می‌خواهیم میانه را به صورت دستی و بدون ماشین حساب پیدا کنیم، حتماً باید ابتدا مقادیر را از کوچک به بزرگ (یا برعکس) مرتب کنیم.

روش محاسبه میانه به زوج یا فرد بودن تعداد مقادیر (n) در مجموعه داده بستگی دارد.

اگر تعداد کل عناصر فرد باشد (یعنی n یا N یک عدد فرد باشد)، از فرمول زیر استفاده می‌شود:

$$میانه=(\frac{n+1}{2})-امین \ عنصر$$

اما اگر تعداد عناصر زوج باشد (یعنی n یک عدد زوج باشد)، فرمول زیر به کار می‌رود:

$$میانه=\frac{\left[(\frac{n}{2})-امین \ عنصر+(\frac{n}{2}+1)-امین \ عنصر\right]}{2}$$

بزرگ‌ترین مزیت استفاده از میانه این است که کمترین تأثیر را از داده‌های پرت (مقادیر بسیار بالا یا بسیار پایین) می‌پذیرد.

مثالی از محاسبه میانه

برای مجموعه داده بیست‌تایی زیر که پیش‌تر داشتیم:

60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70

می‌توانیم میانه را طی مراحل زیر محاسبه کنیم:

  1. ابتدا داده‌ها را به ترتیب صعودی (از کوچک به بزرگ) مرتب می‌کنیم که نتیجه آن به این شکل است:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

  1. تعداد مقادیر مجموعه داده را مشخص می‌کنیم که در اینجا n = 20 است.

  2. از آنجایی که n زوج است، باید میانگین حسابی دو مقدار میانی را پیدا کنیم. این دو مقدار را با هم جمع کرده و بر 2 تقسیم می‌کنیم.

عدد 20 زوج است. مقادیر میانی در نمونه ما اعداد 69 و 70 هستند (دهمین و یازدهمین عدد). به این ترتیب میانه محاسبه می‌شود:

$$میانه = \frac{69 + 70}{2} = 69.5$$

اگر لوئیجی به جای 20 داده، مجموعه‌ای از 21 داده داشت، مثلاً:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70

ابتدا مقادیر را مرتب می‌کرد:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160

و سپس مقدار موجود در مرکز (جایگاه یازدهم) که همان 70 است را مستقیماً به عنوان میانه انتخاب می‌کرد.

تفاوت بین میانگین و میانه

هر دو مفهوم میانگین و میانه به عنوان شاخص‌های گرایش مرکزی استفاده می‌شوند، اما درک تفاوت‌های ساختاری آن‌ها بسیار مهم است.

تفاوت کلیدی میان این دو در این است که فرمول میانگین تمامی داده‌های موجود در مجموعه را درگیر محاسبات می‌کند؛ در حالی که فرمول میانه تنها بر یک یا دو عدد میانی متمرکز است.

این تفاوت به ویژه در مجموعه‌هایی که دارای یک یا چند عدد به طور غیرطبیعی بزرگ یا کوچک (داده‌های پرت) هستند، اهمیت پیدا می‌کند. در بیشتر مواقع، داده‌های پرت میانگین را به شدت تغییر می‌دهند، اما تأثیر بسیار کمی روی میانه دارند (یا اصلاً تأثیری ندارند).

در علم آمار، اگر مقدار یک شاخص تحت تأثیر مقادیر شدید و پرت قرار نگیرد، می‌گوییم آن شاخص مقاوم (Robust) است. بر این اساس، میانه یک شاخص مقاوم است اما میانگین مقاوم نیست.

میانگین و میانه، نقطه مرکزی داده‌ها را از زوایای متفاوتی اندازه‌گیری می‌کنند. میانگین نقطه‌ای است که وزن داده‌ها در آن به تعادل می‌رسد، اما میانه نقطه‌ای است که 50٪ از مقادیر در یک سمت آن و 50٪ دیگر در سمت مقابل آن قرار می‌گیرند. اگر توزیع داده‌ها کاملاً متقارن باشد، میانگین و میانه دقیقاً با هم برابر خواهند بود.

با این حال، در دنیای واقعی میانگین و میانه معمولاً برابر نیستند.

در برخی مجموعه‌ها ممکن است میانگین کمتر یا بیشتر از میانه باشد. در چنین حالتی می‌گوییم که توزیع داده‌ها دارای چولگی (Skewness) است.

اگر مقدار میانگین کمتر از میانه (در سمت چپ آن) باشد، می‌گوییم توزیع داده‌ها چوله به چپ است. اما اگر میانگین بیشتر از میانه (در سمت راست آن) باشد، توزیع داده‌ها چوله به راست در نظر گرفته می‌شود.

نمی‌توان گفت میانگین شاخص بهتری است یا میانه؛ هر یک ویژگی‌های خاص خود را دارند. با این حال، بسیاری از کارشناسان آمار ترجیح می‌دهند در مواجهه با داده‌های دارای چولگی شدید یا داده‌های پرت، از میانه استفاده کنند، زیرا در این شرایط میانه نماینده بسیار بهتری برای مقدار معمول داده‌هاست.

ماشین حساب مد

مُد یا نَما (Mode)، مقداری در مجموعه داده است که بیشترین فراوانی و تکرار را دارد. به بیان ساده، مد همان داده‌ای است که بیشتر از بقیه در لیست شما دیده می‌شود.

اگر یک مجموعه داده فقط یک مقدار با بیشترین تکرار داشته باشد، به آن توزیع تک‌نما (Unimodal) می‌گویند.

اگر دو مقدار دارای بالاترین فرکانس تکرار یکسان باشند، هر دو عدد به عنوان مد در نظر گرفته می‌شوند و به آن توزیع دونما (Bimodal) می‌گویند.

اگر بیش از دو مقدار با فرکانس بالا و یکسان وجود داشته باشد، به آن مجموعه چندنما (Multimodal) گفته می‌شود.

اگر هیچ یک از داده‌ها تکرار نشوند و فراوانی همه اعداد برابرِ یک باشد، می‌گوییم این مجموعه فاقد مد است. توجه داشته باشید که در این حالت، قرار دادن عدد "صفر" به عنوان مد کاملاً اشتباه است؛ زیرا صفر می‌تواند خود یک مقدار واقعی در بسیاری از داده‌ها (مانند دما) باشد.

مزیت بزرگ مُد این است که پیدا کردن آن بسیار آسان است و به هیچ وجه تحت تأثیر داده‌های پرت قرار نمی‌گیرد. نقطه ضعف اصلی آن نیز این است که گاهی ممکن است یک مجموعه داده اصلاً مُد نداشته باشد و این شاخص اطلاعاتی به ما ندهد.

نمونه محاسبه مُد

برای مجموعه 20 تایی زیر:

60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70

می‌توانیم مُد را به این شکل پیدا کنیم:

ابتدا داده‌ها را از کوچک به بزرگ مرتب می‌کنیم:

42، 45، 50، 53، 55، 59، 59، 60، 60، 69، 70، 70، 70، 70، 72، 75، 84، 95، 120، 160

سپس به دنبال عددی می‌گردیم که بیشترین تکرار را داشته باشد. در اینجا عدد 70 چهار بار تکرار شده که بیشتر از سایر اعداد است. بنابراین، در این مجموعه داده، مُد برابر با 70 است.

اگرچه مُد یک شاخص گرایش مرکزی است، اما همیشه مرکز توزیع را نشان نمی‌دهد (به خصوص در توزیع‌های چوله). مُد می‌تواند بزرگ‌ترین، کوچک‌ترین یا هر مقدار دیگری در بین داده‌ها باشد. برای مثال در مجموعه زیر:

42، 45، 50، 53، 55، 57، 59، 60، 63، 69، 70، 72، 79، 82، 83، 95، 96، 120، 120، 120

در اینجا مُد برابر با 120 است، که به هیچ وجه تمایل مرکزی داده‌ها را منعکس نمی‌کند.

نکته جالب اینجاست که ما می‌توانیم میانگین و میانه را فقط برای «داده‌های کمی و عددی» محاسبه کنیم، اما پیدا کردن مُد هم برای داده‌های کمی و هم برای «داده‌های کیفی و دسته‌ای» امکان‌پذیر است.

به عنوان مثال، آنا به طور متوسط ماهانه 12 بار پیتزا سفارش می‌دهد:

  • 3 بار پیتزای ناپولیتانا،
  • 3 بار پیتزای مارگاریتا،
  • 2 بار پیتزای کالزونه،
  • 1 بار پپرونی،
  • 1 بار مارینارا،
  • 1 بار چهار پنیر،
  • 1 بار کاپرسه.

در این مثال کیفی، ما دو مُد داریم: پیتزای ناپولیتانا و پیتزای مارگاریتا.

شاخص‌های پراکندگی

شاخص‌های پراکندگی (Measures of Dispersion) که به عنوان شاخص‌های تغییرپذیری نیز شناخته می‌شوند، برای اندازه‌گیری میزان پخش‌شدگی داده‌ها به کار می‌روند. این شاخص‌ها نشان می‌دهند که داده‌ها تا چه حد از مقدار مرکزی خود فاصله دارند. ما می‌توانیم این تغییرات را به کمک محاسبه دامنه تغییرات، چارک‌ها و دامنه میان‌چارکی ارزیابی کنیم.

ماشین حساب دامنه تغییرات

دامنه تغییرات (Range) ساده‌ترین شاخص پراکندگی است و تفاوت بین بزرگ‌ترین و کوچک‌ترین عدد در مجموعه داده را نشان می‌دهد. ما می‌توانیم با پیدا کردن مقادیر مینیمم و ماکزیمم، آن را به دست آوریم. فرمول دامنه به این شکل است:

$$دامنه = بزرگ‌ترین\ مقدار - کوچک‌ترین\ مقدار$$

نمونه محاسبه دامنه

در مجموعه 20 تایی قبلی ما:

60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70

دامنه به شکل زیر محاسبه می‌شود:

داده‌ها را به ترتیب صعودی مرتب می‌کنیم:

42، 45، 50، 53، 55، 59، 59، 60، 60، 69، 70، 70، 70، 70، 72، 75، 84، 95، 120، 160

با مشاهده داده‌های مرتب‌شده، بالاترین مقدار 160 و پایین‌ترین مقدار 42 است. حال طبق فرمول:

$$دامنه = بزرگ‌ترین\ مقدار - کوچک‌ترین\ مقدار = 160 - 42 = 118$$

بنابراین، دامنه تغییرات در این مجموعه داده 118 است.

ماشین حساب چارک

چارک‌ها (Quartiles) مقادیری هستند که یک مجموعه داده مرتب‌شده را به وسیله سه نقطه (چارک اول، دوم و سوم) به چهار بخش مساوی تقسیم می‌کنند.

چارک اول (که با Q₁ نشان داده می‌شود)، نقطه‌ای است که 25٪ از داده‌ها کمتر از آن و 75٪ از داده‌ها بیشتر از آن هستند.

چارک دوم (که با Q₂ نشان داده می‌شود)، همان میانه است. این نقطه داده‌ها را دقیقاً به دو قسمت مساوی 50 درصدی تقسیم می‌کند.

چارک سوم (که با Q₃ نشان داده می‌شود)، نقطه‌ای است که 75٪ از داده‌ها کمتر از آن و 25٪ از داده‌ها بیشتر از آن هستند.

محاسبه چارک‌ها

مراحل یافتن چارک‌های یک مجموعه داده:

  1. ابتدا داده‌ها را به ترتیب صعودی (از کوچک به بزرگ) مرتب کنید.

  2. برای یافتن چارک دوم، کافی است میانه را حساب کنید. برای چارک‌های اول و سوم، مراحل زیر را دنبال کنید. تعداد کل داده‌ها یعنی n را مشخص کنید.

  3. برای چارک اول مقدار L = 0.25n و برای چارک سوم مقدار L = 0.75n را محاسبه کنید.

  4. اگر L یک عدد صحیح شد، چارک برابر است با میانگین عددی که در جایگاه L قرار دارد و عددی که در جایگاه L + 1 است.

  5. اگر L عدد صحیح نشد، آن را به سمت بالا (به عدد صحیح بعدی) گرد کنید. چارک شما دقیقاً عددی است که در آن جایگاه (مقدار گرد شده) قرار دارد.

مثالی از محاسبه چارک‌ها

برای همان مجموعه 20 تایی:

60، 60، 84، 45، 59، 70، 42، 59، 53، 70، 69، 70، 120، 160، 95، 50، 75، 55، 72، 70

چارک‌ها را به این صورت محاسبه می‌کنیم:

  1. داده‌های مرتب شده ما به این شکل هستند:

42، 45، 50، 53، 55، 59، 59، 60، 60، 69، 70، 70، 70، 70، 72، 75، 84، 95، 120، 160

  1. از محاسبات بخش‌های قبل می‌دانیم که چارک دوم یا میانه برابر است با:

میانه = 70

  1. محاسبه L برای چارک اول: 0.25 × 20 = 5. محاسبه L برای چارک سوم: 0.75 × 20 = 15.

  2. عدد 5 یک عدد صحیح است، بنابراین طبق قانون، Q₁ میانگین داده‌های پنجم (55) و ششم (59) خواهد بود:

$$Q₁=\frac{55+59}{2}=57$$

  1. عدد 15 نیز صحیح است، پس Q₃ میانگین داده‌های پانزدهم (72) و شانزدهم (75) خواهد بود:

$$Q₃=\frac{72+75}{2}=73.5$$

در نتیجه برای این مجموعه داده، چارک اول 57، چارک دوم 70 و چارک سوم 73.5 است.

ماشین حساب دامنه میان‌چارکی

دامنه میان‌چارکی (Interquartile Range یا IQR) به اختلاف بین چارک سوم (Q₃) و چارک اول (Q₁) گفته می‌شود. این شاخص نشان‌دهنده پراکندگی 50 درصد میانی داده‌هاست و به داده‌های پرت مقاوم است. فرمول آن به این شکل است:

IQR = Q₃ - Q₁

مثال محاسبه IQR

در بخش قبل، ما چارک اول و سوم را پیدا کردیم که به ترتیب 57 و 73.5 بودند. حال فقط باید این اعداد را در فرمول جای‌گذاری کنیم:

IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5

بنابراین، دامنه میان‌چارکی این مجموعه داده 16.5 است.

نتیجه‌گیری

با استفاده از این ابزار و تحلیل نظرسنجی قیمت‌های پیتزا، لوئیجی می‌تواند به نتایج ارزشمندی برسد: میانگین و میانه کاملاً بر هم منطبق نبودند، که نشان‌دهنده چولگی اندکی در داده‌هاست؛ اما این میزان چندان محسوس نیست. بنابراین او می‌تواند با اطمینان از هر دو شاخص برای درک قیمت معمول بازار استفاده کند.

اگر لوئیجی بخواهد میانگین قیمت را روی منوی خود اعمال کند، ارقامی مثل 71,900 یا 69,500 روپیه ممکن است در ذهن مشتریان ماندگار نباشد. خوشبختانه، مُد (بیشترین قیمت تکرار شده در بازار) عدد رُند 70,000 روپیه است که انتخابی عالی و استراتژیک برای قیمت‌گذاری پیتزا مارگاریتای او محسوب می‌شود.

از سوی دیگر، اگر استراتژی لوئیجی جذب مشتریان اقتصادی‌تر باشد، می‌تواند قیمت خود را حول چارک اول تعیین کند؛ یعنی قیمتی حدود 57,000 روپیه. اما تمرکز بر چارک سوم (برای مشتریان لوکس‌پسند) در این نمونه خاص توصیه نمی‌شود، چرا که چارک سوم در اینجا نمایانگر خوبی از رفتار اکثریت بازار نیست.