Статистичні Калькулятори
Калькулятор середнього арифметичного, медіани та моди


Калькулятор середнього арифметичного, медіани та моди

Точний калькулятор середнього арифметичного, медіани, моди та розмаху. Швидко й легко обчислюйте статистичні показники для будь-якого набору даних онлайн.

Результат
Середнє x̄ 16.75 Викиди 6, 33, 35
Медіана x̃ 15 Квартиль Q1 12.5
Мода 15 з’явилося 3 рази Квартиль Q2 15
Розмах 29 Квартиль Q3 16
Мінімум 6 Міжквартильний розмах МКР 3.5
Максимум 35
Сума 201
Кількість n 12

Під час вашого обчислення сталася помилка.

Зміст

  1. Міри центральної тенденції
  2. Калькулятор середнього значення
  3. Середнє для вибірки та генеральної сукупності
  4. Приклад обчислення середнього значення
  5. Калькулятор медіани
  6. Приклад обчислення медіани
  7. Різниця між середнім значенням та медіаною
  8. Калькулятор моди
  9. Приклад обчислення моди
  10. Міри розсіяння
  11. Калькулятор розмаху
  12. Приклад обчислення розмаху
  13. Калькулятор квартилів
    1. Обчислення квартилів
  14. Приклад обчислення квартилів
  15. Калькулятор міжквартильного розмаху
  16. Приклад обчислення IQR
  17. Результати

Калькулятор середнього арифметичного, медіани та моди

Міри центральної тенденції

Необроблені (сирі) статистичні дані в таблицях та графіках часто буває складно інтерпретувати з першого погляду. Щоб зробити правильні висновки, потрібно структурувати набори даних і виділити їхні ключові характеристики.

У статистиці для аналізу даних використовують різні метрики. Одні визначають центр набору даних і називаються мірами центральної тенденції. Інші — міри розсіяння (або мінливості) — показують, наскільки розкидані значення. Крім того, міри положення демонструють, яка частка даних є меншою за певне значення.

Головне завдання нашого статистичного онлайн-калькулятора — швидке обчислення мір центральної тенденції: середнього значення, медіани та моди, які представляють типове значення у вашому наборі даних. Додатково цей інструмент допомагає оцінити варіативність даних, розраховуючи розмах, квартилі та міжквартильний розмах (IQR).

Калькулятор середнього значення

Середнє значення (або середнє арифметичне) обчислюється шляхом додавання всіх значень і ділення суми на їхню загальну кількість. Це найпопулярніша метрика для знаходження середнього показника, яка обчислюється за такою формулою для вибірки:

$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$

Формула для обчислення середнього значення генеральної сукупності:

$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$

У цих формулах чисельник є сумою всіх значень у наборі даних, а знаменник позначає їхню загальну кількість.

Головна перевага використання середнього арифметичного полягає в тому, що воно враховує кожну точку даних у вашій вибірці.

Проте є й суттєвий недолік: чутливість до екстремальних значень. Аномально високі або низькі числа, відомі як викиди, можуть сильно спотворити результат.

Варто також пам'ятати, що середнє не завжди є реально існуючим числом — обчисленого значення може взагалі не бути у вашому наборі даних.

Середнє для вибірки та генеральної сукупності

Генеральна сукупність охоплює абсолютно всі об'єкти дослідження. Вибірка — це менша, але репрезентативна частина, взята з цієї сукупності.

Математичний алгоритм розрахунку середнього значення є однаковим для обох випадків. Різниця полягає лише у статистичних позначеннях.

Якщо x₁, x₂,..., xₙ представляють вибірку, то результат називається вибірковим середнім і позначається символом x̄. Якщо ж обчислюється середнє всієї генеральної сукупності, воно позначається грецькою літерою 𝜇 (мю).

У статистиці прийнято використовувати малу літеру n для позначення розміру вибірки, а велику літеру N — для обсягу генеральної сукупності.

Приклад обчислення середнього значення

Розгляньмо практичний приклад. Луїджі — шеф-кухар і фанат піци, який планує відкрити нову піцерію на Балі. Щоб залучити інвесторів і скласти бізнес-план, йому потрібно дізнатися середню вартість піци в місцевих ресторанах для прогнозування фінансових показників.

Він проаналізував ціни на піцу «Маргарита» в різних закладах острова і склав набір даних. Для зручності відкинемо три нулі й рахуватимемо в тисячах (наприклад, значення 60 означатиме 60 000 індонезійських рупій — IDR).

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

Оскільки Луїджі не зміг відвідати всі піцерії острова, він випадковим чином обрав 20 закладів. Тобто ми працюємо з вибіркою.

Обчислимо середнє значення для цього набору даних за формулою вибіркового середнього:

$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$

Отримане середнє значення x̄ = 71,9.

Дослідження Луїджі показує, що 71 900 IDR — це середня ціна «Маргарити» на Балі. Тепер він може спиратися на цей базовий показник у своїх фінансових розрахунках.

Калькулятор медіани

Медіана — це структурне середнє значення, яке ділить впорядкований за зростанням або спаданням набір даних рівно навпіл.

Під час обчислення медіани ми шукаємо число точно по центру. Рівно 50% значень будуть меншими за медіану, а інші 50% — більшими. Саме тому для ручного пошуку медіани (без використання калькулятора медіани) числа необхідно попередньо відсортувати.

Алгоритм обчислення дещо відрізняється залежно від того, парною чи непарною є загальна кількість елементів у вашому масиві даних.

Якщо загальна кількість елементів є непарною (тобто n або N — непарне число), використовується така формула:

$$Median=(\frac{n+1}{2})-th \ element$$

Якщо ж кількість елементів парна, застосовується така формула:

$$Median=\frac{\left[(\frac{n}{2})-th \ element+(\frac{n}{2}+1)-th \ element\right]}{2}$$

Головна перевага медіани — її стійкість (робастність) до викидів. На відміну від середнього арифметичного, на медіану практично не впливають аномально високі або вкрай низькі значення.

Приклад обчислення медіани

Візьмемо вибірку Луїджі з двадцяти цін на піцу:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

Ми можемо обчислити медіану крок за кроком:

  1. Відсортуйте набір даних за зростанням або спаданням. Упорядкований ряд виглядає так:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

  1. Визначте загальну кількість значень. Тут n = 20.

  2. Якщо n — непарне число, медіана є числом точно по центру. Якщо n — парне, медіана є середнім арифметичним двох центральних значень (додайте їх і поділіть на 2).

Оскільки 20 — парне число, ми беремо два значення посередині.

Центральні числа в нашій відсортованій вибірці — 69 і 70. Ми обчислюємо медіану так:

$$Median = \frac{69 + 70}{2} = 69.5$$

Якби Луїджі зібрав непарну вибірку з 21 значення, наприклад:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70

Він би відсортував значення:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160

І просто вибрав би значення рівно по центру — на 11-й позиції, тобто 70.

Різниця між середнім значенням та медіаною

Хоча обидва показники є мірами центральної тенденції, для правильного статистичного аналізу критично важливо розуміти різницю між ними.

Фундаментальна відмінність полягає в тому, що середнє арифметичне залежить від кожного числа у наборі даних, тоді як медіана спирається лише на центральне значення (або два центральні).

Ця різниця має вирішальне значення під час роботи з даними, що містять нетипово великі або малі числа (викиди). Викиди суттєво зміщують середнє значення, але майже не впливають на медіану.

У статистиці метрика вважається «стійкою» (робастною), якщо вона не реагує на екстремальні відхилення. Таким чином, медіана — це дуже стійкий показник, а середнє значення ним не є.

Ці дві метрики по-різному визначають «центр». Середнє працює як точка рівноваги («центр мас») усіх даних. Медіана ж є лінією екватора, що ділить вибірку на нижні та верхні 50%. В ідеально симетричному розподілі вони збігаються.

Проте на практиці в реальних даних таке трапляється вкрай рідко.

Якщо середнє і медіана відрізняються, розподіл даних називається асиметричним.

Коли середнє значно менше за медіану, розподіл має лівосторонню (від'ємну) асиметрію. Якщо середнє значно більше за медіану — правосторонню (додатну) асиметрію.

Не існує універсально «кращої» метрики — вони виконують різні завдання. Аналітики даних часто віддають перевагу медіані у випадках сильної асиметрії або наявності значних викидів, оскільки вона дає реалістичніше уявлення про «типове» значення.

Калькулятор моди

Мода — це значення, яке зустрічається в наборі даних найчастіше.

Якщо у вибірці домінує одне значення, вона називається унімодальною.

Якщо два різні числа мають однакову максимальну частоту — обидва вважаються модами, що робить набір бімодальним.

Якщо три або більше значень мають найвищу частоту, кожне з них є модою, і набір даних класифікується як мультимодальний.

Коли всі числа у вибірці унікальні (зустрічаються рівно по одному разу), моди не існує. Зверніть увагу, що «немає моди» — це не те саме, що мода дорівнює нулю. Нуль може бути повноцінною модою, якщо це число найчастіше зустрічається в наборі (наприклад, у статистиці зимових температур).

Головна перевага моди в тому, що її легко обчислити, і вона абсолютно стійка до екстремальних викидів. Основний недолік — у деяких наборах даних її просто може не бути.

Приклад обчислення моди

Повернімося до нашого списку з двадцяти цін на піцу:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

Ми можемо знайти моду за допомогою таких кроків:

Спочатку впорядкуємо масив даних:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

Тепер шукаємо число, що повторюється найбільшу кількість разів. У цьому списку число 70 зустрічається чотири рази — частіше, ніж будь-яке інше. Отже, мода дорівнює 70.

Хоча мода і є мірою центральної тенденції, вона не завжди вказує на реальний центр, особливо у сильно асиметричних розподілах. Теоретично мода може бути як найвищим, так і найнижчим значенням вибірки. Наприклад, розглянемо такий масив:

42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120

Тут мода — 120. Проте це число очевидно не відображає загальну центральну тенденцію цієї групи.

Цікавий факт: якщо середнє та медіану можна застосовувати лише до числових (кількісних) даних, то мода чудово працює і з якісними (категорійними) даними.

Наприклад, уявіть, що Анна їсть піцу 12 разів на місяць і обирає такі види:

  • 3 рази піца "Неаполітана",
  • 3 рази піца "Маргарита",
  • 2 рази піца "Кальцоне",
  • 1 піца "Пепероні",
  • 1 піца "Маринара",
  • 1 піца "Чотири сири",
  • 1 піца "Капрезе".

У цьому наборі категорійних даних ми бачимо дві моди: «Неаполітана» та «Маргарита».

Міри розсіяння

Міри розсіяння (або міри мінливості) показують, наскільки «розкидані» дані навколо свого центру. Вони ілюструють ступінь відхилення точок даних від центрального значення. Для аналізу цієї дисперсії найчастіше використовують три ключові показники: розмах, квартилі та міжквартильний розмах (IQR).

Калькулятор розмаху

Розмах — це найпростіший показник розсіяння. Він визначається як абсолютна різниця між максимальним та мінімальним значеннями у вибірці. Формула максимально проста:

Розмах = Найбільше значення - Найменше значення

Приклад обчислення розмаху

Використовуючи наш набір даних щодо 20 цін на піцу:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

Щоб швидко знайти екстремальні значення та обчислити розмах, дані краще відсортувати:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

Найбільше значення — 160, а найменше — 42. Застосовуємо формулу:

Розмах = найбільше значення - найменше значення = 160 - 42 = 118

Розмах для цієї вибірки становить 118.

Калькулятор квартилів

Квартилі — це статистичні точки, які розбивають впорядкований масив даних на чотири рівні частини (чверті). Для цього використовують три точки поділу: перший, другий та третій квартилі.

Перший квартиль (Q₁) — це 25-й процентиль. Рівно 25% даних розташовані нижче цього значення, а 75% — вище.

Другий квартиль (Q₂) — це 50-й процентиль, що абсолютно тотожне медіані. Він розсікає вибірку точно навпіл.

Третій квартиль (Q₃) — це 75-й процентиль. Тут 75% даних лежать нижче цього значення, а 25% — вище.

Обчислення квартилів

Щоб знайти квартилі набору даних, дотримуйтесь такого алгоритму:

  1. Відсортуйте масив даних за зростанням.

  2. Знайдіть другий квартиль, обчисливши медіану. Для розрахунку першого та третього квартилів перейдіть до наступних кроків, використовуючи n (загальну кількість значень).

  3. Для пошуку позиції першого квартиля обчисліть L = 0.25n. Для позиції третього квартиля обчисліть L = 0.75n.

  4. Якщо L — ціле число, квартиль визначається як середнє арифметичне елемента на позиції L та елемента на позиції L + 1.

  5. Якщо L — не ціле (дробове) число, округліть його в більший бік до найближчого цілого. Квартилем буде значення, що стоїть на цій позиції.

Приклад обчислення квартилів

Візьмемо наші ціни на піцу:

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

Покроковий розрахунок:

  1. Сортуємо масив за зростанням:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

  1. З попередніх розрахунків медіани ми вже знаємо другий квартиль:

Медіана = 70

  1. Знаходимо позицію L для першого квартиля: 0.25 × 20 = 5. І для третього квартиля: 0.75 × 20 = 15.

  2. Оскільки 5 є цілим числом, Q₁ буде середнім арифметичним між 5-м та 6-м значеннями (55 і 59):

$$Q₁=\frac{55+59}{2}=57$$

  1. Оскільки 15 також є цілим числом, Q₃ — це середнє між 15-м і 16-м значеннями (72 і 75):

$$Q₃=\frac{72+75}{2}=73.5$$

У підсумку маємо: перший квартиль дорівнює 57, другий (медіана) — 70, а третій квартиль — 73.5.

Калькулятор міжквартильного розмаху

Міжквартильний розмах (IQR) показує діапазон, у якому знаходяться центральні 50% ваших даних. Це різниця між третім квартилем (Q₃) та першим квартилем (Q₁). IQR вважається надзвичайно стійкою (робастною) мірою статистичного розсіяння і обчислюється за такою формулою:

IQR = Q₃ - Q₁

Приклад обчислення IQR

Оскільки ми вже знайшли значення першого та третього квартилів (57 і 73.5), розрахувати міжквартильний розмах дуже просто — достатньо підставити їх у формулу:

IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5

Міжквартильний розмах цін на піцу становить 16.5.

Результати

Проведений статистичний аналіз цін на «Маргариту» дає Луїджі конкретні інсайти для бізнес-планування.

По-перше, середнє значення (71,9) та медіана (69,5) не збігаються. Це вказує на незначну правосторонню асиметрію через наявність на острові кількох дуже дорогих закладів. Однак різниця між показниками мінімальна, тому обидві метрики надійно відображають центральну тенденцію.

Якщо Луїджі планує вийти на ринок із середньою конкурентною ціною, він може взяти за основу будь-яку з цих цифр. Проте цінники на кшталт 71 900 IDR або 69 500 IDR клієнтам буде складно запам'ятати. На щастя, мода вибірки становить рівно 70 000 IDR. Це красиве число лежить точно між середнім і медіаною, що робить його ідеальною і практичною ціновою точкою для маркетингової стратегії Луїджі.

З іншого боку, якби він хотів відкрити бюджетну піцерію, йому варто було б орієнтуватися на перший квартиль — встановити ціну в районі 57 000 IDR. А от спиратися на третій квартиль (73 500 IDR) для створення преміумзакладу в цьому сценарії було б менш ефективно. Верхній сегмент вибірки виявився дещо «розмитим» і не зовсім точно відображає справжній поріг входу в лакшері-сегмент місцевого ринку.