Результатів не знайдено
Наразі ми не можемо нічого знайти за цим запитом, спробуйте пошукати щось інше.
Точний калькулятор середнього арифметичного, медіани, моди та розмаху. Швидко й легко обчислюйте статистичні показники для будь-якого набору даних онлайн.
| Результат | |||
|---|---|---|---|
| Середнє x̄ | 16.75 | Викиди | 6, 33, 35 |
| Медіана x̃ | 15 | Квартиль Q1 | 12.5 |
| Мода | 15 з’явилося 3 рази | Квартиль Q2 | 15 |
| Розмах | 29 | Квартиль Q3 | 16 |
| Мінімум | 6 | Міжквартильний розмах МКР | 3.5 |
| Максимум | 35 | ||
| Сума | 201 | ||
| Кількість n | 12 | ||
Під час вашого обчислення сталася помилка.
Необроблені (сирі) статистичні дані в таблицях та графіках часто буває складно інтерпретувати з першого погляду. Щоб зробити правильні висновки, потрібно структурувати набори даних і виділити їхні ключові характеристики.
У статистиці для аналізу даних використовують різні метрики. Одні визначають центр набору даних і називаються мірами центральної тенденції. Інші — міри розсіяння (або мінливості) — показують, наскільки розкидані значення. Крім того, міри положення демонструють, яка частка даних є меншою за певне значення.
Головне завдання нашого статистичного онлайн-калькулятора — швидке обчислення мір центральної тенденції: середнього значення, медіани та моди, які представляють типове значення у вашому наборі даних. Додатково цей інструмент допомагає оцінити варіативність даних, розраховуючи розмах, квартилі та міжквартильний розмах (IQR).
Середнє значення (або середнє арифметичне) обчислюється шляхом додавання всіх значень і ділення суми на їхню загальну кількість. Це найпопулярніша метрика для знаходження середнього показника, яка обчислюється за такою формулою для вибірки:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Формула для обчислення середнього значення генеральної сукупності:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
У цих формулах чисельник є сумою всіх значень у наборі даних, а знаменник позначає їхню загальну кількість.
Головна перевага використання середнього арифметичного полягає в тому, що воно враховує кожну точку даних у вашій вибірці.
Проте є й суттєвий недолік: чутливість до екстремальних значень. Аномально високі або низькі числа, відомі як викиди, можуть сильно спотворити результат.
Варто також пам'ятати, що середнє не завжди є реально існуючим числом — обчисленого значення може взагалі не бути у вашому наборі даних.
Генеральна сукупність охоплює абсолютно всі об'єкти дослідження. Вибірка — це менша, але репрезентативна частина, взята з цієї сукупності.
Математичний алгоритм розрахунку середнього значення є однаковим для обох випадків. Різниця полягає лише у статистичних позначеннях.
Якщо x₁, x₂,..., xₙ представляють вибірку, то результат називається вибірковим середнім і позначається символом x̄. Якщо ж обчислюється середнє всієї генеральної сукупності, воно позначається грецькою літерою 𝜇 (мю).
У статистиці прийнято використовувати малу літеру n для позначення розміру вибірки, а велику літеру N — для обсягу генеральної сукупності.
Розгляньмо практичний приклад. Луїджі — шеф-кухар і фанат піци, який планує відкрити нову піцерію на Балі. Щоб залучити інвесторів і скласти бізнес-план, йому потрібно дізнатися середню вартість піци в місцевих ресторанах для прогнозування фінансових показників.
Він проаналізував ціни на піцу «Маргарита» в різних закладах острова і склав набір даних. Для зручності відкинемо три нулі й рахуватимемо в тисячах (наприклад, значення 60 означатиме 60 000 індонезійських рупій — IDR).
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Оскільки Луїджі не зміг відвідати всі піцерії острова, він випадковим чином обрав 20 закладів. Тобто ми працюємо з вибіркою.
Обчислимо середнє значення для цього набору даних за формулою вибіркового середнього:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Отримане середнє значення x̄ = 71,9.
Дослідження Луїджі показує, що 71 900 IDR — це середня ціна «Маргарити» на Балі. Тепер він може спиратися на цей базовий показник у своїх фінансових розрахунках.
Медіана — це структурне середнє значення, яке ділить впорядкований за зростанням або спаданням набір даних рівно навпіл.
Під час обчислення медіани ми шукаємо число точно по центру. Рівно 50% значень будуть меншими за медіану, а інші 50% — більшими. Саме тому для ручного пошуку медіани (без використання калькулятора медіани) числа необхідно попередньо відсортувати.
Алгоритм обчислення дещо відрізняється залежно від того, парною чи непарною є загальна кількість елементів у вашому масиві даних.
Якщо загальна кількість елементів є непарною (тобто n або N — непарне число), використовується така формула:
$$Median=(\frac{n+1}{2})-th \ element$$
Якщо ж кількість елементів парна, застосовується така формула:
$$Median=\frac{\left[(\frac{n}{2})-th \ element+(\frac{n}{2}+1)-th \ element\right]}{2}$$
Головна перевага медіани — її стійкість (робастність) до викидів. На відміну від середнього арифметичного, на медіану практично не впливають аномально високі або вкрай низькі значення.
Візьмемо вибірку Луїджі з двадцяти цін на піцу:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Ми можемо обчислити медіану крок за кроком:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Визначте загальну кількість значень. Тут n = 20.
Якщо n — непарне число, медіана є числом точно по центру. Якщо n — парне, медіана є середнім арифметичним двох центральних значень (додайте їх і поділіть на 2).
Оскільки 20 — парне число, ми беремо два значення посередині.
Центральні числа в нашій відсортованій вибірці — 69 і 70. Ми обчислюємо медіану так:
$$Median = \frac{69 + 70}{2} = 69.5$$
Якби Луїджі зібрав непарну вибірку з 21 значення, наприклад:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Він би відсортував значення:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
І просто вибрав би значення рівно по центру — на 11-й позиції, тобто 70.
Хоча обидва показники є мірами центральної тенденції, для правильного статистичного аналізу критично важливо розуміти різницю між ними.
Фундаментальна відмінність полягає в тому, що середнє арифметичне залежить від кожного числа у наборі даних, тоді як медіана спирається лише на центральне значення (або два центральні).
Ця різниця має вирішальне значення під час роботи з даними, що містять нетипово великі або малі числа (викиди). Викиди суттєво зміщують середнє значення, але майже не впливають на медіану.
У статистиці метрика вважається «стійкою» (робастною), якщо вона не реагує на екстремальні відхилення. Таким чином, медіана — це дуже стійкий показник, а середнє значення ним не є.
Ці дві метрики по-різному визначають «центр». Середнє працює як точка рівноваги («центр мас») усіх даних. Медіана ж є лінією екватора, що ділить вибірку на нижні та верхні 50%. В ідеально симетричному розподілі вони збігаються.
Проте на практиці в реальних даних таке трапляється вкрай рідко.
Якщо середнє і медіана відрізняються, розподіл даних називається асиметричним.
Коли середнє значно менше за медіану, розподіл має лівосторонню (від'ємну) асиметрію. Якщо середнє значно більше за медіану — правосторонню (додатну) асиметрію.
Не існує універсально «кращої» метрики — вони виконують різні завдання. Аналітики даних часто віддають перевагу медіані у випадках сильної асиметрії або наявності значних викидів, оскільки вона дає реалістичніше уявлення про «типове» значення.
Мода — це значення, яке зустрічається в наборі даних найчастіше.
Якщо у вибірці домінує одне значення, вона називається унімодальною.
Якщо два різні числа мають однакову максимальну частоту — обидва вважаються модами, що робить набір бімодальним.
Якщо три або більше значень мають найвищу частоту, кожне з них є модою, і набір даних класифікується як мультимодальний.
Коли всі числа у вибірці унікальні (зустрічаються рівно по одному разу), моди не існує. Зверніть увагу, що «немає моди» — це не те саме, що мода дорівнює нулю. Нуль може бути повноцінною модою, якщо це число найчастіше зустрічається в наборі (наприклад, у статистиці зимових температур).
Головна перевага моди в тому, що її легко обчислити, і вона абсолютно стійка до екстремальних викидів. Основний недолік — у деяких наборах даних її просто може не бути.
Повернімося до нашого списку з двадцяти цін на піцу:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Ми можемо знайти моду за допомогою таких кроків:
Спочатку впорядкуємо масив даних:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Тепер шукаємо число, що повторюється найбільшу кількість разів. У цьому списку число 70 зустрічається чотири рази — частіше, ніж будь-яке інше. Отже, мода дорівнює 70.
Хоча мода і є мірою центральної тенденції, вона не завжди вказує на реальний центр, особливо у сильно асиметричних розподілах. Теоретично мода може бути як найвищим, так і найнижчим значенням вибірки. Наприклад, розглянемо такий масив:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Тут мода — 120. Проте це число очевидно не відображає загальну центральну тенденцію цієї групи.
Цікавий факт: якщо середнє та медіану можна застосовувати лише до числових (кількісних) даних, то мода чудово працює і з якісними (категорійними) даними.
Наприклад, уявіть, що Анна їсть піцу 12 разів на місяць і обирає такі види:
У цьому наборі категорійних даних ми бачимо дві моди: «Неаполітана» та «Маргарита».
Міри розсіяння (або міри мінливості) показують, наскільки «розкидані» дані навколо свого центру. Вони ілюструють ступінь відхилення точок даних від центрального значення. Для аналізу цієї дисперсії найчастіше використовують три ключові показники: розмах, квартилі та міжквартильний розмах (IQR).
Розмах — це найпростіший показник розсіяння. Він визначається як абсолютна різниця між максимальним та мінімальним значеннями у вибірці. Формула максимально проста:
Розмах = Найбільше значення - Найменше значення
Використовуючи наш набір даних щодо 20 цін на піцу:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Щоб швидко знайти екстремальні значення та обчислити розмах, дані краще відсортувати:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Найбільше значення — 160, а найменше — 42. Застосовуємо формулу:
Розмах = найбільше значення - найменше значення = 160 - 42 = 118
Розмах для цієї вибірки становить 118.
Квартилі — це статистичні точки, які розбивають впорядкований масив даних на чотири рівні частини (чверті). Для цього використовують три точки поділу: перший, другий та третій квартилі.
Перший квартиль (Q₁) — це 25-й процентиль. Рівно 25% даних розташовані нижче цього значення, а 75% — вище.
Другий квартиль (Q₂) — це 50-й процентиль, що абсолютно тотожне медіані. Він розсікає вибірку точно навпіл.
Третій квартиль (Q₃) — це 75-й процентиль. Тут 75% даних лежать нижче цього значення, а 25% — вище.
Щоб знайти квартилі набору даних, дотримуйтесь такого алгоритму:
Відсортуйте масив даних за зростанням.
Знайдіть другий квартиль, обчисливши медіану. Для розрахунку першого та третього квартилів перейдіть до наступних кроків, використовуючи n (загальну кількість значень).
Для пошуку позиції першого квартиля обчисліть L = 0.25n. Для позиції третього квартиля обчисліть L = 0.75n.
Якщо L — ціле число, квартиль визначається як середнє арифметичне елемента на позиції L та елемента на позиції L + 1.
Якщо L — не ціле (дробове) число, округліть його в більший бік до найближчого цілого. Квартилем буде значення, що стоїть на цій позиції.
Візьмемо наші ціни на піцу:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Покроковий розрахунок:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Медіана = 70
Знаходимо позицію L для першого квартиля: 0.25 × 20 = 5. І для третього квартиля: 0.75 × 20 = 15.
Оскільки 5 є цілим числом, Q₁ буде середнім арифметичним між 5-м та 6-м значеннями (55 і 59):
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
У підсумку маємо: перший квартиль дорівнює 57, другий (медіана) — 70, а третій квартиль — 73.5.
Міжквартильний розмах (IQR) показує діапазон, у якому знаходяться центральні 50% ваших даних. Це різниця між третім квартилем (Q₃) та першим квартилем (Q₁). IQR вважається надзвичайно стійкою (робастною) мірою статистичного розсіяння і обчислюється за такою формулою:
IQR = Q₃ - Q₁
Оскільки ми вже знайшли значення першого та третього квартилів (57 і 73.5), розрахувати міжквартильний розмах дуже просто — достатньо підставити їх у формулу:
IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5
Міжквартильний розмах цін на піцу становить 16.5.
Проведений статистичний аналіз цін на «Маргариту» дає Луїджі конкретні інсайти для бізнес-планування.
По-перше, середнє значення (71,9) та медіана (69,5) не збігаються. Це вказує на незначну правосторонню асиметрію через наявність на острові кількох дуже дорогих закладів. Однак різниця між показниками мінімальна, тому обидві метрики надійно відображають центральну тенденцію.
Якщо Луїджі планує вийти на ринок із середньою конкурентною ціною, він може взяти за основу будь-яку з цих цифр. Проте цінники на кшталт 71 900 IDR або 69 500 IDR клієнтам буде складно запам'ятати. На щастя, мода вибірки становить рівно 70 000 IDR. Це красиве число лежить точно між середнім і медіаною, що робить його ідеальною і практичною ціновою точкою для маркетингової стратегії Луїджі.
З іншого боку, якби він хотів відкрити бюджетну піцерію, йому варто було б орієнтуватися на перший квартиль — встановити ціну в районі 57 000 IDR. А от спиратися на третій квартиль (73 500 IDR) для створення преміумзакладу в цьому сценарії було б менш ефективно. Верхній сегмент вибірки виявився дещо «розмитим» і не зовсім точно відображає справжній поріг входу в лакшері-сегмент місцевого ринку.