평균, 중앙값, 최빈값계산기

빠르고 정확한 평균, 중앙값, 최빈값 계산기입니다. 데이터 세트를 입력하여 산술 평균, 중앙값, 최빈값, 범위를 한 번에 구해보세요. 통계 분석과 데이터 처리에 최적화된 무료 계산 도구입니다.

데이터 세트

쉼표 또는 공백으로 구분된 숫자들

결과
평균 x̄	16.75	이상치	6, 33, 35
중앙값 x̃	15	사분위 Q1	12.5
최빈값	15가 3번 나타났다	사분위 Q2	15
범위	29	사분위 Q3	16
최소	6	사분위 범위 IQR	3.5
최대	35
합계	201
개수 n	12

중심경향성 척도 (대푯값)

통계 데이터의 표와 그래프를 단순히 눈으로만 보고 해석하는 것은 매우 어려울 수 있습니다. 따라서 데이터 세트를 요약하고 주요 특성을 파악하여, 통계에서 더욱 유용한 통찰력을 얻어내는 과정이 필수적입니다.

통계학에서는 데이터를 요약하기 위해 다양한 척도를 사용합니다. 데이터의 중심 위치를 나타내는 척도를 '중심경향성 척도(대푯값)'라고 합니다. 반면, 데이터가 얼마나 넓게 퍼져 있는지를 나타내는 척도는 '산포도(분산 척도)'라고 부릅니다. 또한 특정 값보다 작은 데이터의 비율을 나타내는 '위치 척도'도 존재합니다.

이 통계 계산기의 주요 목적은 데이터 세트의 전형적이거나 중심이 되는 값을 나타내는 대푯값, 즉 평균과 중앙값을 빠르고 정확하게 계산하는 것입니다. 부차적으로는 데이터의 변동성을 파악할 수 있도록 범위, 사분위수, 그리고 사분위수 범위(IQR)를 계산하여 데이터 세트의 산포도를 결정하는 기능도 제공합니다.

평균 계산기

평균(Mean)은 모든 데이터 값의 합을 전체 데이터의 개수로 나눈 값입니다. 표본(Sample)의 평균을 계산하는 공식은 가장 이해하기 쉽고 널리 사용되며, 다음과 같습니다:

$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$

모집단(Population)의 평균을 구하는 공식은 다음과 같습니다:

$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$

여기서 분자는 데이터 세트에 있는 모든 값의 합을 나타내며, 분모는 데이터 세트의 총 개수를 의미합니다.

산술 평균의 가장 큰 특징은 데이터 세트에 포함된 모든 개별 데이터 포인트를 계산에 반영한다는 점입니다.

그러나 평균의 주요 한계점은 너무 크거나 작은 극단적인 값에 매우 민감하다는 것입니다. 이러한 값들을 '이상치(Outlier)'라고 부르며, 이상치는 평균값에 매우 큰 영향을 미칩니다.

또한, 계산된 평균값이 반드시 해당 데이터 세트를 대표하는 전형적인 값이 아닐 수도 있다는 점에 유의해야 합니다. 심지어 평균값과 정확히 일치하는 데이터가 실제 데이터 세트 내에 단 하나도 존재하지 않을 수도 있습니다.

표본 평균과 모집단 평균

모집단(Population)은 우리가 분석하고자 하는 대상의 전체 데이터 집합을 의미합니다. 표본(Sample)은 이 모집단에서 추출한 더 작은 규모의 그룹을 뜻합니다.

표본과 모집단의 평균을 계산하는 방법은 수학적으로 동일합니다. 다만 이를 지칭하는 명칭과 기호가 다릅니다.

x₁, x₂,..., xₙ가 표본인 경우, 이들의 평균은 '표본 평균'이라 부르며 기호 x̄(엑스바)로 나타냅니다. 반면, 모집단의 평균은 '모평균'이라 하며 그리스 문자 𝜇(뮤)로 표시합니다.

통계학에서는 표본의 크기를 나타낼 때 소문자 n을 사용하고, 모집단의 크기를 나타낼 때는 대문자 N을 사용합니다.

평균 계산 예시

다음 예시를 살펴봅시다: 일류 셰프이자 피자 애호가인 루이지는 발리에 자신의 피자 전문점을 열기로 결심했습니다. 투자자를 유치하기 위해 사업 계획서를 작성하던 그는, 미래의 재무 성과를 평가할 목적으로 발리 섬 내 다른 레스토랑들의 평균 피자 가격을 조사하고자 합니다.

그는 발리의 여러 레스토랑을 대상으로 마르게리타 피자 가격을 조사하여 데이터 세트를 수집했습니다. 계산을 간단하게 하기 위해 마지막 세 자리를 생략하고 천 단위의 숫자로 가격을 표시하겠습니다. 즉, 아래 계산에서 60은 60,000 인도네시아 루피아(IDR)를 의미합니다.

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

루이지는 발리에 있는 모든 피자 전문점을 조사한 것이 아니라, 무작위로 20곳을 선택했습니다. 따라서 우리는 모집단이 아닌 '표본'을 다루고 있습니다.

다음 공식을 사용하여 이 데이터 세트의 평균값을 계산해 봅시다:

$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$

계산 결과, 표본 평균 x̄ = 71.9를 얻을 수 있습니다.

루이지의 조사에 따르면, 발리에서 마르게리타 피자의 평균 가격은 71,900 인도네시아 루피아입니다. 이제 그는 이 평균 가격을 바탕으로 사업의 재무적인 계산을 진행할 수 있습니다.

중앙값 계산기

중앙값(Median)은 데이터 세트를 오름차순이나 내림차순으로 정렬했을 때, 정확히 정중앙에 위치하는 값을 나타내는 위치 척도입니다.

중앙값을 계산한다는 것은 전체 데이터 세트를 정확히 반으로 나누는 기준 숫자를 찾는 과정입니다. 데이터의 절반은 중앙값보다 작고, 나머지 절반은 중앙값보다 큽니다. 이것이 바로 우리가 중앙값 계산기 없이 수동으로 값을 찾을 때, 반드시 먼저 데이터를 오름차순 또는 내림차순으로 정렬해야 하는 이유입니다.

중앙값을 구하는 방법은 데이터 세트에 포함된 값의 개수가 홀수인지 짝수인지에 따라 달라집니다.

총 데이터 개수가 홀수인 경우, 즉 n이나 N이 홀수인 경우 다음 공식을 적용합니다:

$$중앙값=(\frac{n+1}{2})-번째 \ 요소$$

반면 데이터 개수가 짝수인 경우, 즉 n이 짝수인 경우 다음 공식을 사용합니다:

$$중앙값=\frac{\left[(\frac{n}{2})-번째 \ 요소+(\frac{n}{2}+1)-번째 \ 요소\right]}{2}$$

중앙값을 대푯값으로 사용할 때의 가장 큰 장점은, 비정상적으로 높거나 낮은 극단적인 값(이상치)의 영향을 거의 받지 않는다는 것입니다.

중앙값 계산 예시

20개의 데이터 값이 다음과 같이 주어졌을 때,

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

우리는 다음과 같은 단계로 중앙값을 계산할 수 있습니다:

데이터 세트를 오름차순 또는 내림차순으로 정렬합니다. 오름차순으로 정렬한 결과는 다음과 같습니다:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

데이터 세트의 총 개수를 확인합니다. 여기서는 n = 20입니다.
n이 홀수인 경우 정중앙에 있는 값을 중앙값으로 선택하고, n이 짝수인 경우에는 중앙에 위치한 두 값의 산술 평균을 구합니다. 즉, 두 값을 더한 뒤 2로 나눕니다.

20은 짝수입니다.

우리 표본의 중앙에 위치한 두 값은 69와 70입니다. 따라서 다음과 같이 중앙값을 구합니다:

$$중앙값 = \frac{69 + 70}{2} = 69.5$$

만약 루이지가 다음과 같이 21개의 데이터 값을 가지고 있다면 어떨까요? 예를 들어,

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70

마찬가지로 값을 크기순으로 나열합니다:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160

이 경우 데이터 개수가 홀수이므로, 정확히 11번째 위치에 있는 값인 70을 중앙값으로 선택하면 됩니다.

평균과 중앙값의 차이점

평균과 중앙값은 모두 데이터의 중심을 나타내는 중심경향성 척도로 널리 사용됩니다. 하지만 이 둘이 어떤 측면에서 다른지 명확히 이해하는 것이 중요합니다.

평균과 중앙값의 가장 중요한 차이점 중 하나는 계산 방식입니다. 평균은 데이터 세트 내의 '모든' 값을 포함하여 계산하지만, 중앙값은 정렬된 데이터의 '가운데 위치한 한두 개의 숫자'에만 의존합니다.

이는 특별히 크거나 작은 숫자가 포함된 데이터 세트에서 큰 차이를 만듭니다. 이러한 숫자를 '이상치(Outlier)'라고 부릅니다. 대부분의 경우 이상치는 평균값을 크게 왜곡시키지만, 중앙값에는 거의 또는 전혀 영향을 미치지 않습니다.

통계학에서는 특정 척도가 데이터 세트의 극단적인 값에 의해 큰 영향을 받지 않을 때, 그 척도가 '저항성(Resistance)'을 갖는다고 표현합니다. 따라서 우리는 중앙값이 이상치에 대한 저항성이 강한 반면, 평균은 그렇지 않다는 결론을 내릴 수 있습니다.

또한, 평균과 중앙값은 데이터 세트의 중심을 서로 다른 방식으로 측정합니다. 평균은 데이터 세트의 무게중심, 즉 물리적인 균형이 이루어지는 지점과 같습니다. 반면 중앙값은 수량을 기준으로 한쪽에 데이터의 50%, 다른 쪽에 나머지 50%를 분리하는 기준선입니다. 데이터 분포가 완벽히 대칭적일 때 평균과 중앙값은 동일합니다.

그러나 모든 데이터에서 평균과 중앙값이 일치하는 것은 아닙니다.

어떤 데이터 세트에서는 평균이 중앙값보다 작을 수도 있고, 반대로 중앙값이 평균보다 작을 수도 있습니다. 이러한 형태를 띠는 데이터 분포를 '비대칭 분포' 또는 '치우친(Skewed) 분포'라고 합니다.

평균값이 중앙값보다 작으면 데이터 분포의 꼬리가 왼쪽으로 길어지며, 이를 '왼쪽으로 치우친(Left-skewed) 분포'라고 합니다. 반대로 평균이 중앙값보다 크면 오른쪽으로 꼬리가 길어지며, 이를 '오른쪽으로 치우친(Right-skewed) 분포'라고 합니다.

평균과 중앙값 중 어느 것이 중심경향성 척도로서 항상 더 낫다고 단정 지을 수는 없습니다. 두 척도는 서로 다른 관점에서 데이터의 중심을 측정할 뿐입니다. 다만, 데이터 분포가 심하게 치우쳐 있거나 극단적인 이상치가 포함된 경우, 많은 통계 전문가들은 데이터의 전형적인 특성을 더 잘 대변하는 '중앙값'을 사용하는 것을 선호합니다.

최빈값 계산기

최빈값(Mode)은 데이터 세트에서 가장 빈번하게, 즉 가장 많이 나타나는 값을 뜻합니다.

데이터 세트 내에서 다른 어떤 값보다 자주 등장하는 단일 값이 존재할 경우, 해당 데이터 세트는 '단일 최빈값(Unimodal)'을 가진다고 합니다.

반면, 동일하게 가장 높은 빈도를 보이는 값이 두 개인 경우, 두 값 모두 최빈값으로 인정되며 이러한 데이터 세트를 '이봉(Bimodal) 분포'라고 부릅니다.

마찬가지로, 최고 빈도를 가진 값이 두 개 이상인 경우에도 해당 값들은 모두 최빈값으로 사용되며, 이를 '다봉(Multimodal) 분포'라고 합니다.

만약 데이터 세트 내의 모든 값이 단 한 번씩만 나타난다면, 해당 데이터 세트에는 최빈값이 '없다'고 표현합니다. 이때 최빈값이 '0'이라고 말하는 것은 통계적으로 정확하지 않습니다. 왜냐하면 온도 데이터 등에서는 0이라는 숫자 자체가 실제로 유효한 측정값일 수 있기 때문입니다.

최빈값을 계산하는 주요 장점은 직관적으로 찾기 가장 쉽고, 극단적인 이상치의 영향을 전혀 받지 않는다는 점입니다. 최빈값 계산의 단점은 특정 상황이나 일부 데이터 세트에서는 최빈값이 아예 존재하지 않을 수도 있다는 점입니다.

최빈값 계산 예시

20개의 데이터 값이 다음과 같이 주어졌을 때,

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

우리는 다음과 같은 방법으로 최빈값을 찾을 수 있습니다:

먼저 데이터 세트를 오름차순 또는 내림차순으로 배열합니다. 오름차순으로 정렬한 결과는 다음과 같습니다:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

다음으로, 가장 많이 반복된 값을 찾습니다. 이 데이터 세트에서 가장 자주 등장한 값은 70입니다. 따라서 주어진 데이터 세트의 최빈값은 70이 됩니다.

최빈값은 중심경향성의 척도 중 하나이지만, 분포가 크게 치우친 경우에는 항상 데이터의 중심을 정확히 반영하지는 않을 수도 있습니다. 최빈값은 데이터 세트에서 가장 큰 값이 될 수도, 가장 작은 값이 될 수도 있으며, 혹은 무작위의 다른 값일 수도 있습니다. 예를 들어, 데이터 세트가 다음과 같은 숫자로 이루어져 있다고 가정해 보겠습니다:

42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120

이 경우 최빈값은 120이 됩니다. 이처럼 최빈값이 데이터의 실질적인 중심경향성을 전혀 반영하지 못하는 상황도 발생할 수 있습니다.

흥미로운 사실은, 평균과 중앙값은 오직 수치로 표현되는 정량적 데이터에 대해서만 계산할 수 있는 반면, 최빈값은 정량적 데이터뿐만 아니라 정성적(범주형) 데이터에 대해서도 도출할 수 있다는 점입니다.

예를 들어, 안나는 한 달에 평균적으로 12번 피자를 먹으며 그 종류는 다음과 같습니다:

나폴리타나 피자 3번,
마르게리타 피자 3번,
칼초네 피자 2번,
페페로니 피자 1번,
마리나라 피자 1번,
포치즈 피자 1번,
카프레제 피자 1번.

이 경우, 우리는 질적 데이터에 대한 두 개의 최빈값, 즉 '나폴리타나 피자'와 '마르게리타 피자'를 가질 수 있습니다.

산포도 (분산 척도)

산포도(Measures of Dispersion)는 변동성 척도라고도 불리며, 데이터 세트 내의 데이터가 어떻게 분포되어 있는지, 혹은 얼마나 넓게 흩어져 있는지를 파악하는 데 사용됩니다. 데이터 세트의 변동성을 검토하기 위해 주로 범위, 사분위수, 그리고 사분위수 범위를 사용합니다.

범위 계산기

데이터 세트의 범위(Range)는 해당 데이터 세트 내에서 가장 큰 값(최대값)과 가장 작은 값(최소값)의 차이를 의미합니다. 데이터 세트의 최대 및 최소값을 확인하기만 하면 쉽게 계산할 수 있습니다. 범위를 계산하는 공식은 다음과 같습니다:

$$범위 = 최대값 - 최소값$$

범위 계산 예시

20개의 데이터 값이 다음과 같이 주어졌을 때,

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

우리는 다음과 같은 방법으로 범위를 계산할 수 있습니다:

데이터 세트를 오름차순 또는 내림차순으로 배열합니다. 오름차순으로 정렬한 결과는 다음과 같습니다:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

정렬된 데이터를 보면 가장 높은 값(최대값)은 160이고, 가장 낮은 값(최소값)은 42입니다. 따라서 범위를 구하면:

$$범위 = 최대값 - 최소값 = 160 - 42 = 118$$

결과적으로 이 데이터 세트의 범위는 118입니다.

사분위수 계산기

사분위수(Quartiles)는 전체 데이터 세트를 오름차순으로 정렬했을 때, 데이터를 4등분하는 세 개의 기준점(제1사분위수, 제2사분위수, 제3사분위수)을 의미합니다.

제1사분위수는 Q₁으로 표시하며, 전체 데이터의 하위 25%가 이 값 아래에 위치하고 나머지 75%가 이 값 위에 분포하는 기준점입니다.

제2사분위수는 Q₂로 표시하며, 중앙값(Median)과 완전히 동일한 개념입니다. 이는 데이터 세트를 정확히 반으로 나누어, 하위 50%의 값은 이 값보다 작고 상위 50%의 값은 이 값보다 크도록 합니다.

제3사분위수는 Q₃로 표시하며, 전체 데이터의 하위 75%가 이 값 아래에 위치하고 나머지 25%만이 이 값 위에 존재하는 기준점입니다.

사분위수 계산 방법

데이터 세트의 사분위수를 계산하는 절차는 다음과 같습니다:

모든 데이터를 오름차순으로 정렬합니다.
제2사분위수, 즉 중앙값을 가장 먼저 계산합니다. 그다음 제1사분위수와 제3사분위수를 구하기 위해 데이터 세트의 총 개수인 n을 확인합니다.
제1사분위수의 위치를 찾기 위해 L = 0.25n을 계산합니다. 제3사분위수의 위치를 찾기 위해서는 L = 0.75n을 계산합니다.
만약 계산된 L이 정수라면, 해당 사분위수는 L번째 위치의 값과 L + 1번째 위치의 값의 평균이 됩니다.
만약 L이 정수가 아니라면, 값을 무조건 다음으로 큰 정수로 올림 처리합니다. 사분위수는 이렇게 올림 된 정수 위치에 해당하는 데이터 값이 됩니다.

사분위수 계산 예시

20개의 데이터 값이 다음과 같이 주어졌을 때,

60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70

우리는 다음과 같은 단계로 사분위수를 계산할 수 있습니다:

데이터 세트를 오름차순 또는 내림차순으로 정렬합니다. 오름차순으로 정렬한 결과는 다음과 같습니다:

42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160

이전 계산을 통해 우리는 이미 중앙값을 알고 있습니다:

중앙값 = 70

제1사분위수를 위한 위치 L: 0.25 × 20 = 5. 제3사분위수를 위한 위치 L: 0.75 × 20 = 15.
5는 정수이므로, 이 예시에서 Q₁의 값은 5번째와 6번째 값의 평균이 됩니다:

$$Q₁=\frac{55+59}{2}=57$$

15 역시 정수이므로, 우리 예시의 Q₃는 15번째와 16번째 값의 평균이 됩니다:

$$Q₃=\frac{72+75}{2}=73.5$$

따라서, 이 데이터 세트의 제1사분위수는 57, 제2사분위수(중앙값)는 70, 제3사분위수는 73.5입니다.

사분위수 범위(IQR) 계산기

사분위수 범위(IQR, Interquartile Range)는 데이터 세트의 제3사분위수(Q₃)와 제1사분위수(Q₁) 사이의 차이를 나타내는 통계량입니다. 이는 데이터 중간 50%의 변동성을 보여주는 유용한 산포도 척도이며, 다음과 같이 계산할 수 있습니다:

IQR = Q₃ - Q₁

IQR 계산 예시

이전 섹션에서 우리는 이미 제1사분위수와 제3사분위수를 계산했습니다. 그 값들은 각각 57과 73.5입니다. 이제 해야 할 일은 공식에 이 값들을 대입하는 것뿐입니다.

IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5

따라서, 이 데이터 세트의 사분위수 범위는 16.5입니다.

최종 결과 해석

요약하자면, 루이지가 발리에서 조사한 마르게리타 피자 가격의 소규모 표본 데이터를 통해 그는 다음과 같은 유용한 결론을 내릴 수 있습니다: 평균과 중앙값이 완전히 일치하지는 않았으며, 데이터 분포에 약간의 왜곡(치우침)이 존재합니다. 하지만 그 차이가 매우 크거나 눈에 띄게 두드러지지는 않습니다. 따라서 이 경우에는 평균과 중앙값 모두 데이터의 중심경향성을 측정하는 데 적절하게 사용될 수 있습니다.

루이지가 마르게리타 피자의 일반적인 가격 수준을 결정하고자 한다면, 계산된 평균이나 중앙값을 고려할 수 있습니다. 그러나 현실적으로 71,900 IDR 또는 69,500 IDR과 같은 가격은 고객이 기억하거나 메뉴판에 표기하기에 그리 편리한 숫자가 아닐 수 있습니다. 다행히도 마르게리타 피자 가격의 최빈값은 이 범위 내에 있는 70,000 IDR이었습니다. 이 수치는 루이지가 자신의 피자 전문점 가격 전략에 바로 적용하기에 매우 직관적이고 편리한 숫자입니다.

만약 루이지가 경제성을 중시하고 더 저렴한 가격을 찾는 타겟 고객층을 위해 피자 전문점을 열 계획이라면, 그는 제1사분위수 값에 주목해야 합니다. 즉, 대략 57,000 인도네시아 루피아(IDR) 수준으로 가격을 설정할 수 있습니다. 반대로 더 고급스럽고 요구 조건이 까다로운 고객을 타겟으로 가격을 결정할 때 제3사분위수를 기준점으로 삼는 것은 현명하지 않습니다. 왜냐하면 제3사분위수 이상의 높은 가격대는 발리 피자 시장의 보편적인 상황을 대표하는 가격이 아니기 때문입니다.

평균, 중앙값, 최빈값계산기

목차

중심경향성 척도 (대푯값)

평균 계산기

표본 평균과 모집단 평균

평균 계산 예시

중앙값 계산기

중앙값 계산 예시

평균과 중앙값의 차이점

최빈값 계산기

최빈값 계산 예시

산포도 (분산 척도)

범위 계산기

범위 계산 예시

사분위수 계산기

사분위수 계산 방법

사분위수 계산 예시

사분위수 범위(IQR) 계산기

IQR 계산 예시

최종 결과 해석