結果が見つかりません
現在、その用語では何も見つかりません。他の検索を試してください。
数値を入力するだけで、データの平均値、中央値、最頻値(モード)、範囲を瞬時に算出する無料の統計計算機です。学校の課題、ビジネスのデータ分析、統計学習の効率化にぜひご活用ください。正確な代表値を誰でも簡単に求められます。
| 結果 | |||
|---|---|---|---|
| 平均 x̄ | 16.75 | 外れ値 | 6, 33, 35 |
| 中央値 x̃ | 15 | 四分位数 Q1 | 12.5 |
| 最頻値 | 15は3回現れた | 四分位数 Q2 | 15 |
| 範囲 | 29 | 四分位数 Q3 | 16 |
| 最小 | 6 | 四分位範囲 IQR | 3.5 |
| 最大 | 35 | ||
| 合計 | 201 | ||
| カウント n | 12 | ||
計算にエラーがありました。
統計データの表やグラフは、一見しただけでは解釈が難しい場合があります。統計からより有用な情報を引き出すためには、データセットを要約し、重要な特徴を特定することが不可欠です。
統計学では、データを要約するためにさまざまな尺度が用いられます。その中にはデータの「中心」を示すものがあり、これらは「中心傾向の尺度(代表値)」と呼ばれます。また、データの値がどれほど散らばっているかを示すものは「分散の尺度(散布度)」と呼ばれます。「位置の尺度」と呼ばれるものは、特定の値よりも小さいデータの割合を明らかにします。
この計算機(電卓ツール)の主な目的は、データセットの典型的な値や中心的な値を表す中心傾向の尺度である「平均」と「中央値」を計算することです。さらに、もう一つの目的として「範囲(レンジ)」、「四分位数」、および「四分位範囲(IQR)」を計算し、データセットのばらつき(変動の程度)を把握することも可能です。
平均(算術平均)は、すべての値の合計を値の総数で割ったものです。サンプルの平均は、以下の式を用いることで最も簡単に理解し、計算することができます。
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
母集団の平均を求める式は次のとおりです。
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
ここで、分子はデータセット内のすべての値の合計を表し、分母はデータセットに含まれる値の総数を表します。
算術平均の最大の特徴は、データセット内のすべてのデータポイントを計算に含める点です。
一方で、平均の主な欠点は、極端に大きい値や小さい値(極値)の影響を受けやすいことです。このような外れ値(アウトライアー)が存在すると、平均値は大きく変動してしまいます。
また、平均値は必ずしもデータの「典型的な値」とは限らないことにも注意が必要です。データセット内に実際には存在しない数値が平均値となることもあります。
「母集団」とは、情報を得たい対象となるすべての値の集合全体を指します。「サンプル(標本)」は、その母集団から抽出された一部の小さなグループを指します。
平均値の計算方法は、サンプルでも母集団でも同じですが、使用される記号(表記)が異なります。
x₁, x₂,..., xₙ がサンプルの場合、その平均は「サンプル平均(標本平均)」と呼ばれ、記号 x̄(エックスバー)で表されます。母集団の平均はギリシャ文字の 𝜇(ミュー)で表されます。
統計学では通常、小文字の n を使用してサンプルサイズを示し、大文字の N を使用して母集団サイズを示します。
次の例を見てみましょう。一流のシェフでありピザ愛好家でもあるルイージは、バリ島にピザ屋をオープンすることにしました。投資家を募るための事業計画書を作成するにあたり、将来の財務実績を評価するため、バリ島のさまざまなレストランにおけるピザの平均価格を調べたいと考えています。
彼はバリ島のレストランでマルゲリータピザの価格について小規模な調査を行い、データセットを作成しました。計算を簡単にするため、下3桁のゼロを省略し、千単位の数値で表すことにします。つまり、計算上の 60 は 60,000 インドネシアルピア(IDR)を意味します。
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
ルイージは島内のすべてのピザ屋を調査したわけではなく、ランダムに20店舗を選びました。したがって、これはサンプル(標本)データを扱っていることになります。 先ほどの式を使用して、このデータセットの平均値を計算してみましょう。
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
計算の結果、平均は x̄ = 71.9 となります。
ルイージの調査によれば、バリ島におけるマルゲリータピザの平均価格は 71,900 インドネシアルピアです。これで、彼はこの価格を基準として事業計画の計算を進めることができます。
中央値(メジアン)は、データセットを昇順または降順に並べたときに、ちょうど中央に位置する値を表す位置の尺度です。
中央値を計算する目的は、データセットを正確に半分に分割する数値を見つけることです。データ値の半分は中央値より小さく、もう半分は中央値より大きくなります。そのため、中央値計算機を使わずに手動で中央値を求める場合は、まずデータを昇順または降順に並べ替える必要があります。
中央値の計算方法は、データセット内の値の数(要素数)が偶数か奇数かによって異なります。
要素の総数が奇数の場合(つまり n または N が奇数の場合)、次の式が適用されます。
$$中央値=(\frac{n+1}{2})番目の要素$$
ただし、要素の数が偶数の場合(つまり n が偶数である場合)は、次の式が使用されます。
$$中央値=\frac{\left[(\frac{n}{2})番目の要素+(\frac{n}{2}+1)番目の要素\right]}{2}$$
中央値を使用する最大のメリットは、極端に高い値や低い値(外れ値)の影響をほとんど受けない点です。
先ほどの20個の値のセットを見てみましょう。
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
中央値は次のように計算できます。
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
データセット内の値の数を確認します。n = 20 です。
n が奇数の場合、データの中央の値を中央値とします。n が偶数の場合、中央にある2つの値の算術平均(2つの値を足して2で割る)を求めます。
20は偶数です。 サンプルの中心にある2つの値は、69と70です。したがって、中央値は次のように求められます。
$$中央値 = \frac{69 + 70}{2} = 69.5$$
仮にルイージのデータセットが21個だった場合を考えてみましょう。例えば次のようなデータです。
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
並べ替えると以下のようになります。
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
この場合、中央に位置する11番目の値、すなわち 70 が中央値となります。
平均と中央値は、どちらも中心傾向の尺度として広く使用されています。しかし、両者の違いを正確に理解しておくことが重要です。
決定的な違いの1つは、平均の計算式がデータセット内の「すべての値」を使用するのに対し、中央値は「中央にある1つまたは2つの数値のみ」に依存する点です。
これは、1つ以上の数値が異常に大きい、あるいは異常に小さいデータセットにおいて特に重要になります。このような異常値は外れ値と呼ばれ、平均には大きな影響を与えますが、中央値にはほとんど、あるいはまったく影響を与えません。
統計学では、極端な値の影響を受けにくい尺度のことを「頑健(ロバスト)である」と表現します。したがって、中央値は頑健な尺度であり、平均は頑健ではないと言えます。
平均と中央値は、データセットの「中心」を異なるアプローチで測定します。平均はデータの「重心(バランスが取れるポイント)」です。中央値は、データをちょうど50%ずつに分割する境界値です。データセットが完全に対称に分布している場合、平均と中央値は等しくなります。
しかし、実際のデータでは平均と中央値が一致しないことがよくあります。
データセットによっては、平均が中央値より小さくなったり、逆に平均が中央値より大きくなったりします。このような場合、データセットは「歪んでいる(スキューがある)」と言われます。
平均値が中央値よりも左(小さい)にある場合、データセットは「左に歪んでいる(負の歪み)」と言います。平均値が中央値よりも右(大きい)にある場合、データセットは「右に歪んでいる(正の歪み)」と言います。 平均も中央値も、どちらが優れているというわけではありません。それぞれ異なる方法で中心を測定しているだけです。専門家の中には、データが大きく歪んでいる場合や外れ値が含まれている場合には、より典型的な値を表す「中央値」を使用することを好む人もいます。
モード(最頻値)は、データセット内で最も頻繁に出現する値のことです。
最も頻繁に出現する値が1つだけの場合、そのデータセットは「単峰性(ユニモーダル)」と呼ばれます。
同じ最大出現回数を持つ値が2つある場合、両方の値がモードと見なされ、データセットは「二峰性(バイモーダル)」と呼ばれます。
同じ最大出現回数を持つ値が3つ以上ある場合、それぞれの値がモードとして扱われ、データセットは「多峰性(マルチモーダル)」と見なされます。
もし、複数回出現する値が1つもない(すべての値が1回しか出現しない)場合、そのデータセットには「モードがない」と表現されます。この場合、「モードがゼロ(0)である」と言うのは間違いです。温度の測定データなどにおいては、「0」そのものが実際のデータ値として意味を持つためです。
モードを計算する主な利点は、見つけやすく、極端な値(外れ値)の影響を受けないことです。モード計算の欠点としては、特定の状況下でデータセットにモードが存在しない可能性があることが挙げられます。
先ほどの20個の値のセットを見てみましょう。
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
モードは次のように見つけることができます。
データセットを昇順または降順に並べ替えます。ここでは昇順にします。
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
次に、最も多く繰り返されている値を探します。ここでは、「70」が最も多く(4回)出現しています。したがって、このデータセットのモード(最頻値)は 70 です。
モードは中心傾向の尺度として分類されますが、常にデータの中心を表すわけではありません。モードはデータセットの最大値、最小値、またはその他の任意の値になる可能性があります。例えば、次のようなデータセットを考えてみましょう。
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
この場合、モードは 120 となりますが、これはデータの中心的な傾向を反映しているとは言えません。 興味深いことに、平均と中央値は定量的データ(数値データ)に対してのみ計算可能ですが、モードは定量的データだけでなく定性的データ(カテゴリデータ)に対しても求めることができます。
例えば、アンナは月に平均12回ピザを食べるとします。内訳は以下の通りです。
この場合、ナポリピザとマルゲリータピザの2つのモードが存在することになります。
分散の尺度(散布度)は、データセットの変動性(ばらつき具合)を判断するために使用されます。通常、データの値が中心値からどの程度散らばっているかを反映します。「範囲(レンジ)」、「四分位数」、および「四分位範囲(IQR)」を用いることで、データセットのばらつきを評価することができます。
データセットの範囲(レンジ)は、データセット内の最大値と最小値の差です。データセットの最大値と最小値を特定することで簡単に計算できます。計算式は次のとおりです。
$$レンジ = 最大値 - 最小値$$
先ほどの20個の値のセットを見てみましょう。
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
範囲は次のように計算できます。
データを昇順または降順に並べます。ここでは昇順にします。
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
ここから、最大値は 160、最小値は 42 であることがわかります。したがって、範囲は以下のようになります。
$$レンジ = 最大値 - 最小値 = 160 - 42 = 118$$
このデータセットの範囲(レンジ)は 118 となります。
四分位数は、データセットを4つの等しい部分(四半期)に分割する3つのポイント(第1四分位数、第2四分位数、第3四分位数)の値を指します。
「Q₁」で表される第1四分位数は、データセットの下位25%と上位75%を分けるポイントです。
「Q₂」で表される第2四分位数は、中央値と全く同じです。つまり、データの50%がこの値より小さく、残りの50%がこの値より大きくなります。
「Q₃」で表される第3四分位数は、データセットの下位75%と上位25%を分けるポイントです。
データセットの四分位数を計算する手順は以下の通りです。
データを昇順に並べ替えます。
第2四分位数(Q₂)を求めるために、中央値を計算します。第1および第3四分位数については、次の手順に進みます。n(データセット内の値の総数)を確認します。
第1四分位数の位置 L を計算します: L = 0.25n。第3四分位数の位置 L を計算します: L = 0.75n。
L が整数の場合、四分位数は「位置 L の値」と「位置 L + 1 の値」の平均値となります。
L が整数でない場合は、切り上げて次の整数にします。その切り上げた位置に対応する数値が四分位数となります。
先ほどの20個の値のセットを見てみましょう。
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
四分位数は次のように計算できます。
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
中央値 = 70
第1四分位数の L を計算します: 0.25 × 20 = 5。第3四分位数の L を計算します: 0.75 × 20 = 15。
L=5 は整数であるため、この場合の Q₁ は5番目と6番目の値の平均になります。
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
したがって、このデータセットでは、第1四分位数は 57、第2四分位数(中央値)は 70、第3四分位数は 73.5 となります。
四分位範囲(IQR: Interquartile Range)は、データセットの第3四分位数 $(Q₃)$ と第1四分位数 $(Q₁)$ の差です。これはデータの中心部分の散らばりを示す頑健な分散の尺度であり、次のように計算されます。
IQR = Q₃ - Q₁
前のセクションで、すでに第1四分位数と第3四分位数を計算しました。それぞれ 57 と 73.5 です。あとは式を適用するだけです。
IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5
したがって、このデータセットの四分位範囲(IQR)は 16.5 となります。
ルイージが行ったマルゲリータピザの価格に関する小規模な調査において、彼は次のような結論を導き出すことができました。 平均値(71.9)と中央値(69.5)は完全には一致せず、データにはわずかな歪み(スキュー)が生じています。しかし、その歪みは極端なものではないため、中心傾向の尺度として平均値と中央値のどちらを使用しても問題はありません。
もしルイージがマルゲリータピザの平均的な価格を基準にしたい場合、平均値または中央値を採用することが考えられます。しかし、「71,900 IDR」や「69,500 IDR」という金額は、顧客の記憶に残るキリの良い価格としてはあまり適切ではありません。幸いなことに、この調査データにおけるマルゲリータピザの最頻値(モード)はちょうど「70,000 IDR」であり、この範囲内に収まっています。したがって、ルイージは事業計画の計算にこのキリの良い価格(モード)を採用するのが最も合理的と言えるでしょう。
もし彼が、より価格重視(倹約志向)の顧客層をターゲットにしたピザ屋を作りたいのであれば、第1四分位数に近い数字、つまり約「57,000 IDR」を基準に検討することができます。一方、第3四分位数は外れ値に引きずられて代表性を欠く部分があるため、より高級志向のクライアント向け価格を決定する基準として使用するには、あまり適していません。