Không tìm thấy kết quả nào
Chúng tôi không thể tìm thấy bất cứ điều gì với thuật ngữ đó vào lúc này, hãy thử tìm kiếm cái gì đó khác.
Máy tính trực tuyến miễn phí giúp tính nhanh số trung bình, trung vị, mốt và phạm vi cho bất kỳ tập dữ liệu thống kê nào. Nhập dữ liệu để có kết quả ngay!
| Kết quả | |||
|---|---|---|---|
| Trung bình x̄ | 16.75 | Ngoại lệ | 6, 33, 35 |
| Trung vị x̃ | 15 | Tứ phân vị Q1 | 12.5 |
| Yếu vị | 15 xuất hiện 3 lần | Tứ phân vị Q2 | 15 |
| Phạm vi | 29 | Tứ phân vị Q3 | 16 |
| Tối thiểu | 6 | Phạm vi tứ phân vị IQR | 3.5 |
| Tối đa | 35 | ||
| Tổng | 201 | ||
| Số lượng n | 12 | ||
Có lỗi với phép tính của bạn.
Việc phải đối mặt với các bảng và biểu đồ dữ liệu thống kê khổng lồ thường khiến chúng ta bối rối. Để chắt lọc được những thông tin hữu ích, chúng ta cần tóm tắt, đánh giá tổng quan và xác định các đặc điểm cốt lõi của toàn bộ tập dữ liệu.
Trong lĩnh vực thống kê, có nhiều phương pháp khác nhau được sử dụng để giúp chúng ta có cái nhìn toàn cảnh về dữ liệu. Một số phương pháp tập trung mô tả giá trị trung tâm của tập dữ liệu; chúng được gọi là các thước đo xu hướng trung tâm (đại lượng hướng tâm). Các phương pháp khác lại cho chúng ta biết mức độ phân tán của dữ liệu ra sao; chúng được gọi là các thước đo độ phân tán. Ngoài ra, còn có các thước đo vị trí, dùng để thể hiện tỷ lệ dữ liệu nằm dưới một ngưỡng giá trị cụ thể.
Mục đích chính của công cụ máy tính thống kê này là giúp bạn tính toán nhanh các đại lượng hướng tâm - bao gồm giá trị trung bình và trung vị. Đây là những giá trị mang tính đại diện cho mức điển hình hoặc vị trí trung tâm của một tập dữ liệu. Bên cạnh đó, công cụ này cũng hỗ trợ bạn xác định mức độ biến động (phân tán) của dữ liệu thông qua việc tính toán khoảng biến thiên (phạm vi), tứ phân vị và khoảng tứ phân vị.
Giá trị trung bình (hay trung bình cộng) là tổng của tất cả các giá trị chia cho tổng số lượng các giá trị đó. Để dễ hiểu và dễ thực hành nhất, bạn có thể áp dụng công thức sau để tính giá trị trung bình cho một mẫu dữ liệu:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Công thức tính giá trị trung bình của toàn bộ một tổng thể (quần thể) là:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
Trong các công thức trên, tử số biểu thị tổng tất cả các giá trị có trong tập dữ liệu. Mẫu số biểu thị tổng số lượng các phần tử trong tập dữ liệu đó.
Đặc điểm quan trọng nhất khi sử dụng điểm trung bình cộng là nó bao gồm và chịu sự tác động của tất cả các giá trị có trong tập dữ liệu.
Tuy nhiên, hạn chế lớn nhất của giá trị trung bình là nó rất dễ bị nhiễu bởi các giá trị cực trị (những số quá lớn hoặc quá nhỏ so với phần lớn dữ liệu còn lại). Những giá trị khác biệt này được gọi là giá trị ngoại lai (outlier), và chúng có thể làm sai lệch đáng kể kết quả trung bình cộng.
Bạn cũng cần lưu ý rằng, giá trị trung bình cộng không nhất thiết phải là một con số "tiêu biểu" cho dữ liệu đó. Trên thực tế, giá trị trung bình có thể là một số hoàn toàn không tồn tại trong tập dữ liệu ban đầu.
Một tổng thể bao gồm toàn bộ tập hợp các cá thể hoặc giá trị mà chúng ta muốn thu thập thông tin. Trong khi đó, mẫu chỉ là một nhóm nhỏ hơn được trích xuất (chọn lọc) từ tổng thể đó.
Phương pháp toán học để tính giá trị trung bình là hoàn toàn giống nhau cho cả mẫu và tổng thể. Điểm khác biệt duy nhất nằm ở các ký hiệu thống kê.
Nếu x₁, x₂,..., xₙ là một mẫu, thì giá trị trung bình được gọi là "trung bình mẫu" và được biểu thị bằng ký hiệu x̄ (đọc là x-bar). Nếu xét trên toàn bộ tổng thể, giá trị trung bình được ký hiệu bằng chữ cái Hy Lạp 𝜇 (mu).
Trong quy ước thống kê, chúng ta sử dụng chữ n viết thường để biểu thị kích thước mẫu (số lượng phần tử trong mẫu), và chữ N viết hoa để biểu thị quy mô của tổng thể.
Hãy cùng xem xét ví dụ thực tế sau: Luigi là một đầu bếp hạng nhất và có niềm đam mê mãnh liệt với pizza. Anh ấy quyết định mở một tiệm bánh pizza của riêng mình tại hòn đảo Bali xinh đẹp. Để thu hút nhà đầu tư, Luigi cần lập một kế hoạch kinh doanh hoàn hảo. Anh muốn xác định chi phí trung bình của một chiếc bánh pizza tại các nhà hàng khác nhau trên đảo nhằm đánh giá hiệu quả tài chính và khả năng cạnh tranh trong tương lai.
Anh ấy đã thực hiện một cuộc khảo sát nhỏ về giá bánh pizza Margherita tại các nhà hàng ở Bali và thu thập được một tập dữ liệu về giá. Để dễ dàng tính toán, chúng ta hãy loại bỏ ba chữ số 0 cuối cùng và sử dụng đơn vị hàng nghìn. Tức là, con số 60 trong phép tính dưới đây sẽ tương đương với 60.000 Rupiah Indonesia (IDR).
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Luigi không thể đi khảo sát toàn bộ mọi tiệm bánh pizza trên đảo. Anh ấy chỉ chọn ngẫu nhiên 20 tiệm bánh. Do đó, tập dữ liệu chúng ta đang xử lý ở đây là một "mẫu".
Hãy tính giá trị trung bình cho tập dữ liệu này bằng công thức:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Sau khi cộng tất cả và chia cho 20, chúng ta thu được giá trị trung bình x̄ = 71,9.
Nghiên cứu của Luigi cho thấy 71.900 IDR là mức giá trung bình của một chiếc pizza Margherita tại Bali. Giờ đây, anh ấy đã có cơ sở vững chắc để định giá cho menu pizza của nhà hàng mình.
Trung vị là một thước đo vị trí, đại diện cho giá trị nằm ở vị trí chính giữa của một tập dữ liệu sau khi tập dữ liệu đó đã được sắp xếp theo thứ tự tăng dần hoặc giảm dần.
Bằng cách tìm ra trung vị, chúng ta xác định được điểm phân chia tập dữ liệu thành hai nửa bằng nhau. Chính xác một nửa dữ liệu sẽ có giá trị nhỏ hơn trung vị, và nửa còn lại có giá trị lớn hơn trung vị. Đây là lý do tại sao, để xác định trung vị theo cách thủ công (khi không dùng máy tính tự động), việc đầu tiên và bắt buộc là phải sắp xếp các giá trị theo thứ tự.
Cách tính toán giá trị trung vị sẽ khác nhau tùy thuộc vào tổng số phần tử trong tập dữ liệu là số chẵn hay số lẻ.
Nếu tổng số phần tử là số lẻ (nghĩa là n hoặc N là số lẻ), chúng ta có thể áp dụng công thức sau để tìm vị trí của trung vị:
$$Trung\ vị = Phần\ tử\ thứ \left(\frac{n+1}{2}\right)$$
Ngược lại, nếu số phần tử là số chẵn (nghĩa là n là số chẵn), trung vị sẽ là trung bình cộng của hai giá trị nằm ở giữa. Công thức áp dụng là:
$$Trung\ vị = \frac{\left[\text{Phần\ tử\ thứ }\left(\frac{n}{2}\right) + \text{Phần\ tử\ thứ }\left(\frac{n}{2}+1\right)\right]}{2}$$
Ưu điểm tuyệt vời nhất của việc sử dụng giá trị trung vị là tính ổn định; nó ít bị ảnh hưởng bởi các giá trị ngoại lai (quá cao hoặc quá thấp) so với giá trị trung bình.
Đối với tập dữ liệu gồm 20 mức giá pizza của Luigi:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Chúng ta sẽ tính số trung vị theo các bước sau:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Xác định số lượng giá trị trong tập dữ liệu. Chúng ta có n = 20.
Nếu n lẻ, ta chọn giá trị ở chính giữa làm trung vị. Nếu n chẵn, ta lấy hai giá trị ở vị trí trung tâm, cộng chúng lại và chia cho 2 (tìm trung bình cộng).
Vì 20 là số chẵn.
Hai giá trị trung tâm (ở vị trí thứ 10 và 11) trong mẫu của chúng ta là 69 và 70. Chúng ta tìm giá trị trung vị như sau:
$$Trung\ vị = \frac{69 + 70}{2} = 69,5$$
Giả sử Luigi khảo sát thêm 1 cửa hàng nữa, tạo thành một bộ gồm 21 giá trị (n = 21, số lẻ), ví dụ:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Anh ấy tiến hành sắp xếp lại các giá trị:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
Với n = 21, trung vị chính là giá trị nằm ở vị trí thứ (21+1)/2 = 11. Lúc này, trung vị là 70.
Cả giá trị trung bình và trung vị đều là những thước đo xu hướng trung tâm phổ biến trong phân tích dữ liệu. Tuy nhiên, để sử dụng chính xác, bạn cần nắm rõ sự khác biệt cốt lõi giữa chúng.
Điểm khác biệt quan trọng nhất là công thức tính giá trị trung bình sử dụng tất cả các giá trị trong tập dữ liệu. Ngược lại, việc tìm giá trị trung vị chỉ phụ thuộc vào một hoặc hai con số nằm ở vị trí trung tâm.
Điều này cực kỳ quan trọng đối với các tập dữ liệu chứa các giá trị ngoại lai (outlier) – những con số lớn hoặc nhỏ một cách bất thường. Trong hầu hết các trường hợp, các outlier này sẽ kéo giá trị trung bình lệch hẳn đi, nhưng lại có rất ít hoặc không có ảnh hưởng gì đến giá trị trung vị.
Trong thống kê, một thước đo được coi là "mạnh mẽ" (robust) nếu giá trị của nó không bị thao túng bởi các giá trị ngoại lai. Từ đó, ta có thể kết luận rằng giá trị trung vị có khả năng "kháng lại" các giá trị ngoại lai, trong khi giá trị trung bình thì không.
Trung bình và trung vị cũng đo lường "điểm trung tâm" theo những cách khác nhau. Giá trị trung bình là trọng tâm toán học nơi tập dữ liệu đạt được sự cân bằng. Trung vị là điểm cắt chia đôi dữ liệu: 50% bên trái và 50% bên phải. Khi tập dữ liệu có phân phối đối xứng hoàn hảo, giá trị trung bình và trung vị sẽ bằng nhau.
Tuy nhiên, trong thực tế, giá trị trung bình và trung vị không phải lúc nào cũng trùng khớp.
Trong nhiều tập dữ liệu, giá trị trung bình có thể nhỏ hơn hoặc lớn hơn giá trị trung vị. Khi hiện tượng này xảy ra, chúng ta gọi đó là một tập dữ liệu có phân phối lệch (skewed distribution).
Nếu giá trị trung bình nằm bên trái (nhỏ hơn) giá trị trung vị, ta nói tập dữ liệu bị lệch trái (negative skew). Nếu giá trị trung bình nằm bên phải (lớn hơn) giá trị trung vị, ta nói tập dữ liệu bị lệch phải (positive skew).
Không có thước đo nào là "tuyệt đối tốt hơn" thước đo nào. Chúng chỉ cung cấp những góc nhìn khác nhau về dữ liệu. Các chuyên gia dữ liệu thường ưu tiên sử dụng trung vị khi tập dữ liệu có độ lệch cao hoặc chứa nhiều giá trị cực đoan, bởi khi đó trung vị sẽ phản ánh chính xác hơn con số "điển hình" của thực tế.
Mốt (Mode) là giá trị xuất hiện với tần suất lặp lại nhiều nhất trong một tập dữ liệu. Nói cách đơn giản, mode là giá trị phổ biến nhất.
Một tập dữ liệu được gọi là đơn mốt (unimodal) nếu chỉ có duy nhất một giá trị xuất hiện nhiều lần nhất.
Nếu một tập dữ liệu có 2 giá trị cùng chia sẻ tần số xuất hiện cao nhất, thì cả 2 giá trị này đều được công nhận là mốt, và tập dữ liệu đó được gọi là hai mốt (bimodal).
Tương tự, nếu có từ ba giá trị trở lên cùng đạt tần suất xuất hiện cao nhất, chúng đều là các mốt, và tập dữ liệu được coi là đa mốt (multimodal).
Trong trường hợp mọi giá trị trong tập dữ liệu đều chỉ xuất hiện đúng 1 lần (không có sự lặp lại), tập dữ liệu đó được coi là không có mốt. Lưu ý: không có mốt hoàn toàn khác với việc mốt bằng 0. Số 0 hoàn toàn có thể là một giá trị mốt hợp lệ trong các tập dữ liệu thực tế, chẳng hạn như khi đo lường nhiệt độ.
Ưu điểm lớn nhất của mốt là thao tác xác định cực kỳ dễ dàng và nó hoàn toàn miễn nhiễm với các giá trị ngoại lai (outlier). Nhược điểm là đôi khi mốt không mang nhiều ý nghĩa đại diện, hoặc có thể không tồn tại trong một số tập dữ liệu.
Trở lại với tập dữ liệu 20 mức giá pizza:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Chúng ta có thể tìm mode bằng cách sau:
Sắp xếp tập dữ liệu theo thứ tự tăng dần để dễ quan sát:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Tiếp theo, tìm giá trị được lặp lại nhiều nhất. Quan sát kỹ, ta thấy số 70 lặp lại đến 4 lần. Do đó, đối với tập dữ liệu này, giá trị mốt (mode) là 70.
Cần lưu ý rằng, mặc dù mốt là một đại lượng hướng tâm, nhưng không phải lúc nào nó cũng nằm ở vị trí trung tâm của tập dữ liệu, đặc biệt là trong các phân phối bị lệch. Mode có thể là giá trị lớn nhất, nhỏ nhất hoặc bất kỳ giá trị ngẫu nhiên nào. Hãy xem xét tập dữ liệu sau:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Mốt ở đây là 120. Tuy nhiên, nó nằm ở tận cùng phổ dữ liệu, nên nó không hề phản ánh đúng "xu hướng trung tâm".
Một đặc tính thú vị của mốt: Trong khi giá trị trung bình và trung vị chỉ có thể áp dụng cho dữ liệu định lượng (số học), thì mốt lại có thể dùng cho cả dữ liệu định lượng và dữ liệu định tính (phân loại).
Ví dụ: Trung bình, Anna ăn pizza 12 lần mỗi tháng với thực đơn như sau:
Trong trường hợp này (dữ liệu định tính), chúng ta có hai mốt (bimodal): pizza Napoletana và pizza Margherita vì chúng có tần suất được chọn cao nhất.
Các thước đo độ phân tán (còn được gọi là thước đo độ biến thiên) là công cụ thống kê dùng để đo lường mức độ dàn trải, chênh lệch hoặc biến động của các giá trị xung quanh vị trí trung tâm trong một tập dữ liệu. Chúng ta có thể đánh giá mức độ biến thiên này thông qua các chỉ số như: khoảng biến thiên (phạm vi), các tứ phân vị và khoảng tứ phân vị (IQR).
Khoảng biến thiên (hay phạm vi) của một tập dữ liệu là độ chênh lệch tuyệt đối giữa giá trị cao nhất (Max) và giá trị thấp nhất (Min) trong tập dữ liệu đó. Cách tính rất đơn giản:
Khoảng biến thiên (Phạm vi) = Giá trị lớn nhất - Giá trị nhỏ nhất
Vẫn với tập dữ liệu gồm 20 mức giá pizza:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Chúng ta tính toán khoảng biến thiên như sau:
Sắp xếp tập dữ liệu để dễ dàng xác định Min và Max:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Quan sát dãy số, giá trị cao nhất là 160 và thấp nhất là 42. Áp dụng công thức:
Khoảng biến thiên = Giá trị lớn nhất - Giá trị nhỏ nhất = 160 - 42 = 118
Vậy, khoảng biến thiên của tập dữ liệu này là 118. Độ trải dài của dữ liệu từ mức giá rẻ nhất đến đắt nhất lệch nhau tới 118.000 IDR.
Tứ phân vị là các điểm giá trị chia một tập dữ liệu đã sắp xếp thành bốn phần bằng nhau. Sẽ có ba điểm tứ phân vị chính, được gọi là tứ phân vị thứ nhất, thứ hai và thứ ba.
Tứ phân vị thứ nhất, ký hiệu là Q₁, là điểm phân chia sao cho 25% lượng dữ liệu nằm dưới nó và 75% lượng dữ liệu lớn hơn nó.
Tứ phân vị thứ hai, ký hiệu là Q₂, thực chất chính là giá trị trung vị (Median). Nó chia tập dữ liệu thành hai nửa chính xác, với 50% dữ liệu nhỏ hơn và 50% lớn hơn.
Tứ phân vị thứ ba, ký hiệu là Q₃, là điểm mà tại đó 75% dữ liệu có giá trị thấp hơn nó, và 25% còn lại có giá trị cao hơn.
Bạn có thể tính các tứ phân vị theo quy trình sau:
Sắp xếp tập dữ liệu theo thứ tự tăng dần.
Để tính tứ phân vị thứ hai (Q₂), hãy tìm giá trị trung vị. Để tìm tứ phân vị thứ nhất và thứ ba, làm tiếp các bước sau. Gọi n là tổng số giá trị trong tập dữ liệu.
Đối với tứ phân vị thứ nhất (Q₁), tính L = 0,25n. Đối với tứ phân vị thứ ba (Q₃), tính L = 0,75n.
Nếu kết quả L là một số nguyên, thì tứ phân vị chính là trung bình cộng của giá trị nằm ở vị trí thứ L và giá trị ở vị trí thứ L + 1.
Nếu kết quả L không phải là số nguyên, hãy làm tròn số đó lên số nguyên liền kề tiếp theo. Tứ phân vị chính là giá trị nằm ở vị trí tương ứng với số vừa được làm tròn.
Với tập dữ liệu gồm 20 giá trị của Luigi:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Chúng ta tính các tứ phân vị như sau:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Trung vị (Q₂) = 70
Tính chỉ số L: L cho tứ phân vị đầu tiên (Q₁): 0,25 × 20 = 5. L cho tứ phân vị thứ ba (Q₃): 0,75 × 20 = 15.
Vì 5 là một số nguyên, nên theo quy tắc, Q₁ sẽ là trung bình cộng của giá trị ở vị trí thứ 5 và thứ 6 (đều là 55 và 59):
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73,5$$
Tóm lại, đối với tập dữ liệu khảo sát giá này, tứ phân vị thứ nhất là 57, tứ phân vị thứ hai (trung vị) là 70 và tứ phân vị thứ ba là 73,5.
Khoảng tứ phân vị (Interquartile Range - IQR) là khoảng cách (sự chênh lệch) giữa tứ phân vị thứ ba (Q₃) và tứ phân vị thứ nhất (Q₁). Đây là một thước đo tuyệt vời để đánh giá độ phân tán của 50% dữ liệu nằm ở vùng trung tâm, bỏ qua các giá trị ngoại lai ở hai đầu. Công thức tính IQR:
IQR = Q₃ - Q₁
Ở phần trên, chúng ta đã tính thành công giá trị của Q₁ là 57 và Q₃ là 73,5. Việc bây giờ vô cùng đơn giản, chỉ cần ráp số vào công thức:
IQR = Q₃ - Q₁ = 73,5 - 57 = 16,5
Vậy, khoảng tứ phân vị (IQR) cho dữ liệu giá pizza của Luigi là 16,5. Điều này có nghĩa là 50% số lượng các nhà hàng có mức giá xoay quanh dải trung tâm lệch nhau khoảng 16.500 IDR.
Thông qua phân tích tập dữ liệu khảo sát giá pizza Margherita bằng công cụ tính toán thống kê, Luigi có thể đưa ra những nhận định sâu sắc sau: Giá trị trung bình (71,9) và trung vị (69,5) không hoàn toàn bằng nhau, chứng tỏ dữ liệu có một chút độ lệch. Tuy nhiên, mức độ phân phối lệch này là không đáng kể. Do đó, anh ấy có thể tin tưởng dùng cả hai đại lượng này để phản ánh xu hướng giá trị trung tâm.
Nếu Luigi muốn định giá theo đúng "mức giá bình quân" của thị trường, anh ấy có thể tham khảo mức 71.900 IDR hoặc 69.500 IDR. Mặc dù vậy, những con số này nghe khá lẻ và khó thu hút khách hàng. Thật may mắn, giá trị mốt (Mode - mức giá được nhiều quán sử dụng nhất) rơi trúng vào mốc 70.000 IDR. Đây là một con số cực kỳ tròn trịa, hợp lý và có tính cạnh tranh cao để Luigi đưa vào menu của mình.
Thêm vào đó, nếu định hướng kinh doanh của Luigi là phục vụ phân khúc khách hàng bình dân, anh ấy nên định giá bám sát vùng tứ phân vị thứ nhất (Q₁) – khoảng 57.000 IDR. Ngược lại, việc định giá nhắm vào vùng tứ phân vị thứ ba (Q₃ - 73.500 IDR) trở lên để phục vụ khách VIP có thể gặp rủi ro, bởi mức giá này có tần suất xuất hiện trên thị trường ít hơn hẳn (thị phần nhỏ hơn).