কোনো ফলাফল পাওয়া যায়নি
এই মুহূর্তে ওই শব্দ দিয়ে কিছুই খুঁজে পাওয়া যাচ্ছে না, অন্য কিছু খুঁজে দেখুন।
যেকোনো ডেটা সেটের গড়, মধ্যক, প্রচুরক ও রেঞ্জ দ্রুত নির্ণয় করুন। গড় এবং কেন্দ্রীয় প্রবণতা বের করতে আমাদের এই ফ্রি পরিসংখ্যান ক্যালকুলেটরটি ব্যবহার করুন।
| ফলাফল | |||
|---|---|---|---|
| গড় x̄ | 16.75 | বহিরাগত মান | 6, 33, 35 |
| মধ্যক x̃ | 15 | চতুর্থাংশ Q1 | 12.5 |
| প্রচুরক | 15 3 বার উপস্থিত হয়েছে | চতুর্থাংশ Q2 | 15 |
| পরিসর | 29 | চতুর্থাংশ Q3 | 16 |
| সর্বনিম্ন | 6 | আন্তঃচতুর্থাংশ পরিসর আ.চ.প. | 3.5 |
| সর্বোচ্চ | 35 | ||
| সমষ্টি | 201 | ||
| সংখ্যা n | 12 | ||
আপনার গণনায় একটি ত্রুটি ছিল।
সারণি এবং গ্রাফে থাকা কাঁচা পরিসংখ্যানগত ডেটা এক নজরে বোঝা প্রায়শই কঠিন হতে পারে। অর্থপূর্ণ অন্তর্দৃষ্টি বের করার জন্য, আমাদের ডেটা সেটগুলিকে সারসংক্ষেপ করতে হবে এবং এর মূল বৈশিষ্ট্যগুলো শনাক্ত করতে হবে।
পরিসংখ্যানে, ডেটার সারসংক্ষেপ ও বর্ণনা করতে বিভিন্ন মেট্রিক্স ব্যবহার করা হয়। কিছু মেট্রিক ডেটা সেটের কেন্দ্রবিন্দু শনাক্ত করে, যা কেন্দ্রীয় প্রবণতার পরিমাপ (measures of central tendency) নামে পরিচিত। অন্যান্য মেট্রিক্স, যাদের বিস্তারের পরিমাপ (measures of dispersion) বলা হয়, সেগুলি আমাদের জানায় ডেটার মানগুলো কতটা ছড়ানো বা বিক্ষিপ্ত। এছাড়া, অবস্থানের পরিমাপ (measures of position) প্রকাশ করে যে ডেটার কত অংশ একটি নির্দিষ্ট মানের নিচে অবস্থান করছে।
এই পরিসংখ্যান ক্যালকুলেটরের প্রাথমিক উদ্দেশ্য হলো কেন্দ্রীয় প্রবণতার পরিমাপ গণনা করা—বিশেষ করে গড় এবং মধ্যক—যা কোনো ডেটাসেটের সাধারণ বা কেন্দ্রীয় মানকে উপস্থাপন করে। এই টুলের দ্বিতীয় উদ্দেশ্য হলো রেঞ্জ, কোয়ার্টাইল এবং ইন্টারকোয়ার্টাইল রেঞ্জ (IQR) গণনা করে আপনার ডেটার ভিন্নতার মাত্রা নির্ধারণ করা।
গড় (Mean) হলো গাণিতিক গড়, যা সব মান একসাথে যোগ করে মোট মানের সংখ্যা দিয়ে ভাগ করে গণনা করা হয়। এটি গড় নির্ণয়ের জন্য সবচেয়ে বেশি ব্যবহৃত মেট্রিক এবং একটি নমুনার (sample) জন্য এটি নিচের সূত্র ব্যবহার করে গণনা করা হয়:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
একটি সম্পূর্ণ সমগ্রকের (population) গড় নির্ণয়ের সূত্রটি হলো:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
এই সমীকরণগুলোতে, লব (numerator) ডেটা সেটের সমস্ত মানের যোগফলকে উপস্থাপন করে, অন্যদিকে হর (denominator) সেই মানগুলোর মোট সংখ্যা প্রকাশ করে।
গাণিতিক গড় ব্যবহারের মূল সুবিধা হলো এটি আপনার ডেটাসেটের প্রতিটি ডেটা পয়েন্টকে অন্তর্ভুক্ত করে।
তবে, এর প্রধান সীমাবদ্ধতা হলো চরম মানগুলোর (extreme values) প্রতি এর সংবেদনশীলতা। ব্যতিক্রমীভাবে বড় বা ছোট সংখ্যা, যা আউটলায়ার (outliers) নামে পরিচিত, গড়কে উল্লেখযোগ্যভাবে প্রভাবিত করতে পারে।
এটি মনে রাখাও গুরুত্বপূর্ণ যে গড় সবসময় ডেটার "সাধারণ (typical)" মান হয় না। বাস্তবে, নির্ণয়কৃত গড় এমন একটি সংখ্যা হতে পারে যা মূল ডেটাসেটের মধ্যে অস্তিত্বই রাখে না।
একটি সমগ্রক (population) বলতে আপনি যে ডেটা নিয়ে কাজ করছেন তার সমস্ত মানের সেটকে বোঝায়। আর নমুনা (sample) হলো সেই সমগ্রক থেকে নেওয়া একটি ছোট ও প্রতিনিধিত্বমূলক গ্রুপ।
নমুনা এবং সমগ্রক উভয়ের ক্ষেত্রেই গড় নির্ণয়ের গাণিতিক পদ্ধতিটি অভিন্ন। পার্থক্য শুধু পরিসংখ্যানগত নোটেশনে।
যদি x₁, x₂,..., xₙ একটি নমুনাকে উপস্থাপন করে, তবে নির্ণয়কৃত গড়কে নমুনা গড় বলা হয়, যা x̄ প্রতীক দ্বারা চিহ্নিত করা হয়। আপনি যদি সম্পূর্ণ সমগ্রকের গড় গণনা করেন, তবে তা গ্রীক অক্ষর 𝜇 (মিউ) দ্বারা প্রকাশ করা হয়।
পরিসংখ্যানে, নমুনার আকার বোঝাতে ছোট হাতের অক্ষর n এবং সমগ্রকের আকার বোঝাতে বড় হাতের অক্ষর N ব্যবহার করা হয়।
চলুন একটি বাস্তব উদাহরণ দেখা যাক: লুইগি একজন মাস্টার শেফ এবং পিজা প্রেমী, যিনি বালিতে একটি নতুন পিজেরিয়া (pizzeria) খুলতে চান। একজন বিনিয়োগকারী পাওয়ার জন্য, লুইগি একটি ব্যবসায়িক পরিকল্পনা লিখছেন এবং ভবিষ্যতের আর্থিক পারফরম্যান্সের পূর্বাভাস দেওয়ার জন্য তাকে দ্বীপের বিভিন্ন রেস্তোরাঁয় পিজার গড় খরচ নির্ধারণ করতে হবে।
তিনি স্থানীয় বিভিন্ন রেস্তোরাঁয় মার্গেরিটা পিজার দাম নিয়ে গবেষণা করেছেন এবং একটি ডেটাসেট তৈরি করেছেন। হিসাব সহজ করার জন্য, চলুন শেষের তিনটি শূন্য বাদ দিই এবং দামটি হাজারে ব্যবহার করি। উদাহরণস্বরূপ, আমাদের গণনায় ৬০ (60) মানটি ৬০,০০০ ইন্দোনেশিয়ান রুপিয়া (IDR) নির্দেশ করে।
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
লুইগি দ্বীপের প্রতিটি পিজেরিয়া পরিদর্শন করতে পারেননি, তাই তিনি এলোমেলোভাবে ২০টি রেস্তোরাঁ নির্বাচন করেছেন। সুতরাং, আমরা একটি নমুনা (sample) নিয়ে কাজ করছি।
চলুন নমুনা গড়ের সূত্র ব্যবহার করে এই ডেটা সেটের গড় মান নির্ণয় করি:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
প্রাপ্ত গড় মান হলো x̄ = ৭১.৯ (71.9)।
লুইগির গবেষণা নির্দেশ করে যে, বালিতে একটি মার্গেরিটা পিজার গড় দাম ৭১,৯০০ IDR। সে এখন তার আর্থিক হিসাব-নিকাশের জন্য এই বেইসলাইন সংখ্যাটি ব্যবহার করতে পারবে।
মধ্যক হলো এমন একটি অবস্থানগত পরিমাপ যা কোনো ডেটা সেটকে ছোট থেকে বড় বা বড় থেকে ছোট ক্রমানুসারে সাজানো হলে তার একেবারে মাঝখানের মানটিকে উপস্থাপন করে।
মধ্যক নির্ণয় করার সময়, আমরা এমন একটি সংখ্যা খুঁজি যা ডেটাকে ঠিক অর্ধেক করে বিভক্ত করে। ডেটার মানগুলোর ঠিক ৫০% মধ্যকের চেয়ে ছোট হবে এবং বাকি ৫০% বড় হবে। এজন্যই ম্যানুয়ালি মধ্যক নির্ণয় করতে হলে—মধ্যক ক্যালকুলেটরের সাহায্য ছাড়া—আপনাকে প্রথমে সংখ্যাগুলোকে ক্রমানুসারে সাজাতে হবে।
আপনার ডেটাসেটে মোট মানগুলোর সংখ্যা জোড় নাকি বিজোড়, তার ওপর ভিত্তি করে গণনার পদ্ধতি কিছুটা ভিন্ন হয়।
উপাদানগুলোর মোট সংখ্যা যদি বিজোড় হয় (অর্থাৎ n বা N একটি বিজোড় সংখ্যা), তাহলে নিচের সূত্রটি ব্যবহার করতে হবে:
$$Median=(\frac{n+1}{2})-th \ element$$
তবে, উপাদানগুলোর সংখ্যা যদি জোড় হয়, তবে নিচের সূত্রটি প্রযোজ্য হবে:
$$Median=\frac{\left[(\frac{n}{2})-th \ element+(\frac{n}{2}+1)-th \ element\right]}{2}$$
মধ্যক ব্যবহারের সবচেয়ে বড় সুবিধা হলো আউটলায়ারের (outliers) প্রভাব প্রতিরোধ করার ক্ষমতা। গড়ের বিপরীতে, অত্যন্ত বড় বা অত্যন্ত ছোট মানগুলো দ্বারা মধ্যক খুব কমই প্রভাবিত হয়।
পিজার দামের ওপর তৈরি লুইগির বিশটি নমুনার ডেটা ব্যবহার করে:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
আমরা ধাপে ধাপে মধ্যক নির্ণয় করতে পারি:
১. ডেটা সেটটিকে ছোট থেকে বড় বা বড় থেকে ছোট ক্রমানুসারে সাজান। পর্যায়ক্রমে সাজানো হলে ডেটা দেখতে এমন হবে:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
২. ডেটাসেটে মোট কতটি মান আছে তা নির্ধারণ করুন। এখানে, n = ২০।
৩. যদি n বিজোড় হয়, তবে মধ্যক হলো মাঝের মানটি। যদি n জোড় হয়, তবে মধ্যক হলো মাঝখানের দুটি সংখ্যার গাণিতিক গড় (দুটি যোগ করে ২ দিয়ে ভাগ করুন)।
যেহেতু ২০ একটি জোড় সংখ্যা, তাই আমরা মাঝখানের দুটি মান খুঁজে বের করব।
আমাদের সাজানো নমুনার মাঝের মানগুলো হলো ৬৯ (69) এবং ৭০ (70)। আমরা নিচের মতো করে মধ্যক নির্ণয় করি:
$$Median = \frac{69 + 70}{2} = 69.5$$
লুইগি যদি ২১টি মানের একটি বিজোড় সেট সংগ্রহ করত, উদাহরণস্বরূপ:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
তিনি মানগুলো ক্রমানুসারে সাজাতেন:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
এবং সহজেই ১১তম অবস্থানে থাকা একদম মাঝখানের মানটি নির্বাচন করতেন, যা হলো ৭০।
যদিও গড় এবং মধ্যক উভয়ই কেন্দ্রীয় প্রবণতার পরিমাপ হিসেবে কাজ করে, পরিসংখ্যানগত বিশ্লেষণে এদের পার্থক্য বুঝতে পারা অত্যন্ত গুরুত্বপূর্ণ।
মৌলিক পার্থক্য হলো, গড় ডেটাসেটের প্রতিটি মানকে অন্তর্ভুক্ত করে, যেখানে মধ্যক শুধুমাত্র মাঝখানের সংখ্যাটি (বা মাঝখানের দুটি সংখ্যা) দ্বারা নির্ধারিত হয়।
এই পার্থক্যটি তখন সবচেয়ে বেশি গুরুত্বপূর্ণ হয় যখন আমরা এমন ডেটাসেট নিয়ে কাজ করি যেখানে অস্বাভাবিক বড় বা ছোট সংখ্যা থাকে, যা আউটলায়ার (outliers) নামে পরিচিত। আউটলায়ার গড়কে খুব বেশি প্রভাবিত করে, কিন্তু মধ্যকের ওপর এর প্রভাব নেই বললেই চলে।
পরিসংখ্যানে, কোনো পরিমাপকে তখন "প্রতিরোধী (resistant)" বলা হয়, যখন চরম মানগুলো (extreme values) একে খুব বেশি প্রভাবিত করতে পারে না। সে হিসেবে, মধ্যক অত্যন্ত প্রতিরোধী একটি পরিমাপ, কিন্তু গড় প্রতিরোধী নয়।
এই দুটি মেট্রিক ভিন্ন ভিন্ন উপায়ে "কেন্দ্র (center)" পরিমাপ করে। গড় ডেটার ওজনের একটি ভারসাম্য বিন্দু হিসেবে কাজ করে। অন্যদিকে মধ্যক হলো এমন একটি মধ্যবিন্দু যা নিচের ৫০% ডেটাকে ওপরের ৫০% ডেটা থেকে আলাদা করে। একটি সম্পূর্ণ প্রতিসম (symmetric) ডেটাসেটে, গড় এবং মধ্যক একই হবে।
তবে, বাস্তব-বিশ্বের ডেটায় এরা খুব কমই হুবহু মিলে যায়।
যখন গড় এবং মধ্যক ভিন্ন হয়, তখন ডেটা সেটটিকে বঙ্কিম বা স্কিউড (skewed) বলা হয়।
যদি গড়, মধ্যকের তুলনায় উল্লেখযোগ্যভাবে কম হয়, তাহলে ডেটাসেটটি বাম দিকে বাঁকানো (নেতিবাচকভাবে স্কিউড) থাকে। আর যদি গড়, মধ্যকের তুলনায় উল্লেখযোগ্যভাবে বেশি হয়, তাহলে ডেটাসেটটি ডান দিকে বাঁকানো (ইতিবাচকভাবে স্কিউড) থাকে।
গড় বা মধ্যকের কোনোটিই সার্বজনীনভাবে "উন্নততর" নয়। এগুলো কেবল ভিন্ন ভিন্ন উদ্দেশ্য পূরণ করে। ডেটা বিশ্লেষকরা প্রায়ই মধ্যক পছন্দ করেন যখন কোনো ডেটাসেট অত্যন্ত স্কিউড হয় বা এতে বিশাল আউটলায়ার থাকে, কারণ মধ্যক একটি "সাধারণ" মানের সবচেয়ে নির্ভুল উপস্থাপনা প্রদান করে।
প্রচুরক হলো এমন একটি মান যা কোনো ডেটাসেটে সবচেয়ে বেশি বার আসে।
যদি একটি ডেটাসেটে একটি সুনির্দিষ্ট মান থাকে যা অন্য যেকোনো মানের চেয়ে বেশি বার দেখা যায়, তবে তাকে ইউনিমোডাল (unimodal) বলা হয়।
যদি দুটি ভিন্ন মান সর্বোচ্চ ফ্রিকোয়েন্সিতে সমান অবস্থানে থাকে, তবে উভয়কেই প্রচুরক হিসেবে ধরা হয় এবং ডেটাসেটটি বাইমোডাল (bimodal) হয়ে যায়।
যদি তিনটি বা তার বেশি মান সর্বোচ্চ ফ্রিকোয়েন্সি শেয়ার করে, তবে প্রতিটিরই একটি করে প্রচুরক থাকে এবং সেই ডেটাসেটটিকে মাল্টিমোডাল (multimodal) হিসেবে শ্রেণীবদ্ধ করা হয়।
যদি কোনো ডেটাসেটের প্রতিটি মান ঠিক একবার করে আসে, তবে সেই ডেটাসেটের কোনো প্রচুরক নেই। মনে রাখবেন "কোনো প্রচুরক নেই" এবং শূন্যের (০) প্রচুরক থাকা এক কথা নয়। শূন্য একটি বৈধ প্রচুরক হতে পারে যদি এটি ডেটাসেটে সবচেয়ে বেশি বার আসা সংখ্যা হয় (উদাহরণস্বরূপ, শীতকালের তাপমাত্রার রিডিংয়ে)।
প্রচুরকের প্রধান সুবিধা হলো এটি খুব সহজে বের করা যায় এবং চরম আউটলায়ার দ্বারা সম্পূর্ণভাবে অপ্রভাবিত থাকে। এর প্রাথমিক অসুবিধা হলো কিছু কিছু ডেটাসেটে আদৌ কোনো প্রচুরক নাও থাকতে পারে।
বিশটি পিজার দামের আগের ডেটাসেটটি ব্যবহার করে:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
আমরা এই ধাপগুলোর মাধ্যমে প্রচুরক বের করতে পারি:
প্রথমে, ডেটাসেটটিকে ক্রমানুসারে সাজান:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
এরপর, সবচেয়ে বেশি বার পুনরাবৃত্তি হওয়া সংখ্যাটি শনাক্ত করুন। এই তালিকায়, ৭০ চার বার এসেছে, যা অন্য যেকোনো সংখ্যার চেয়ে বেশি। সুতরাং, প্রচুরক মানটি হলো ৭০।
প্রচুরক যদিও কেন্দ্রীয় প্রবণতার একটি পরিমাপ, এটি সবসময় ডেটার প্রকৃত কেন্দ্র উপস্থাপন করে না, বিশেষ করে ব্যাপকভাবে স্কিউড ডিস্ট্রিবিউশনের ক্ষেত্রে। প্রচুরক প্রযুক্তিগতভাবে সর্বোচ্চ মান, সর্বনিম্ন মান বা এর মাঝামাঝি যেকোনো মান হতে পারে। উদাহরণস্বরূপ, এই ডেটাসেটটি বিবেচনা করুন:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
এখানে প্রচুরক হলো ১২০। তবে ১২০ স্পষ্টভাবে এই গ্রুপের কেন্দ্রীয় প্রবণতাকে প্রতিফলিত করছে না।
মজার ব্যাপার হলো, গড় এবং মধ্যক কেবল পরিমাণগত বা কোয়ান্টিটেটিভ (সংখ্যাগত) ডেটার জন্য গণনা করা গেলেও, প্রচুরককে পরিমাণগত এবং গুণগত বা কোয়ালিটেটিভ (শ্রেণীগত) উভয় ডেটার ক্ষেত্রেই ব্যবহার করা যায়।
উদাহরণস্বরূপ, ধরুন আন্না মাসে ১২ বার পিজা খায়, যা নিচের মতো বিভক্ত করা হলো:
এই গুণগত (qualitative) ডেটাসেটে দুটি প্রচুরক রয়েছে: নাপোলিটানা এবং মার্গেরিটা।
বিস্তারের পরিমাপ (Measures of dispersion), যা পরিবর্তনশীলতার পরিমাপ (measures of variability) নামেও পরিচিত, কোনো ডেটাসেটের ছড়ানো বা বিক্ষিপ্ত হওয়ার অবস্থা নির্ধারণ করে। ডেটা পয়েন্টগুলো কেন্দ্রীয় মান থেকে কতটা দূরে সরে গেছে তা এরা চিত্রিত করে। আমরা তিনটি মূল মেট্রিক ব্যবহার করে এই ভিন্নতা বিশ্লেষণ করতে পারি: রেঞ্জ, কোয়ার্টাইল এবং ইন্টারকোয়ার্টাইল রেঞ্জ (IQR)।
রেঞ্জ বা পরিসর হলো বিস্তারের সবচেয়ে সহজ পরিমাপ। এটি কোনো ডেটাসেটের সর্বোচ্চ এবং সর্বনিম্ন মানের মধ্যে পরম পার্থক্যকে (absolute difference) উপস্থাপন করে। সূত্রটি খুবই সহজ:
Range = সর্বোচ্চ মান - সর্বনিম্ন মান
বিশটি পিজার দামের আমাদের সেই ডেটাসেটটির দিকে ফিরে তাকালে:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
রেঞ্জ গণনা করতে, চরম মানগুলো (extremes) সহজেই শনাক্ত করার জন্য প্রথমে ডেটাগুলোকে সাজিয়ে নিন:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
সর্বোচ্চ মান ১৬০ এবং সর্বনিম্ন মান ৪২। সূত্রটি ব্যবহার করে:
Range (রেঞ্জ) = সর্বোচ্চ মান - সর্বনিম্ন মান = 160 - 42 = 118
এই ডেটাসেটের জন্য রেঞ্জ হলো ১১৮।
কোয়ার্টাইল বা চতুর্থক হলো পরিসংখ্যানগত মান যা একটি সাজানো ডেটাসেটকে তিনটি বিভক্তকারী পয়েন্ট ব্যবহার করে চারটি সমান ভাগে বা চতুর্থাংশে বিভক্ত করে: প্রথম, দ্বিতীয় এবং তৃতীয় কোয়ার্টাইল।
প্রথম কোয়ার্টাইল (Q₁) হলো ২৫তম পার্সেন্টাইল। ঠিক ২৫% ডেটা এই মানের নিচে অবস্থান করে, যার ফলে এর ওপরে ৭৫% ডেটা থেকে যায়।
দ্বিতীয় কোয়ার্টাইল (Q₂) হলো ৫০তম পার্সেন্টাইল, যা ঠিক মধ্যকের সমান। এটি ডেটাকে সরাসরি সমান দুই ভাগে বিভক্ত করে।
তৃতীয় কোয়ার্টাইল (Q₃) হলো ৭৫তম পার্সেন্টাইল। এখানে, ৭৫% ডেটা এই মানের নিচে থাকে এবং ২৫% এর ওপরে অবস্থান করে।
কোনো ডেটাসেটের কোয়ার্টাইলগুলো গণনা করতে, নিচের পদ্ধতিটি অনুসরণ করুন:
১. ডেটা পয়েন্টগুলোকে ছোট থেকে বড় ক্রমানুসারে সাজান।
২. মধ্যক নির্ণয় করে দ্বিতীয় কোয়ার্টাইলটি বের করুন। প্রথম এবং তৃতীয় কোয়ার্টাইলের জন্য, n (ডেটাসেটের মানগুলোর মোট সংখ্যা) ব্যবহার করে পরবর্তী ধাপে এগিয়ে যান।
৩. প্রথম কোয়ার্টাইলের অবস্থান বের করতে, L = 0.25n গণনা করুন। তৃতীয় কোয়ার্টাইলের অবস্থান বের করতে, L = 0.75n গণনা করুন।
৪. যদি L একটি পূর্ণসংখ্যা হয়, তবে কোয়ার্টাইল হলো L অবস্থানে থাকা মান এবং L + 1 অবস্থানে থাকা মানের গড়।
৫. যদি L পূর্ণসংখ্যা না হয়, তবে এটিকে পরবর্তী সর্বোচ্চ পূর্ণসংখ্যায় রাউন্ড আপ (round up) করুন। সেই রাউন্ড করা অবস্থানে থাকা মানটিই হলো কোয়ার্টাইল।
বিশটি পিজার দামের সেই সেটটি ব্যবহার করে:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
চলুন কোয়ার্টাইলগুলো গণনা করি:
১. ডেটাসেটটিকে ছোট থেকে বড় ক্রমানুসারে সাজান:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
২. আমাদের আগের মধ্যক গণনা থেকে, আমরা ইতিমধ্যেই দ্বিতীয় কোয়ার্টাইলটি জানি:
Median (মধ্যক) = 70
৩. প্রথম কোয়ার্টাইলের জন্য L গণনা করুন: 0.25 × 20 = 5। তৃতীয় কোয়ার্টাইলের জন্য L গণনা করুন: 0.75 × 20 = 15।
৪. যেহেতু ৫ একটি পূর্ণসংখ্যা, তাই Q₁ হলো ৫ম এবং ৬ষ্ঠ মানের গড় (৫৫ এবং ৫৯):
$$Q₁=\frac{55+59}{2}=57$$
৫. যেহেতু ১৫ একটি পূর্ণসংখ্যা, তাই Q₃ হলো ১৫তম এবং ১৬তম মানের গড় (৭২ এবং ৭৫):
$$Q₃=\frac{72+75}{2}=73.5$$
এই ডেটাসেটের জন্য, প্রথম কোয়ার্টাইল ৫৭, দ্বিতীয়টি (মধ্যক) ৭০ এবং তৃতীয় কোয়ার্টাইল ৭৩.৫।
ইন্টারকোয়ার্টাইল রেঞ্জ (IQR) আপনার ডেটাসেটের মাঝখানের ৫০%-এর বিস্তার পরিমাপ করে। একে তৃতীয় কোয়ার্টাইল (Q₃) এবং প্রথম কোয়ার্টাইলের (Q₁) মধ্যকার পার্থক্য হিসেবে সংজ্ঞায়িত করা হয়। এটি পরিসংখ্যানগত বিস্তারের অত্যন্ত জোরালো একটি পরিমাপ, যা এই সূত্র দিয়ে গণনা করা হয়:
IQR = Q₃ - Q₁
যেহেতু আমরা আগে থেকেই প্রথম এবং তৃতীয় কোয়ার্টাইল (৫৭ এবং ৭৩.৫) গণনা করেছি, তাই ইন্টারকোয়ার্টাইল রেঞ্জ গণনা করা এদেরকে সূত্রে বসিয়ে দেওয়ার মতোই সহজ:
IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5
আমাদের পিজা ডেটাসেটের ইন্টারকোয়ার্টাইল রেঞ্জ হলো ১৬.৫।
মার্গেরিটা পিজার দামের ওপর করা এই পরিসংখ্যানগত বিশ্লেষণের কারণে লুইগি ব্যবসায়িক ক্ষেত্রে কাজে লাগানোর মতো বেশ কিছু সিদ্ধান্তে পৌঁছাতে পারে।
প্রথমত, গড় (৭১.৯) এবং মধ্যক (৬৯.৫) হুবহু এক নয়—কিছু ব্যয়বহুল রেস্তোরাঁর কারণে যা সামান্য ডান দিকে স্কিউড (right skew) হওয়ার ইঙ্গিত দেয়—তবে এদের পার্থক্য খুবই সামান্য। এখানে গড় এবং মধ্যক উভয়ই কেন্দ্রীয় প্রবণতার নির্ভরযোগ্য পরিমাপ হিসেবে কাজ করে।
লুইগি যদি তার পিজার জন্য একটি গড়, প্রতিযোগিতামূলক মূল্য নির্ধারণ করতে চায়, তবে সে যেকোনো একটি মেট্রিক ব্যবহার করতে পারে। তবে, ৭১,৯০০ IDR বা ৬৯,৫০০ IDR-এর মতো অপ্রচলিত দামগুলো গ্রাহকদের মনে রাখা কঠিন হতে পারে। সৌভাগ্যবশত, তার ডেটাসেটের প্রচুরকটি (mode) গড় এবং মধ্যকের ঠিক মাঝখানে, অর্থাৎ ঠিক ৭০,০০০ IDR-এ অবস্থান করছে। এর ফলে এই প্রচুরকটি লুইগির ব্যবসায়িক কৌশলের জন্য একটি অত্যন্ত ব্যবহারিক ও মনে রাখার মতো দাম (price point) হয়ে ওঠে।
বিকল্প হিসেবে, লুইগি যদি বাজেট-সচেতন গ্রাহকদের কথা মাথায় রাখে, তবে সে তার পিজার দাম প্রথম কোয়ার্টাইলের কাছাকাছি অর্থাৎ প্রায় ৫৭,০০০ IDR নির্ধারণ করতে পারে। হাই-এন্ড (high-end) গ্রাহকদের টার্গেট করার জন্য তৃতীয় কোয়ার্টাইলের (৭৩,৫০০ IDR) ওপর নির্ভর করা এই পরিস্থিতিতে কম কার্যকর হবে, কারণ ওপরের কোয়ার্টাইলটি সামান্য স্কিউড এবং বিলাসবহুল বাজারের প্রকৃত সর্বোচ্চ সীমার প্রতিনিধিত্ব তুলনামূলক কম করে।