প্রোগ্রামার | তথ্য উত্সাহী

Data Levels of Measurement

June 27, 2019 | 5 Minute Read

আমরা সবাই মোটামুটি ভ্যারিয়েবল নামক শব্দটা চিনি। তো ভ্যারিয়েবল দিয়ে আসলে কি করে? ভ্যারিয়েবলে ভ্যালু জমা রাখা হয়। যেমন x = 5 বা x = 6 । ধরলাম এই x কারো উচ্চতা নির্দেশ করে। আবার ধরি x = আমেরিকান বা x = বাংলাদেশি। এখানে আবার এই ভ্যারিয়েবল কারো জাতীয়তা নির্দেশ করে। আবার ধরলাম x = প্রথম বা x = দ্বিতীয়।

এখানে ভ্যারিয়েবল কোন ক্রম নির্দেশ করে। তাহলে ব্যাপারটা কি দাঁড়ালো? ব্যাপারটা হইল যে একটা ভ্যারিয়েবল এক এক সময় এক এক ধাঁচের পরিমাপ নির্দেশ করতে পারে। হিসাব নিকাশের সময় এই ভ্যারিয়েবলের যে এত ভিন্ন ভিন্ন চেহারা একে বলা হয় Data level of measurement। এবার একটু বিস্তারিত জানা যাক।

এই Data level of measurement মূলত চার ধরণের। যেগুলাকে নাম দেয়া হয়েছে Nominal level of measurement, Ordinal level of measurement, Interval level of measurement এবং Ratio level of measurement। কত সুন্দর এই দুনিয়া, তাই না? একটা ভ্যারিয়েবল, তার আবার কত রূপ। আহা..!!

Nominal

জানার আগে চলেন একটু বংশ পরিচয় জানা যাক। এই Nominal শব্দটা আসলে একটা adjective যার মানে হচ্ছে কোন কিছুর একটা টাইটেল থাকা বা একটা নাম থাকা। অর্থাৎ কোন কিছুকে নাম দিয়ে তার ভাব প্রকাশকে nominal বলা যায়। যেমন কাউকে দেখিয়ে বললাম যে উনি CEO তাহলে যে কেউই বুঝবে উনি কোন কোম্পানির প্রধান। এবার আসি আসল আলোচনায়। ধরা যাক আমার কাছে কিছু সংখ্যক লোকের ডাটা আছে যাদেরকে তিনটা ভিন্ন ক্যাটাগরিতে ভাগ করা আছে৷ আমি একটা ভ্যারিয়েবল নিলাম x। এখন যখন কোন লোক হবে পুরুষ আমি বলব x = Male আবার যদি সেটা মহিলা হয় আমি বলব x= Female আর সেটা যদি তৃতীয় লিঙ্গ হয় তাহলে x= Transgender। এই যে নাম প্রদানের মাধ্যমে ডাটাকে আমি তিনটা ক্লাসে ভাগ করলাম এটাকেই বলে Nominal level of measurement। এখানে একটা গুরুত্বপূর্ণ ব্যাপার হচ্ছে Nominal হবার জন্য যে শুধু নামই দেয়া লাগবে তা না। সেক্ষেত্রে alpha numeric হতে পারে, শুধু মাত্র কোন একটা অক্ষর দিয়ে হতে পারে আবার একটা শব্দ ব্যবহার করেও হতে পারে৷ যেমন চুলের কালারের জন্য একটা ম্যাপ কল্পনা করি (১, বাদামী), (২, কালো), (৩,নীল)। এখন আমি যদি বলি কারো চুলের কালার ১ এর মানে তার চুলের কালার বাদামী। আবার কারো চুলের কালার বললাম ২ এর মানে তার চুলের কালার কালো। তাহলে এখানে সংখ্যা কোন মান প্রকাশ করে নি। একটা ক্যাটাগরির নাম নির্দেশ করেছে।

Ordinal

Ordinal এর বংশপরিচয় ঘাঁটলে দেখা যায় উনি একটা adjective এবং উনার কাজ হল কাউকে ক্রমানুসারে সাজানো। উদাহরণ এর মাধ্যমে দেখলে ব্যাপারটা অনেক পরিষ্কার হবে। আপনি আজকের দিনে কেমন ফিল করছেন তার একটা ডাটাসেট চিন্তা করি, যেখানে
১. খুব খুশি
২. খুশি
৩. চলে একরকম
৪. দুঃখী জীবন
৫. খুবই দুঃখী জীবন

এই ক্রমানুসারে সাজানো ডাটা থেকে যেকোন একটা আপনার আজকের দিন কেমন তা প্রকাশ করতে পারে। মজার ব্যাপার খেয়াল করলে দেখবেন ৫ নাম্বার অপশন থেকে ৩ নাম্বার অপশনটা ভালো আবার ৩ নাম্বার অপশন থেকে ১ নাম্বার অপশনটা ভাল। অর্থাৎ কার থেকে কে ভাল তা ক্রমানুসারে বলা আছে। কিন্তুউউউউউ… কতটুকু ভাল তা কিন্তু বলা নেই। দারুণ না ব্যাপারটা? তাহলে সারমর্ম হিসাবে বলা যায় ordinal level of measurement আমাদের ডাটার ক্রম দিতে পারে যেখানে আমরা ডাটার কোয়ালিটি নিয়ে কথা বার্তা বলতে পারি কিন্তু কোয়ান্টিটি অর্থাৎ পরিমাণ বা দুইটা ডাটার পার্থক্য নিয়ে কোন আলাপ-সালাপ করতে পারি না।

Interval

এই শব্দটা চিনে না এমন মানুষ খুব কমই হয়ত আছেন। আহা ইন্টারে পড়ার সময় সেই Interval এর ম্যাথ গুলা। না পারার কারণে কত যে বকা!! আহা সেই দিনগুলো..

যাই হোক, একটা স্কুলে বয়স অনুযায়ী বাচ্চাদের সংখ্যার একটা ডাটাসেট দেখা যাক:
[৭-১০] = ২০
[১১-১৪] = ১৫
[১৫-১৮] = ৩৫

নড়েচড়ে বসে এবার একটু খেয়াল করি। ডাটা গুলো একটা ক্রমানুসারে সাজানো আছে। দেখা যাচ্ছে ৭-১০ বছরের বাচ্চাদের সংখ্যা ২০, ১১-১৪ বছরের বাচ্চাদের সংখ্যা ১৫ এবং ১৫-১৮ বছরের বাচ্চাদের সংখ্যা ৩৫। Ordinal এ আমরা কোয়ান্টিটি জানতে পারি নাই, কিন্তু এখানে জানতে পারছি। দারুণ না ব্যাপারটা? অবশ্যই দারুণ!! আরো কিছু ব্যাপার। খেয়াল করে দেখুন যে উপরের তিনটা interval এ সংখ্যার গ্যাপ একই অর্থাৎ ৩। interval level এ গ্যাপ এর পরিমাণ সব সময় একই থাকবে। একটা ছোট্ট উদাহরণ দেয়া যাক। সেলসিয়াস স্কেলে কিছু তাপমাত্রার ডাটাসেট দেখিঃ
[-১০ - -১](নেগেটিভ তাপমাত্রা)
[০ - ৯]

প্রথম interval এ -১০ ডিগ্রি সেলসিয়াস থেকে -১ ডিগ্রি সেলসিয়াস নেয়া হয়েছে এবং পরেরটাতে ০ থেকে ৯ ডিগ্রি সেলসিয়াস নেয়া হয়েছে এবং দুই ক্ষেত্রেই তাপমাত্রার পার্থক্য ৯ ডিগ্রি সেলসিয়াস।

একটা মহা গুরুত্বপূর্ণ কথা!! ধরা যাক Interval এ দুইটা তাপমাত্রার পার্থক্য আসলো ০। এখন আমরা কি তাহলে বলব সেখানে তাপমাত্রা অনুপস্থিত? অবশ্যই না। কারণ ০ ডিগ্রি তাপমাত্রার অস্তিত্ব আছে। একটা নতুন শব্দ বলি “true zero”। এর মানে হল যদি আপনার কাছে কোন কিছুর মান ০ হয় এর অর্থ হল তার কোন অস্তিত্ব নাই। আমরা দেখলাম তাপমাত্রার ক্ষেত্রে ০ ডিগ্রিও একটা তাপমাত্রা প্রকাশ করে। তাই interval level এ এই “true zero” খাটবে না। মনে রাখার মত আরেকটা ব্যাপার হল Interval এ দুইটা মানের মাঝে শুধু যোগ বা বিয়োগ করা যায়।
ক্যালেন্ডারের বছর , ঘড়ির সময় Interval level of measurement এর উদাহরণ।

Ratio

ধরেন আপনার বয়স ২০ বছর এবং আপনার বাবার বয়স ৪০ বছর। অর্থাৎ আপনার বাবা বয়সে আপনার চেয়ে দ্বিগুণ বড়। তাহলে আপনাদের দুজনের বয়সের ratio ১/২। কিন্তু পরিসংখ্যানে এই Ratio level of measurement একটু ভিন্ন। একটা ভ্যারিয়েবলকে Ratio level of measurement বলতে পারব যদি সে

  • order তৈরি করতে পারে ,
  • ভ্যারিয়েবলের মানের মাঝে পার্থক্য বলতে পারে এবং
  • যদি তার ক্ষেত্রে “true zero” সত্যি হয়, অর্থ্যাৎ ০ মানে কোন অস্তিত্ব নাই।

কিছু উদাহরণ দেখা যাক। ধরুন আমি আপনাকে জিজ্ঞাসা করলাম আপনার উচ্চতা কত। কিছু অপশন দিলাম

  • ৫ ফুটের কম
  • ৫ ফুট ৩ ইঞ্চি থেকে ৬ ফুট এর মাঝে
  • ৬ ফুটের বেশি

খেয়াল করে দেখা যাবে ডাটাসেটে একটা ক্রম আছে এবং ডাটার মাঝের গ্যাপ টুকু বুঝা যায়। এবার প্রথম উদাহরণ টা বুঝার চেষ্টা করি।
৫ ফুটের কম । এখানে উচ্চতা ০ হতে পারে। যদি কারো উচ্চতা ০ হয় এর মানে হল তার কোন অস্তিত্ব নাই। অর্থাৎ “true zero” এখানে সত্য।
৫ ফুট ৩ ইঞ্চি থেকে ৬ ফুট এর মাঝে এই উদাহরণে দুইটা উচ্চতার মাঝের পার্থক্য হিসাব করা যায়।

এই ছিল চার ধরনের Data levels of measurement। এবার এদের সবাই কে দিয়ে কি কি করা যায় তার একটা তালিকা একসাথে দেখি।

Features Nominal Ordinal Interval Ratio
The sequence of variable is established - Yes Yes Yes
Mode Yes Yes Yes Yes
Median - Yes Yes Yes
Mean - - Yes Yes
Difference between variables can be evaluated - - Yes Yes
Addition & Subtraction of variables - - Yes Yes
Multiplication & Division of variables - - - Yes
Absolute Zero - - - Yes