মানবজাতির সকল সংগ্রহীত তথ্যকে এক করলে ঠিক কি পরিমাণ ডাটা/তথ্য হবে তা কি জানা সম্ভব? নিখুঁতভাবে জানা না গেলেও কিছুটা আন্দাজ করা যায়। আদিকাল থেকে ২০০৩ সাল পর্যন্ত আমাদের জমাকৃত ডাটার পরিমাণ প্রায় ৫ বিলিয়ন গিগাবাইট।
২০১১ সালে প্রতি দুই দিনেই ৫ বিলিয়ন গিগাবাইট পরিমাণ ডাটা তৈরি করেছি আমরা। ২০১৩ সালে এই পরিমাণ ডাটা তৈরি হয়েছে প্রতি দশ মিনিটে! এত বিপুল পরিমাণ ডাটা আমরা গত কয়েক বছরেই তৈরি করেছি যে তা কাজে লাগিয়ে আমরা আমাদের জীবনযাপনের মান উন্নত করতে পারব। কিন্তু এই ডাটা কাজে লাগানো খুব সহজ নয়।
এই বিপুল পরিমাণ ডাটাকে একত্রে বলা হয় বিগ ডাটা। বিগ ডাটা দ্বারা প্রচুর পরিমাণ ডাটার সমষ্টিকে বোঝায়, এত বেশি ডাটা যে সেগুলোকে আমাদের পরিচিত কম্পিউটার দ্বারা বিশ্লেষণ করা সম্ভব নয়। ডাটা অ্যানালিস্টদের জন্য এটি স্বর্ণখনির চেয়ে কম কিছু নয়। প্রশ্ন হতে পারে যে, কোন ধরনের তথ্য বা ডাটাকে বিগ ডাটার আওতায় ফেলা হবে? বিগ ডাটার মাঝে থাকতে পারে-
এক. সোশ্যাল মিডিয়া ডাটা –ফেসবুক, টুইটার বা ইন্সটাগ্রামের মত সোশ্যাল মিডিয়াতে প্রতিদিন মানুষ বিপুল পরিমাণ তথ্য আদান-প্রদান করছে। তারা তাদের মতামত দিচ্ছে বা ছবি আপলোড করছে। এ সকল তথ্য বিগ ডাটা হিসাবে ব্যবহৃত হতে পারে।
দুই. ব্ল্যাক বক্স ডাটা –অ্যারোপ্লেন, হেলিকপ্টার বা জেট প্লেনের সকল তথ্য ব্ল্যাক বক্সে জমা থাকে। প্লেনকে কি কাজে লাগানো হচ্ছে, পাইলট এবং ফ্লাইট ক্রুদের কথাবার্তাসহ বিভিন্ন গুরুত্বপূর্ণ তথ্য থাকে ব্ল্যাক বক্সে।
তিন. স্টক এক্সচেঞ্জ ডাটা –শেয়ার বাজারের তথ্যের মাঝে থাকে ক্রেতাদের বেচাকেনার সিদ্ধান্তের তথ্য।
চার. পাওয়ার গ্রিড –কোন নির্দিষ্ট এলাকার বা দেশের বিদ্যুৎশক্তি সম্পর্কিত তথ্য যা ব্যবসা বা উন্নয়নমূলক গবেষণার কাজে লাগতে পারে, কোন এলাকায় বিদ্যুতের চাহিদা বেশি এমন তথ্য এখান থেকে পাওয়া যাবে।
পাঁচ. সার্চ ইঞ্জিন – গুগল, বিং, ইয়াহু, আস্ক ইত্যাদি সার্চ ইঞ্জিনে মানুষ কোন ধরনের জিনিস বেশি সার্চ দেয় তা জানা থাকলে ব্যবসাসহ অনেক ক্ষেত্রেই সিদ্ধান্ত নিতে সুবিধা হতে পারে।
ছয়. ইন্টারনেট অব থিংস ডিভাইস –ইন্টারনেট অব থিংস ডিভাইসে বিভিন্ন ধরনের সেন্সর ব্যবহার করা হয় এবং এই সেন্সরগুলো পরিবেশ ও প্রযুক্তির বিভিন্ন তথ্য সংগ্রহ করতে থাকে।
বিগ ডাটা প্রতি মুহূর্তে বড় হচ্ছে। ইন্টারনেট এবং সোশ্যাল মিডিয়ার প্রভাবে মানুষ আগের যে কোনো সময়ের চেয়ে বেশি তথ্য জমা করছে যা “বিগ ডাটা” হিসাবে কাজে লাগতে পারে। শুধু সোশ্যাল মিডিয়া আর সার্চ ইঞ্জিনের মাধ্যমে কি পরিমাণ ডাটা জমা হচ্ছে তা নিম্নে দেওয়া হলো -
বিগ ডাটার বৈশিষ্ট্যগুলোকে অনেকেই 3V দ্বারা প্রকাশ করেন। এই 3V দ্বারা Volume, Velocity এবং Variety বোঝায়। Volume দ্বারা ডাটার পরিমাণ বোঝায়। কোন ডাটা সেটকে ‘বিগ ডাটা’ বলার জন্য ঠিক কি পরিমাণ ডাটা প্রয়োজন তার কোন নির্দিষ্ট সীমা নির্ধারণ করা হয়নি। অর্থাৎ বিগ ডাটা যেকোনো পরিমাণের বা সাইজের হতে পারে। তবে সাধারণত টেরাবাইট (১০১২ বাইট), পেটাবাইট (১০১৫ বাইট), এমনকি এক্সাবাইট (১০১৮ বাইট) পরিমাণ ডাটার সমষ্টিকে বিগ ডাটা বলা হয়। Variety বলতে বিগ ডাটায় উপস্থিত ডাটার বিভিন্ন টাইপ বা ধরন বোঝায়।
যেমন আমাদের পরিচিত ফেসবুকে আমরা স্ট্যাটাস দিতে পারি, ছবি এবং ভিডিও আপলোড করতে পারি এবং অন্যের পোস্টে লাইক বা রিঅ্যাক্ট দিতে পারি। এসকল কিছুই আলাদা টাইপের ডাটা। যারা ডাটা অ্যানালাইসিস করে প্রয়োজনীয় তথ্য বের করেন তাদেরকে ডাটা ভ্যারায়েটি কাজে লাগাতে হয়। Velocity বলতে বোঝায় ডাটা অ্যানালাইসিস এবং প্রসেস করার গতি। ডাটা প্রসেসিং করার ক্ষেত্রে কোম্পানির লক্ষ্য বা কাস্টমারের চাহিদা পূরণ করার মত যথেষ্ট গতি থাকতে হবে।
অনেকে 3V এর সাথে আরো দুটো V যোগ করেন –Veracity এবং Validity. বিগ ডাটা থেকে প্রাপ্ত তথ্য সাধারণত ব্যবসাক্ষেত্রে সিদ্ধান্ত গ্রহণের মত গুরুত্বপূর্ণ কাজে লাগানো হয়। কিন্তু সংগৃহীত সকল ডাটা কি বিশ্বাসযোগ্য বা বাস্তবসম্মত হয়? অনেক সময় এমন ডাটা পাওয়া যায় যাতে অপ্রয়োজনীয় তথ্য বা “নয়েজ” বেশি থাকে। আবার এমন ডাটাও থাকে যার নিরপেক্ষতা প্রশ্নবিদ্ধ। এ ধরনের নয়েজযুক্ত ডাটাকে বিগ ডাটার ভাষায় বলা হয় Veracity. ডাটার মাঝে নয়েজ যত কম থাকে সেটা আমাকে সঠিক সমাধান দিতে তত বেশি সক্ষম হবে। মনে রাখতে হবে যে একই ডাটা ভিন্ন পরিস্থিতিতে একসময় নয়েজ হিসাবে বিবেচিত হতে পারে, আবার আরেক পরিস্থিতিতে সঠিক ডাটা বলে বিবেচিত হতে পারে। উদাহরণ হিসাবে আমরা ফেসবুকের বিজ্ঞাপন দেখতে পারি। ফেসবুকে ইদানিং ব্যবহারকারীরা এমন ধরনের বিজ্ঞাপন দেখতে পাচ্ছে যা নিয়ে সেই ব্যবহারকারীর ব্যক্তিগত আগ্রহ আছে। যে ব্যক্তি মোবাইল বা কসমেটিকস নিয়ে আগ্রহী তার হোমে বিভিন্ন মোবাইল বা কসমেটিকসের বিজ্ঞাপন যাচ্ছে। আবার আরডুইনো নিয়ে কাজ করছে এমন ছাত্রদের কাছে আরডুইনোর বিজ্ঞাপন যাচ্ছে। কিন্তু ফেসবুক কিভাবে বুঝতে পারছে কোন ব্যক্তি কোন জিনিস সম্পর্কে বেশি আগ্রহী?
আসলে আমরা আমাদের ব্রাউজার দিয়ে গুগল বা কোন সার্চ ইঞ্জিনে যেসকল জিনিস বেশি সার্চ করি ফেসবুকের মত সাইটগুলো সেই তথ্য সংগ্রহ করে। তারপর আমরা আবার সেই ডিভাইস দিয়ে ফেসবুকে প্রবেশ করলে ফেসবুক বুঝতে পারে যে আমার ব্যক্তিগত আগ্রহ এ ধরনের জিনিসে এবং সেভাবেই আমরা বিজ্ঞাপন দেখতে পাই। অর্থাৎ এ ক্ষেত্রে ইন্টারনেট সার্চ একটি গুরুত্বপূর্ণ ডাটা হিসাবে কাজ করছে। তবে এই ইন্টারনেট সার্চ রেজাল্ট আবার অন্য ধরনের কোন কাজে অপ্রয়োজনীয় তথ্য হিসাবে গণ্য হবে। অর্থাৎ সকল ক্ষেত্রে সকল ডাটা Valid বা যোগ্য হিসাবে বিবেচিত হয় না। একে বলা হয় ডাটার Validity.
বিগ ডাটার প্রয়োগ
অসংখ্য মানুষের ব্যবহার, পছন্দ ইত্যাদি তথ্য বিগ ডাটার মাঝে থাকে যা সঠিকভাবে কাজে লাগাতে পারলে অর্থনৈতিক লাভের পাশাপাশি আমাদের জীবনধারার মান উন্নত হতে পারে। ভবিষ্যতে কৃষকরা বিগ ডাটার তথ্য কাজে লাগিয়ে আরো নিখুঁতভাবে আবহাওয়ার পূর্বাভাস পেতে সক্ষম হবেন। রাষ্ট্রীয়ভাবে জনকল্যাণমূলক কাজে নামার আগে সরকার বিগ ডাটা ব্যবহার করে জানতে পারবে যে, কোন ক্ষেত্রে এবং কিভাবে কাজ করলে সর্বোচ্চ ফলাফল পাওয়া যাবে। ম্যাকেনজি গ্লোবাল ইনস্টিটিউট (McKinsey Global Institute) তাদের প্রকাশিত এক রিপোর্টে উল্লেখ করে যে, যুক্তরাষ্ট্রের জনস্বাস্থ্য ক্ষেত্র বছরে ৩০০ বিলিয়ন ডলারের বেশি খরচ বাঁচাতে পারবে যদি তারা সঠিকভাবে বিগ ডাটার প্রয়োগ করে। ইউরোপের উন্নত দেশগুলো বিগ ডাটা কাজে লাগিয়ে সিদ্ধান্ত গ্রহণ এবং দক্ষতা বৃদ্ধি করে বছরে ১০০ বিলিয়ন ইউরোর বেশি বাঁচাতে পারবে। আর বিগ ডাটাকে যদি আরো কাজে লাগানো হয় (যেমন- ফ্রড এবং ভুল কমানো, ট্যাক্স সংগ্রহ) তাহলে এই সংখ্যা আরো অনেকখানি বেড়ে যাবে।
বিগ ডাটা নিয়ে কাজ করার জন্য বর্তমানে সবচেয়ে ভাল ওপেন-সোর্স প্ল্যাটফর্ম হচ্ছে হাডুপ (Hadoop)। বিগ ডাটা অ্যানালিটিক্সের জন্য হাডুপ ব্যবহার করছে অনেক বড় বড় কোম্পানি। চাকরিজীবীদের জন্য জনপ্রিয় সোশ্যাল ওয়েবসাইট লিনকডইন (Linkedin) হাডুপ ব্যবহার করে প্রতি সপ্তাহে ১০০ মিলিয়নের বেশি চাকরির প্রস্তাবনা তৈরি করছে। যার ফলে লিনকডইন ব্যবহারকারীরা শুধু তার পছন্দের সেক্টরের চাকরির প্রস্তাবগুলোই দেখতে পায়।
প্রফেসর ড. সাজ্জাদ হোসেন: ডিপার্টমেন্ট অব কম্পিউটার অব সাইন্স এন্ড ইঞ্জিনিয়ারিং, ইউনিভার্সিটি অব লিবারেল আর্টস বাংলাদেশ
বাংলাদেশ সময়: ১৮৫০ ঘণ্টা, আগস্ট ৬, ২০১৭
জেডএম/