বিজ্ঞানী, প্রযুক্তিবিদ ও পেশাজীবিদের মিলনকেন্দ্র

“কম্পিউটার ভিশনের কাজ হলো মেশিনকে মানুষের মতো দেখার ক্যাপাবিলিটি দেওয়া।”—ড. আলিমুর রেজা

biggani orgMarch 11, 20261 Mins read276 Views

আমরা মানুষ চোখ খুললেই চারপাশের জগৎকে চিনে ফেলি—চেয়ার কোথায়, দরজা কোথায়, কে মানুষ আর কে শুধু পোস্টারের ছবি। অথচ কম্পিউটারের কাছে একটি ছবি শুরুতে কেবল অসংখ্য রঙের বিন্দু—পিক্সেল (ছবির ক্ষুদ্র রঙিন কণা)। মানুষের মস্তিষ্ক যেমন এই বিন্দুগুলো থেকে অর্থ তৈরি করে, কম্পিউটার ভিশন ঠিক তেমনই কম্পিউটারকে শেখায়—কোন বিন্দুগুলো মিলে “মানুষ”, কোনগুলো মিলে “রাস্তা”, আর কোনগুলো “দেয়াল”। এটাই “ভিজ্যুয়াল ইন্টেলিজেন্স”—দেখে বোঝার বুদ্ধিমত্তা।

ড. আলিমুর রেজার গবেষণার কেন্দ্রে যে কাজটি বারবার ফিরে আসে, তা হলো সেমান্টিক সেগমেন্টেশন (ছবিকে অর্থপূর্ণ অংশে ভাগ করে প্রতিটি অংশকে নাম দেওয়া)। ধরুন, একটি ছবিতে একজন মানুষ দাঁড়িয়ে আছেন, পেছনে দেয়াল, পাশে জানালা। সাধারণভাবে একটি সিস্টেম বলতে পারে, “এখানে মানুষ আছে।” কিন্তু সেগমেন্টেশন আরও এক ধাপ এগিয়ে বলে—ছবির কোন কোন অংশটি মানুষ, কোনটা দেয়াল, কোনটা জানালা। যেন পুরো ছবিটা মানচিত্রের মতো—প্রতিটি অঞ্চলে আলাদা লেবেল বসানো। রোবটের জন্য এটাই খুব গুরুত্বপূর্ণ, কারণ রোবটকে যদি ঘরে কাজ করতে হয়, তাকে জানতে হবে কোথায় হাঁটবে, কোথায় থামবে, কোনটা বাধা, কোনটা নিরাপদ পথ। মানুষ যেমন অন্ধকারে চলার সময় হাত দিয়ে দেয়াল ছুঁয়ে দিক বোঝে, রোবটকে সেই দিক বোঝাতে লাগে দেখার বিজ্ঞান।

এখানে চমকটা হলো—এআই যত উন্নত হচ্ছে, “দেখা” তত সহজ হওয়ার কথা মনে হলেও বাস্তবে এটি এখনো পুরোপুরি সমাধান হয়ে যায়নি। কারণ কম্পিউটার ভিশনের বড় অংশই মেশিন লার্নিং (ডেটা থেকে শেখার পদ্ধতি) এবং ডিপ লার্নিং (বহুস্তর নিউরাল নেটওয়ার্কভিত্তিক শেখা)-এর ওপর নির্ভর করে। অর্থাৎ যন্ত্রের শেখা অনেকটাই নির্ভর করে কী ধরনের ডেটা তাকে দেখানো হলো, আলো–ছায়া কেমন, পরিবেশ কতটা জটিল, আর মডেলের ক্ষমতা কতটা। আপনি যেমন অল্প অনুশীলনে জটিল অঙ্কে ভুল করেন, যন্ত্রও তেমন—একই বস্তু ভিন্ন আলোতে বা ভিন্ন কোণ থেকে দেখলে বিভ্রান্ত হতে পারে। এই সীমাবদ্ধতাই গবেষণাকে এগিয়ে নিয়ে যায়—কারণ “যন্ত্রকে দেখা শেখানো” মানে শুধু চমকপ্রদ ডেমো নয়, বরং বাস্তব জগতে নির্ভরযোগ্য সিদ্ধান্ত দেওয়ার দীর্ঘ অনুশীলন।

কম্পিউটার ভিশনের প্রভাব তাই কেবল গবেষণাগারেই সীমাবদ্ধ নয়। শহরের ট্রাফিক ব্যবস্থায় গাড়ি শনাক্তকরণ, রাস্তার আইন ভাঙা ধরতে ক্যামেরাভিত্তিক নজরদারি, শিল্পকারখানায় পণ্যের ত্রুটি ধরা, কৃষিতে ফসলের রোগ শনাক্ত—সবখানেই এই “যন্ত্রের চোখ” কাজে লাগতে পারে। বাংলাদেশে যেমন যানজট ও সড়ক ব্যবস্থাপনা বড় সমস্যা, তেমনি তৈরি পোশাক শিল্পে মান নিয়ন্ত্রণ, নদীভাঙন/বন্যার সময় ড্রোন-চিত্র বিশ্লেষণ—এসব ক্ষেত্রেও কম্পিউটার ভিশনের বাস্তব ব্যবহার কল্পনা করা যায়। অর্থাৎ প্রযুক্তিটি যতই “হাই-টেক” শোনাক, তার শেকড় শেষ পর্যন্ত মানুষের দৈনন্দিন চাহিদাতেই গাঁথা।

ড. আলিমুর রেজার উদ্ধৃতিটি তাই একটি গবেষণা-ঘোষণা নয়; এটি ভবিষ্যতের সমাজের জন্য একটি দিকনির্দেশ। কারণ আগামী দিনে রোবট, স্মার্ট ক্যামেরা, স্বয়ংক্রিয় যান—সবই এক প্রশ্নের সামনে দাঁড়াবে: তারা কি সত্যিই বুঝতে পারছে, নাকি শুধু হিসাব করছে? কম্পিউটার ভিশন সেই বোঝার ক্ষমতাকেই ধীরে ধীরে বাস্তব করে তুলছে—আর সেই যাত্রার ভেতরেই আছে বাংলাদেশের তরুণদের জন্য অনুপ্রেরণা: গণিত, প্রোগ্রামিং, আর কৌতূহল—এই তিনটি জিনিস একসাথে হলে, “যন্ত্রের চোখ” বানানোর অভিযাত্রায় আপনিও অংশ নিতে পারেন।

পূর্ণ সাক্ষাৎকারে ড. আলিমুর রেজা তার শিক্ষা–যাত্রা, গবেষণার খুঁটিনাটি, রোবটের ভবিষ্যৎ, এবং এআই ব্যবহারের বাস্তব প্রশ্নগুলো আরও বিস্তারিতভাবে বলেছেন। নিম্নে ড. আলিমুর রেজার পূর্ণ সাক্ষাৎকারটি পড়ুন এবং ইউটিউবে দেখুন।