“এই পাগলামি কেউ পাত্তা দেয় না”
১৯৮০-এর দশক। ম্যাসাচুসেটস অঙ্গরাজ্যের এক বিশ্ববিদ্যালয়ের ল্যাবে দুই গবেষক গভীর আলোচনায় মগ্ন। অ্যান্ড্রু বার্টো ও রিচ সাটন, যাদের গবেষণার বিষয়বস্তু তখনকার দিনের চোখে একেবারেই অকাজের। তাদের ধারণা ছিল, কম্পিউটারকে মানুষ ও প্রাণীর মতো অভিজ্ঞতা থেকে শিখতে শেখানো সম্ভব। কিন্তু সেই সময়ে বেশিরভাগ বিশেষজ্ঞ বলতেন, “কম্পিউটার শুধু তখনই কাজ করবে, যখন তাকে নিয়ম দেওয়া হবে!”
কিন্তু বার্টো ও সাটনের বিশ্বাস ছিল অন্যরকম। তাদের গবেষণা ছিল “রিইনফোর্সমেন্ট লার্নিং” নামে একটি পদ্ধতির ওপর, যেখানে কোনো কম্পিউটার বা রোবট বিভিন্ন সিদ্ধান্ত নিয়ে অভিজ্ঞতার ভিত্তিতে শেখে। এটি অনেকটা মানুষের শিশুবয়সের শেখার প্রক্রিয়ার মতো—কোনো কাজ করলে যদি পুরস্কার পায়, তাহলে সে কাজটি আবার করতে চায়; আর যদি শাস্তি পায়, তাহলে সে কাজটি এড়িয়ে চলে।
তাদের কাজকে তখনকার কম্পিউটার বিজ্ঞানীরা খুব একটা গুরুত্ব দেননি। এক বিশেষজ্ঞ একবার মজা করে বলেছিলেন, “এটা তো যেন একটি মৃত ঘোড়াকে চাবুক মারা! এতে কিছু হবে না।” কিন্তু আজ সেই গবেষণাই কৃত্রিম বুদ্ধিমত্তার ভিত্তি স্থাপন করেছে।
এক সময়ের পাগলামি, আজকের বিপ্লব
আজকের দিনে এসে দেখা যাচ্ছে, সেই অবহেলিত গবেষণাই কৃত্রিম বুদ্ধিমত্তার সবচেয়ে গুরুত্বপূর্ণ স্তম্ভ হয়ে উঠেছে। “রিইনফোর্সমেন্ট লার্নিং” নামক এই প্রযুক্তিই গুগলের “আলফাগো” তৈরি করতে সাহায্য করেছে, যা ২০১৬ সালে বিশ্বচ্যাম্পিয়ন গো খেলোয়াড়কে হারিয়ে সবাইকে অবাক করে দেয়।
এখনকার চ্যাটবট, স্বয়ংক্রিয় গাড়ি, বিজ্ঞাপনী অ্যালগরিদম এমনকি চিকিৎসা ও রোবটিক্সেও এই পদ্ধতি ব্যবহৃত হচ্ছে। এই অসাধারণ অবদানের জন্য বার্টো ও সাটন এবার পেলেন কম্পিউটার বিজ্ঞানের সর্বোচ্চ সম্মান, টিউরিং পুরস্কার।
“আমার মনে আছে, যখন আমরা প্রথম কাজ শুরু করি, তখন অনেকেই বলত, ‘এটা দিয়ে কী হবে?’ আজ আমি তাকিয়ে দেখি, আমাদের কাজ বিশ্ব বদলে দিয়েছে!”—বলেন অধ্যাপক অ্যান্ড্রু বার্টো।
বিশ্বখ্যাত এআই গবেষক ইয়ান লেকুন এক বিবৃতিতে বলেন, “বার্টো ও সাটনের কাজ ছাড়া রিইনফোর্সমেন্ট লার্নিং এই উচ্চতায় পৌঁছাতে পারত না। এরা কৃত্রিম বুদ্ধিমত্তার পথিকৃৎ।”
রিইনফোর্সমেন্ট লার্নিং: কীভাবে কাজ করে?
রিইনফোর্সমেন্ট লার্নিং এক প্রকার মেশিন লার্নিং পদ্ধতি, যেখানে কম্পিউটার একটি কাজ শেখে পুরস্কার ও শাস্তির মাধ্যমে। এটি তিনটি প্রধান উপাদানে গঠিত:
১. এজেন্ট (Agent) – যে সিদ্ধান্ত নেয় ও কাজ করে। ২. পরিবেশ (Environment) – যেখানে এজেন্ট কাজ করে এবং প্রতিক্রিয়া পায়। ৩. পুরস্কার (Reward) – কোনো কাজ সঠিক হলে পজিটিভ রিওয়ার্ড, ভুল হলে নেগেটিভ রিওয়ার্ড।
ধরা যাক, আপনি একটি রোবট বানিয়েছেন যা ফুটবল খেলতে শিখছে। প্রথমে এটি এলোমেলোভাবে বল মারবে। যদি বল গোলপোস্টে যায়, তবে এটি পজিটিভ রিওয়ার্ড পাবে এবং ভবিষ্যতে একইভাবে শট নেওয়ার চেষ্টা করবে। আর যদি বল বাইরে চলে যায়, তবে এটি শাস্তি পাবে এবং ভবিষ্যতে সে ভুলটি এড়িয়ে চলবে। ধীরে ধীরে এটি শিখে যাবে কিভাবে ভালো ফুটবল খেলা যায়।
যেখানে রিইনফোর্সমেন্ট লার্নিং অপরিহার্য
এই প্রযুক্তি শুধুমাত্র খেলাধুলার জন্য নয়, বরং বাস্তব জীবনের বহু ক্ষেত্রে ব্যবহৃত হচ্ছে:
- স্বয়ংচালিত গাড়ি: টেসলা বা ওয়েমোর স্বয়ংক্রিয় গাড়ি চালানো শিখছে এই পদ্ধতিতে।
- চিকিৎসা: ক্যান্সার সনাক্তকরণ থেকে শুরু করে নতুন ওষুধের গবেষণায় ব্যবহৃত হচ্ছে।
- শিল্প ও উৎপাদন: রোবটিক্স এবং স্বয়ংক্রিয় উৎপাদনশিল্পে এটি বিপ্লব ঘটাচ্ছে।
- অর্থনীতি: শেয়ার বাজারের গতিবিধি বুঝতে ও স্বয়ংক্রিয় লেনদেনে ব্যবহৃত হচ্ছে।
গুগলের এআই গবেষক জেফ ডিন বলেন, “বার্টো ও সাটনের কাজ ছাড়া আধুনিক কৃত্রিম বুদ্ধিমত্তার অগ্রগতি সম্ভব হতো না।”
কঠিন পথ, কিন্তু সফলতার শিখর
অধ্যাপক রিচ সাটন বলেন, “আমাদের শুরুটা ছিল একেবারেই অন্ধকারের মধ্যে। কিন্তু আমরা জানতাম, একদিন এই পদ্ধতি সফল হবেই।”
তাদের গবেষণার অন্যতম প্রধান অনুপ্রেরণা ছিল ১৯৫০ সালে অ্যালান টুরিং-এর সেই বিখ্যাত গবেষণা, যেখানে তিনি বলেছিলেন, “একদিন মেশিন অভিজ্ঞতা থেকে শিখতে পারবে এবং চিন্তা করতে পারবে মানুষের মতো।”
সত্যিই তাই ঘটেছে। আজকের দিনে এআই শুধু তথ্য বিশ্লেষণ করে না, বরং অভিজ্ঞতা থেকে শেখে এবং ভবিষ্যৎ অনুমান করতে পারে।
আগামীর দিগন্ত
রিইনফোর্সমেন্ট লার্নিং-এর ভবিষ্যৎ সম্ভাবনা বিশাল। বিজ্ঞানীরা এখন এমন কৃত্রিম বুদ্ধিমত্তা তৈরি করতে চান, যা সম্পূর্ণ স্বায়ত্তশাসিত হয়ে শিখতে পারবে।
“এখনো পর্যন্ত আমরা এআই-কে নির্দিষ্ট লক্ষ্য দিয়ে শেখাই, কিন্তু ভবিষ্যতে এআই নিজেই নতুন কিছু শেখার জন্য উদ্দীপিত হবে,” বলেন অধ্যাপক সাটন।
কিন্তু এই প্রযুক্তির ব্যবহারে কিছু চ্যালেঞ্জও রয়েছে। “এআই যদি ভুল সিদ্ধান্ত নেয়, তবে এটি মানবজাতির জন্য ক্ষতিকরও হতে পারে,” মন্তব্য করেন অধ্যাপক বার্টো।
বিশেষজ্ঞরা বলছেন, এই প্রযুক্তি ব্যবহারে নৈতিকতা ও স্বচ্ছতার বিষয়টি নিশ্চিত করা অত্যন্ত জরুরি।
শেষ কথা
একদিন যে গবেষণাকে অবহেলা করা হয়েছিল, আজ তা বিশ্বজুড়ে বিপ্লব সৃষ্টি করেছে। রিচ সাটন ও অ্যান্ড্রু বার্টো শুধুমাত্র কৃত্রিম বুদ্ধিমত্তার নতুন দিগন্ত উন্মোচন করেননি, বরং আমাদের শেখার প্রক্রিয়া নিয়েও নতুন করে ভাবতে শিখিয়েছেন।
একজন তরুণ এআই গবেষকের মন্তব্য, “আমি যখন প্রথম রিইনফোর্সমেন্ট লার্নিং সম্পর্কে পড়ি, তখন এটি আমাকে রীতিমতো বিস্মিত করেছিল! এটাই ভবিষ্যতের পথ।”
টিউরিং পুরস্কার পাওয়ার পর অধ্যাপক বার্টো হেসে বললেন, “আমরা হয়তো একটু একগুঁয়ে ছিলাম, কিন্তু সেটাই আজ আমাদের এখানে এনে দিয়েছে!”
একটি মৃত ঘোড়াকে চাবুক মারার মতো মনে হওয়া সেই গবেষণা আজ কৃত্রিম বুদ্ধিমত্তার অন্যতম শক্তিশালী হাতিয়ার। ভবিষ্যতে এর মাধ্যমে আরও কত চমক অপেক্ষা করছে, সেটাই এখন দেখার বিষয়!
Leave a comment