বিজ্ঞানী, প্রযুক্তিবিদ ও পেশাজীবিদের মিলনকেন্দ্র

তথ্যপ্রযুক্তি

এআই রেসে নতুন বিপ্লব: ডিপসিক বনাম আমেরিকার আধিপত্য!

EmraJanuary 29, 20251 Mins read1.4k Views

রাফিউল সাব্বির

চায়নার সাথে টেক্কা দিতে যেয়ে আমেরিকা তাদের শক্তির এমন কোনো জায়গা নাই যেটা ইউজ করেনি/করে না। হুয়াওয়ে দিয়ে চায়না নেটওয়ার্কিং রিলেটেড মার্কেট দখল করতে যাচ্ছিলো, ব্যান। টিকটক আমেরিকান ইয়ুথদের প্রথম পছন্দের সোশ্যাল মিডিয়া কিন্তু নন-আমেরিকান কোম্পানি বলে মনিটরিং এবং ইনফরমেশন কন্ট্রোল করতে পারে না, ব্যান। চায়নাও আমেরিকান ম্যাক্সিমাম ওয়েল নোন এ্যাপ ওদের দেশে ব্যান করে রাখছে, প্রতিটা এ্যাপেরই চায়নিজ ভার্সন আছে।

তবে চায়নাকে আমেরিকা সবচেয়ে বেশি পেইন দিছে সেমিকন্ডাক্টর নিয়ে। চায়না যেনো সেমিকন্ডাক্টর(এবং এআই) রেসে আগায়ে না যায় এইজন্য আমেরিকান জায়ান্টদের(NVidia, AMD, Intel) চায়নায় চিপ বিক্রি নিষিদ্ধ। আবার চায়না যাতে নিজেরা চিপ বানাতে না পারে সেজন্য পৃথিবীর সবচেয়ে বড় চিপ ম্যানুফ্যকচারার তাইওয়ানের TSMC(Taiwan Semiconductor Manufacturing Company Limited) এবং চিপ ম্যানুফ্যাকচারিংয়ের সবচেয়ে সফিস্টিকেটেড টেক বানায় যারা, ডাচ কোম্পানি ASML, এদের উপরও নানা বিধিনিষেধ আছে আমেরিকার। সোজা কথায় আমেরিকা তাদের ক্ষমতার মধ্যে আছে হেন উপায় নাই যা ব্যবহার করতেছে না চায়নাকে আটকানোর।

অবশ্য চায়নাও কম না, এরা শেল কোম্পানি খুলে অন্য দেশ থেকে এইসব আমেরিকান কোম্পানির চিপ কিনে দেশে নিয়ে যেয়ে রিভার্স ইঞ্জিনিয়ারিং করে অনেককিছু ক্র‍্যাক করে ফেলছে। রিভার্স ইঞ্জিনিয়ারিংকে ওরা শিল্পের পর্যায়ে নিয়ে গেছে। তবে এবার ওরা যেটা করছে সেটা সম্ভবত এখন পর্যন্ত ওদের করা কাজগুলার মধ্যে সবচেয়ে বড় এবং ইমপ্যাক্টফুল।

চায়নিজ এক স্টার্টাপ একটা LLM(Large Language Model) বানাইছে যেটা সমসাময়িক অন্য সব LLM(যেমন chatgpt, claude, Llama)র চেয়ে বেটার পারফর্ম করে এবং এটা বানাতে ঐ কোম্পানির খরচ হইছে দুই মাসে মাত্র ৬ মিলিয়ন ডলার যেখানে উপরে বলা বাকি সব LLMর খরচ মাল্টিবিলিয়ন ডলারের উপরে অর্থাৎ আমেরিকান মডেলগুলার চেয়ে ভালো মডেল তারা বানাইছে কয়েকগুণ কম খরচে।

সেই মডেলের নাম Deepseek-R1 আর যে কোম্পানি এটা বানাইছে তার নাম, Deepseek।

Deepseek নিয়ে মাতামাতির অনেক কারণ আছে।

১) উপরে যেটা বললাম, চায়নায় যেহেতু লেটেস্ট GPU বেচতে পারে না Nvidia, ডিপসিক পুরানো Nvidia চিপ দিয়েই মডেল ট্রেইন করছে। কিন্তু হার্ডওয়্যার অপ্টিমাইজেশনে না যেয়ে ওরা সফটওয়্যার অপ্টিমাইজ করছে অর্থাৎ কোড এমনভাবে অপ্টিমাইজ করছে যাতে মেমোরি কম লাগে এবং পুরানো চিপের যা সক্ষমতা সেটার পুরাটাই ব্যবহার করা যায়।

হার্ডওয়্যার লেয়ারে অপ্টিমাইজেশনের সুযোগ যেহেতু নাই, এ্যাপ্লিকেশন লেয়ারে অপ্টিমাইজেশন করে ওরা সেটাকে ওভারকাম করছে।

২) এআই মডেল ট্রেইন করার সময় সবকিছু আপডেট করা লাগে, এমনকি যা ব্যবহার হচ্ছে না সেগুলাও; এইটা একটা বিশাল রিসোর্স লস। Deepseek এখানে যুগান্তকারী কাজ করছে। সবকিছু আপডেট না করে যা যা দরকার শুধুমাত্র সেই অংশ আপডেট করছে। এরা একটা টেকনিক(Auxiliary-Loss-Free Load Balancing) ব্যবহার করে মাত্র ৫% প্যারামিটার আপডেট করে মডেল ট্রেইন করছে মানে ৯৫% GPU ইউজ কম হইছে। আর GPU ইউজ কম হওয়া মানেই কম খরচ হওয়া এবং হেভি প্রসেসিং কম হওয়া মানে কম সময়ে মডেল ট্রেইন হওয়া।

৩) এআই মডেল যখন আউটপুট জেনারেট করে(inference বলে) তখন প্রচুর মেমোরি লাগে যেটা এক্সপেন্সিভ। Deepseek মেমোরি যাতে কম ইউজ হয় এজন্য ডেটা কম্প্রেশন টেকনিক(Low-Rank Key-Value (KV) Joint Compression) ইউজ করছে যেটা মেমোরি ইউসেজ কমাইছে, আউটপুট দ্রুত দিছে এবং খরচ বাচাইছে; সবদিকে উইন উইন।

৪) ডিপসিক মডেলকে ট্রেডিশনালি সব ধরনের টাস্ক দিয়ে ট্রেইন না করায়ে যেসব টাস্কের রেজাল্ট ভ্যারিফাই করা সম্ভব সেসব টাস্ক দিয়ে ট্রেইন করাইছে। ধরেন ওকে একটা কোড লিখতে বলা হলো, ও কোড আউটপুট দিলো। আউটপুট ঠিক হলে ওকে বলা হবে ‘গুড জব’, এরপরের বার থেকে এমন প্রবলেম আসলে এইভাবে কোড লিইখো। আর ভুল আউটপুট দিলে কি ভুল আছে সেগুলা দেখায়ে দিয়ে আবার কোড করতে বলা হইছে যতোক্ষণ না উত্তর সঠিক দেয়।

এইটা খুব কমন প্রসেস মনে হচ্ছে না? আমরা ছোট থেকে নরমালি যেভাবে শিখি ট্রায়াল এ্যান্ড এররের মাধ্যমে তেমন! একটা অংক করতে পারলে আমরা মাথায় রাখি যে সলভ করার প্রসেসটা কি যেনো পরেরবার একই ধরনের অংক আসলে করতে পারি। আর ভুল হলে কি ভুল হলো সেটা দেখায়ে দিলে আবার অংকটা করি যতোক্ষণ না উত্তর ঠিক আসে। এইটাকে বলে reinforcement learning।

Deepseek এই ট্রায়াল এ্যান্ড এরর মেথড ইউজ করে মডেল ট্রেইন করছে। এতে মডেল যেমন দ্রুত স্মার্ট হইছে তেমনি ওর চিন্তা এবং রিজনিং করার ক্ষমতাও সময়ের সাথে বাড়ছে।

৫) ওরা মডেলটা MIT licenceর আন্ডারে ওপেন সোর্স করে দিছে। অর্থাৎ পৃথিবীর যে কোনো মানুষ/প্রতিষ্ঠান, যারা LLM নিয়ে কাজ করতে চায়, তারা বিনামূল্যে মডেলটা ইউজ করে নিজেদের মতো করে মডিফাই করে প্রোডাক্ট বানাতে পারবে। এইটা একটা বিশাল ব্যাপার। এমন শক্তিশালী একটা মডেল যদি পাবলিকলি এ্যাভেইলেবল হয় তখন সবচেয়ে বেশি সুবিধা হয় ছোট উদ্যোক্তা এবং রিসার্চারদের, তারা নিজেদের প্রজেক্ট/গবেষণার কাজ অনেক কম/বিনা খরচে করতে পারে।

আইরনিকালি ইলন মাস্করা যখন OpenAI শুরু করে তখন ওদের উদ্দেশ্যও একই টাইপের ছিলো, এআই’কে ডেমোক্রেটাইজ করা, ওদের নামেই ওপেন আছে। অথচ তারা কিছুদিন আগে উল্টা নন-প্রফিট থেকে ফর-প্রফিট কোম্পানি হইছে।

Deepseekর এই কাজটা পৃথিবীর ইতিহাস একটা বড় মাইলস্টোন হয়ে থাকবে। কিভাবে ‘যা আছে তাই নিয়ে’ এমন অসাধারণ জিনিস বানানো সম্ভব যেটা পুরা দুনিয়াকে তাক লাগায়ে দিতে পারে তাও অনেক অনেক কম খরচে; ওরা চোখে আঙ্গুল দিয়ে দেখায় দিছে। এবং এই অসাধারণ কাজকে শতভাগ কমার্শিয়ালাইজ না করে ওপেন সোর্স করে দিছে যেনো পুরা পৃথিবীর মানুষ এটার এ্যাকসেস পায়।

এই কোম্পানির মালিক ৪০ বছর বয়সী লিয়াং ওয়েনফ্যাং যে একটা কোয়ান্ট ট্রেডিং হেজ ফান্ডের মালিক। ওরা মুলত এই মডেল বানাইছিলো ওদের কোয়ান্ট ট্রেডিংয়ের কিছু গাণিতিক কাজ এআই’কে দিয়ে করানোর জন্য, পরবর্তীতে যখন মডেল দাড়ায়ে গেছে এবং অন্যান্য মডেলকে আউটপারফর্ম করছে তখন ওরা এটা বাইরে আনছে এবং উন্মুক্ত করে দিছে সবার জন্য। এই মডেল বানানোর পিছনের ম্যাথমেটিকাল ব্রেইনগুলা চায়নার অন্যতম সেরা দুই বিশ্ববিদ্যালয়- পিকিং ইউনিভার্সিটি এবং সিংহুয়া ইউনিভার্সিটির। এই মডেল তাই ‘বানাতে বানাতে হয়ে গেছে’ টাইপের কিছু না, এর পিছে খুব শার্প কিছু মানুষ আছে।

ডিপসিক আসায় আপাততো সবচেয়ে বেশি বিপদে পড়ছে দুইটা কোম্পানি: OpenAI আর Nvidia।

OpenAI ওদের প্রিমিয়াম মডেলের জন্য যে চার্জ করে সেটার চেয়ে ডিপসিকের খরচ কয়েকগুণ কম অর্থাৎ মার্কেটে টিকে থাকতে হলে এখন OpenAIকে ওদের প্রাইস কমাতে হবে। কিন্তু OpenAIর মডেল ট্রেইন এবং ইনফার করার কস্ট যেহেতু অনেক বেশি, প্রাইস কমালে ওদের লস কমবে না বরং বাড়বে। ওরা সামনে এটাকে কিভাবে ট্যাকল করে সেটা দেখার বিষয়, এটা করতে না পারলে ওদের বিপদ আছে।

আর Nvidia ধরা খাবে দামি GPU বিক্রি করতে। Nvidia অনেক বেশি ওভারভ্যালুড একটা কোম্পানি এবং ওদের ভ্যালুয়েশন দাড়ায়ে ছিলো এআই জগতে ওদের GPUর একছত্র আধিপত্যের কারণে। এখন যেহেতু ডিপসিক প্রমাণ করে দিলো সব কাজে ফ্যান্সি GPU দরকার নাই, সামনে অনেক কোম্পানি এইটা নিয়ে কাজ করবে এবং আমরা আরো কম খরচে আরো ভালো মডেলও পেতে পারি। সোজা কথায় সামনের দিনগুলায় কোম্পানিগুলার লক্ষ্য হবে কিভাবে স্বস্তা জিপিইউ ইউজ করে মডেল ট্রেইন করা যায়। যদি সেটাই হয় তাহলে Nvidiaর রেভিনিউ কি আগের মতো থাকবে?

OpenAI পাবলিক কোম্পানি না তাই পাবলিক রিয়েকশনের পুরাটাই গেছে Nvidiaর উপর দিয়ে। গতকাল ওদের স্টক প্রাইস ১৭% নামছে এবং একদিনে ভ্যালুয়েশন কমছে ৫৯৩ বিলিয়ন ডলার যেটা স্টক মার্কেটের ইতিহাসে একদিনে সবচেয়ে বেশি ভ্যালুয়েশন কমার রেকর্ড। এইগুলা অবশ্য মার্কেটের শর্ট টাইম রিয়েকশান, ব্যক্তিগত মতামত(ফাইনান্সিয়াল এ্যাডভাইজ না) হলো Nvidiaর প্রাইস বাউন্স ব্যাক করবে, OpenAI কি করে সেটাই দেখার বিষয়।

এখন ভবিষ্যৎ নিয়ে কিছু ভাবনা বলি:

১) আমেরিকা উঠে পড়ে লাগবে কিভাবে ডিপসিককে প্যারা দেয়া যায়। যেহেতু ডিপসিক ওপেনসোর্স এবং একটা আমেরিকান পাবলিক লাইসেন্সের(MIT) আন্ডারে তাই হুয়াওয়ে বা টিকটকের মতো ব্যান করা ডিফিকাল্ট হবে সিকিউরিটি কনসার্নের দোহায় দিয়ে তবে ওরা সর্বাত্মক চেষ্টা করবে।

এমনও হতে পারে যে কিছুতেই কিছু না পারলে গায়ের জোরেই বন্ধ করবে। আর এই সুযোগে আমেরিকায় চায়নিজদের প্রতি ঘৃণা বাড়ার সম্ভাবনা আছে।

২) ট্রাম্প আসার পরই ৫০০ বিলিয়নের ‘Stargate’ প্রজেক্ট ঘোষণা করছে OpenAI, Oracle আর Softbankকে নিয়ে। বাইরে থেকে যেমনই দেখাক, এই প্রজেক্ট সিনেট থেকে পাশ করাইছে মেইনলি মাইক্রোসফট। ডিপসিকের এই বহিঃপ্রকাশ এই প্রজেক্টকে সফল করার জন্য আরো বেশি চাপে ফেলবে OpenAIর প্যারেন্ট কোম্পানি মাইক্রোসফটকে।

এমনিও কানাঘুষা আছে যে মাইক্রোসফটের এআই চিফ মুস্তাফা সুলাইমানের সাথে স্যাম আল্টম্যানের সম্পর্ক ভালোনা তাই সামনের দিনগুলায় মাইক্রোসফট কিভাবে পারসোনালিটি ক্ল্যাশ ট্যাকল করে ডিপসিকের চেয়ে ভালো কিছু বানাবে সেটা দেখার বিষয়। হয়তো আমরা দেখবো এদের একজন বের হয়ে যাবে মাইক্রোসফট/OpenAI থেকে।

৩) এআই গবেষকদের জন্য এইটা হিউজ ডিল। এই লেভেলের মডেল ওপেনসোর্স হওয়ায় এআই আরো রিসার্চ অনেক আগাবে এবং অচিরেই কিভাবে কমোডিটি হার্ডওয়্যার দিয়ে লার্জ স্কেল এআই ট্রেইন এবং ইনফার করা যায় এই বিষয়ক গবেষণা দেখবো।

এআই আরো স্বস্তা, এফোর্টেবল, ওয়াইডলি এ্যাকসেসিবল হবে।

৪) প্রচুর গারবেজ এবং স্ক্যাম এ্যাপ আসবে মার্কেটে ডিপসিক ইউজ করে বা ইউজ করার দাবি করে যারা মানুষের কাছ থেকে টাকা হাতায়ে নিবে ক্রিপ্টো, ডে ট্রেডিং, ফোরেক্স ট্রেডিং, মাল্টিলেভেল মার্কেটিং ইত্যাদি নানান কথা বলে।

৫) চায়না এখনো (সম্ভবত) ৩ ন্যানোমিটার চিপ বানাতে পারেনি TSMC আর ASMLর রেস্ট্রিকশনের কারণে, এইটা ক্র‍্যাক করতে পারলে এবং সেটা আমেরিকার এই বিধিনিষেধের মধ্যে থেকে করতে পারলে আরেকটা বিশাল ব্যাপার হবে।

আর সেটা হলে চায়না কি করবে সেটাই দেখার বিষয়।

৬) চায়না আরেকটা টেকনোলজি(যেটা আসলে নেক্সট বিগ থিংগ) কোয়ান্টাম কম্পিউটার গবেষণায়ও অনেক আগায়ে গেছে। ওরা যেহেতু ব্ল্যাকবক্স, বাইরে থেকে বোঝা যাচ্ছে না করতেছে কি, তাই নিজেরা না বলা পর্যন্ত বোঝা কঠিন তবে চায়না যদি ২০২৫/২৬এ কোয়ান্টাম কম্পিউটিংয়ে কোনো ব্রেকথ্রু নিয়ে আসে তাহলে জায়ান্ট কোম্পানিগুলা(গুগল, আইবিএম) এবং খোদ আমেরিকার জন্য সেটা আরো থ্রেটেনিং হবে।

শেষ করি এক বড় ভাইয়ের কথা দিয়ে। কথাপ্রসঙ্গে একদিন ভাই বলতেছিলো, এই যে আমেরিকা কথায় কথায় চায়নাকে দাবড়ায় এইটা আমাদের দেশের কিছু মানুষ যেমন বাসার কাজের লোক বা রাস্তায় কুকুর বিড়ালের সাথে অহেতুক বাজে ব্যবহার করে এমন, সবসময় ফাপর না দিলেও হয়। যেদিন চায়নার হাতে ক্ষমতার ব্যাটন যাবে, চায়না আমেরিকাকে উঠতে বসতে এমন ফাপর দিবে যে এরা কাপড় সামলানোর সময় পাবে না। চায়না সুদে আসলে আমেরিকার এইসবের শোধ তুলবে।

প্রশ্ন হলো এই ব্যাটন হাতবদল হবে কবে! আর হলেও কি আমরা সাধারণ মানুষেরা শান্তি পাবো? আমেরিকান স্টাইলের মিডল ইস্টার্ন ‘শান্তি’ না, প্রকৃত অর্থে শান্তি?

বিদ্র: ফেসবুক থেকে সংগ্রহীত:——–https://www.facebook.com/share/p/17UVqrJsSh/