যদি একটি প্যালেটে 200টি বাক্স গণনা করতে 10 মিনিটের বদলে 3 সেকেন্ড লাগত? ইনভেন্টরিতে AI-চালিত ইমেজ রিকগনিশনের এটাই প্রতিশ্রুতি। আপনি ক্যামেরা তাক করেন, একটি ছবি তোলেন, এবং লক্ষ লক্ষ বস্তুর উপর প্রশিক্ষিত একটি মডেল একটি ভিজ্যুয়াল ওভারলে সহ গণনা ফেরত দেয় যা সঠিকভাবে দেখায় এটি কী শনাক্ত করেছে।
এটি ভবিষ্যতের মতো শোনায়, কিন্তু প্রযুক্তিটি ইতিমধ্যে গুদাম, খুচরা দোকান এবং নির্মাণ সাইটে কাজ করছে। ম্যানুয়াল গণনা এবং AI-সহায়তা প্রাপ্ত গণনার মধ্যে ব্যবধান অধিকাংশ অপারেশন দলের প্রত্যাশার চেয়ে অনেক বেশি।
কম্পিউটার ভিশন ইনভেন্টরি ট্র্যাকিং বাজার প্রায় 18% CAGR হারে বৃদ্ধি পাচ্ছে এবং 2033 সালের মধ্যে 14 থেকে 16 বিলিয়ন ডলারে পৌঁছানোর অনুমান রয়েছে, যা ই-কমার্সের চাহিদা এবং ডিপ লার্নিংয়ের অগ্রগতি দ্বারা চালিত।
হাতে গণনার আসল খরচ
ম্যানুয়াল গণনা কয়েক দশক ধরে গুদামের ডিফল্ট পদ্ধতি, এবং এর দুর্বলতাগুলি ভালোভাবে নথিভুক্ত। স্বাভাবিক গতিতে কাজ করা একজন মানব গণনাকারী প্রায় 91% সঠিক, অর্থাৎ প্রতি 10টি আইটেমে প্রায় একটি ভুল। স্প্রেডশীটে ডেটা এন্ট্রি যোগ করলে ত্রুটির হার আরও 1 থেকে 3 শতাংশ বেড়ে যায়।
ত্রুটির বাইরে, সময়ের খরচও কঠিন। একটি সম্পূর্ণ গুদাম গণনায় 16 থেকে 20 ঘণ্টা লাগতে পারে এবং সাধারণত একটি পুরো দিনের জন্য অপারেশন বন্ধ রাখতে হয়। আংশিক সাইকেল কাউন্টও প্রতি সপ্তাহে স্টাফের 5 থেকে 10 ঘণ্টা সময় নেয়, যার খরচ প্রতি লোকেশনে প্রতি মাসে শুধু শ্রমেই প্রায় 500 থেকে 1,000 ডলার। একটি ছোট বা মাঝারি ব্যবসার জন্য, এটি আসল টাকা যা এমন একটি কাজে ব্যয় হচ্ছে যা সবাই এড়াতে চায়।
আপনি যদি এখনও সম্পূর্ণ বার্ষিক গণনার উপর নির্ভর করেন, আমাদের সাইকেল কাউন্টিং গাইড কম কষ্টকর ছন্দে কীভাবে পরিবর্তন করবেন তা ব্যাখ্যা করে। কিন্তু প্রতিটি ইউনিট হাতে গণনা করা হলে সাইকেল কাউন্টেরও একটি সীমা আছে।
ইমেজ রিকগনিশন কীভাবে স্টক গণনা করে
উচ্চ স্তরে, প্রক্রিয়াটি সহজবোধ্য। একটি ক্যামেরা - স্মার্টফোন হোক, তাকে লাগানো ফিক্সড ক্যামেরা হোক, বা ড্রোন হোক - আইটেমগুলির একটি ছবি তোলে। একটি ডিপ লার্নিং মডেল ছবিটি বিশ্লেষণ করে, প্রতিটি পৃথক বস্তু শনাক্ত করে, এবং প্রতিটি শনাক্তকৃত আইটেম চিহ্নিত করে একটি ভিজ্যুয়াল ওভারলে সহ মোট গণনা ফেরত দেয়।
বেশিরভাগ আধুনিক সিস্টেম YOLO (You Only Look Once)-এর মতো অবজেক্ট ডিটেকশন আর্কিটেকচার ব্যবহার করে, যা ছবির একটি মাত্র পাসে বস্তু শনাক্ত ও অবস্থান নির্ণয় করতে পারে। Springer-এর Multimedia Tools and Applications-এ প্রকাশিত 2026 সালের একটি গবেষণায় দেখা গেছে যে একটি ফাইন-টিউনড YOLOv11 মডেল গুদামের পরিস্থিতিতে 97% গণনা সঠিকতা অর্জন করেছে, যেখানে কম রেজোলিউশনের CCTV ফুটেজ এবং আলাদা করা কঠিন সাদা কাপড়ের রোলের মতো চ্যালেঞ্জিং পরিস্থিতিও অন্তর্ভুক্ত।
সুবিধা শুধু গতি নয়, যাচাইযোগ্যতাও। ছবি-ভিত্তিক গণনা প্রমাণ তৈরি করে: আপনি দেখতে পারেন মডেলটি কী শনাক্ত করেছে, এর কাজ পরীক্ষা করতে পারেন, এবং সময়ের সাথে ফলাফল তুলনা করতে পারেন। ম্যানুয়াল গণনা ক্লিপবোর্ডে শুধু একটি সংখ্যা দেয়। কীভাবে মেশিন লার্নিং বারকোড স্ক্যানিংকে রূপান্তরিত করেছে সম্পর্কে আমাদের নিবন্ধটি একটি অনুরূপ পরিবর্তন কভার করেছিল: হার্ডওয়্যার-নির্ভর প্রক্রিয়া থেকে সফটওয়্যার বুদ্ধিমত্তার দিকে এগিয়ে যাওয়া যা প্রতিটি আপডেটের সাথে উন্নত হয়।

আজ দলগুলি কোথায় এটি ব্যবহার করছে
Vimaan-এর AI স্ক্যানিং প্ল্যাটফর্ম প্রতি লোকেশনে 20 সেকেন্ডেরও কম সময়ে ইনভেন্টরি ডেটা ক্যাপচার করে, এবং গ্রাহকরা রিপোর্ট করেন যে সাইকেল কাউন্ট ম্যানুয়াল পদ্ধতির চেয়ে 40 গুণ দ্রুত, যেখানে কম শ্রম এবং এড়ানো ভুল শিপমেন্টে বছরে 150,000 থেকে 200,000 ডলার সাশ্রয় হয় (Vimaan)।
Southern Glazer's Wine and Spirits নয়টি বিতরণ কেন্দ্রে 40টিরও বেশি Corvus One ড্রোন মোতায়েন করেছে। ড্রোনগুলি 5,000 ফ্লাইট সম্পন্ন করেছে, 35,000-এর বেশি যাচাইকৃত অসঙ্গতি চিহ্নিত করেছে, এবং প্রতি সাইটে প্রতি সপ্তাহে 60 থেকে 70 শ্রম ঘণ্টা মুক্ত করেছে। অপারেশন ত্রৈমাসিক গণনা থেকে পাক্ষিক চক্রে পরিবর্তিত হয়েছে (Dronelife, মার্চ 2026)।
Focal Systems মুদি এবং খুচরা চেইনে তাকের প্রান্তে ক্যামেরা স্থাপন করে, প্রতিদিন 200 মিলিয়ন পণ্য 95%-এর বেশি সঠিকতায় স্ক্যান করে এবং প্রতিদিন প্রায় দশ লক্ষ আউট-অফ-স্টক ঘটনা শনাক্ত করে। সফল পাইলটের পর Walmart Canada সিস্টেমটি দেশব্যাপী দোকানগুলিতে সম্প্রসারিত করেছে (Focal Systems)।
পাইপ নির্মাতারা ট্রাক ও বান্ডলে পাইপের মুখ গণনায় AI ব্যবহার করে, যা ধীর ম্যানুয়াল গণনার স্থলাভিষিক্ত। নির্মাণ সাইটগুলি কাঠ, রিবার এবং স্তুপীকৃত উপকরণ নির্দিষ্ট আকৃতিতে প্রশিক্ষিত অবজেক্ট ডিটেকশন মডেল দিয়ে ট্র্যাক করে (Intelgic; MDPI Buildings, 2024)।

কী কাজ করে আর কী করে না
AI গণনা নির্দিষ্ট পরিস্থিতিতে দুর্দান্ত: একক বস্তুর ধরন, যুক্তিসঙ্গত আলো, এবং ক্যামেরার কোণ থেকে দৃশ্যমান আইটেম। অভিন্ন বাক্সের একটি প্যালেট, বোতলের একটি তাক, পাইপের একটি র্যাক, বা কার্টনের একটি সারি আদর্শ লক্ষ্য।
কিন্তু প্রযুক্তির স্পষ্ট সীমাবদ্ধতা আছে। অক্লুশন - যেখানে আইটেম অন্যের পিছনে বা নিচে লুকানো থাকে - সবচেয়ে বড় চ্যালেঞ্জ। অ্যাডিলেড বিশ্ববিদ্যালয়ের 2025 সালের একটি গবেষণায় দেখা গেছে যে বর্তমান মডেলগুলি তখন সমস্যায় পড়ে যখন বস্তু আংশিকভাবে লুকানো থাকে কারণ নেটওয়ার্ক লক্ষ্যের বদলে আড়াল করা পৃষ্ঠকে এনকোড করে। ব্যবহারিকভাবে: যদি একটি প্যালেটের 30% বাক্স দৃষ্টি থেকে আড়ালে থাকে, গণনা কম রিপোর্ট করবে।
অন্যান্য বাস্তব চ্যালেঞ্জের মধ্যে রয়েছে একাধিক ধরনের বস্তুর মিশ্র স্তূপ, যেখানে আইটেম ভারী ওভারল্যাপ করে সেই ঘন দৃশ্য, এবং পরিবর্তনশীল কোণ বা আলো যা মডেলের অনুমানগুলি ভেঙে দেয়। যখন দলগুলি যাচাই করতে পারে না কেন একটি সংখ্যা পাওয়া গেল, তারা ম্যানুয়াল পরীক্ষায় ফিরে যায়, এবং টুলটি ঘর্ষণ দূর করার বদলে যোগ করে।
সৎ সিদ্ধান্ত: AI গণনা একটি শক্তিশালী স্পট-চেক টুল এবং নিয়ন্ত্রিত পরিস্থিতিতে রুটিন গণনার ক্রমবর্ধমান বিকল্প। এটি প্রতিটি গণনা পরিস্থিতির সার্বজনীন বিকল্প নয়, অন্তত এখনো নয়।
বিনামূল্যে চেষ্টা করার একটি উপায়
কোনো প্ল্যাটফর্মে প্রতিশ্রুতিবদ্ধ হওয়ার আগে ছবি-ভিত্তিক গণনা কীভাবে কাজ করে দেখতে চাইলে, ZapCount একটি বিনামূল্যের, ওয়েব-ভিত্তিক টুল যা একটি মাত্র ছবি থেকে বস্তু গণনা করে। একটি ছবি আপলোড করুন এবং AI দৃশ্যের সবচেয়ে প্রধান বস্তুগুলি শনাক্ত ও গণনা করে, প্রতিটি শনাক্তকৃত আইটেম চিহ্নিত করে একটি ভিজ্যুয়াল ওভারলে সহ মোট সংখ্যা ফেরত দেয়। কোনো সেটআপ নেই, কোনো অ্যাকাউন্ট নেই, সেকেন্ডে ফলাফল।
এটি একবারে এক ধরনের বস্তুর সাথে সবচেয়ে ভালো কাজ করে (বাক্স, বোতল, পাইপ, প্যালেট) এবং প্রতি ছবিতে প্রায় 900টি বস্তু পর্যন্ত সামলাতে পারে। লুকানো বা ভারীভাবে আড়ালকৃত আইটেম মিস হতে পারে, যা যেকোনো ভিশন-ভিত্তিক সিস্টেমের সীমাবদ্ধতার সাথে সঙ্গতিপূর্ণ। কিন্তু গুদামে দ্রুত স্পট-চেক বা নির্মাণ সাইটে গণনার জন্য, ছবি দিয়ে গণনা আপনার কর্মপ্রবাহে খাপ খায় কিনা পরীক্ষা করার এটি একটি ব্যবহারিক উপায়।
একটি ছবি দিয়ে শুরু করুন
এটি পরীক্ষা করার জন্য আপনার পুরো গণনা প্রক্রিয়া পরিবর্তন করার দরকার নেই। আজ একটি প্যালেট, একটি তাক, বা একটি স্তূপের ছবি তুলুন। এটি একটি AI কাউন্টিং টুলে চালান এবং ম্যানুয়াল গণনার সাথে ফলাফল তুলনা করুন। সেই একটি পরীক্ষা আপনাকে এই প্রযুক্তি আপনার অপারেশনে কোথায় খাপ খায় সে সম্পর্কে যেকোনো বাজার পূর্বাভাসের চেয়ে বেশি বলবে।
প্রযুক্তিটি নিখুঁত নয়, কিন্তু সঠিক ব্যবহারের ক্ষেত্রে, এটি 10 মিনিটের কাজকে 3 সেকেন্ডের কাজে পরিণত করে, একটি ছবির রসিদ সহ। এটি একটি পরীক্ষার যোগ্য।