डीप लर्निंग आर्किटेक्चर का अवलोकन कंप्यूटर वस्तुओं का पता लगाने के लिए उपयोग करता है

डीप लर्निंग आर्किटेक्चर का अवलोकन कंप्यूटर वस्तुओं का पता लगाने के लिए उपयोग करता है

Posted on

एआई अपनाने की अवस्था में आपका उद्यम कहां खड़ा है? पता लगाने के लिए हमारे एआई सर्वेक्षण में भाग लें।


डीप न्यूरल नेटवर्क ने दृश्य सूचनाओं को संसाधित करने की अपनी क्षमता के लिए प्रसिद्धि प्राप्त की है। और पिछले कुछ वर्षों में, वे कई कंप्यूटर विज़न अनुप्रयोगों का एक प्रमुख घटक बन गए हैं।

तंत्रिका नेटवर्क जिन प्रमुख समस्याओं को हल कर सकते हैं उनमें छवियों में वस्तुओं का पता लगाना और उनका स्थानीयकरण करना शामिल है। ऑब्जेक्ट डिटेक्शन का उपयोग कई अलग-अलग डोमेन में किया जाता है, जिसमें ऑटोनॉमस ड्राइविंग, वीडियो सर्विलांस और हेल्थकेयर शामिल हैं।

इस पोस्ट में, मैं संक्षेप में गहन शिक्षण आर्किटेक्चर की समीक्षा करूंगा जो कंप्यूटर को वस्तुओं का पता लगाने में मदद करता है।

कनवल्शनल न्यूरल नेटवर्क

सबसे गहन शिक्षण-आधारित कंप्यूटर विज़न अनुप्रयोगों के प्रमुख घटकों में से एक है कनवल्शनल न्यूरल नेटवर्क (CNN)। 1980 के दशक में गहन शिक्षण अग्रणी यान लेकन द्वारा आविष्कार किया गया, सीएनएन एक प्रकार का तंत्रिका नेटवर्क है जो बहुआयामी स्थानों में पैटर्न को कैप्चर करने में कुशल है। यह सीएनएन को विशेष रूप से छवियों के लिए अच्छा बनाता है, हालांकि उनका उपयोग अन्य प्रकार के डेटा को भी संसाधित करने के लिए किया जाता है। (दृश्य डेटा पर ध्यान केंद्रित करने के लिए, हम इस लेख में अपने दृढ़ तंत्रिका नेटवर्क को द्वि-आयामी मानेंगे।)

प्रत्येक दृढ़ तंत्रिका नेटवर्क एक या कई से बना होता है दृढ़ परतें, एक सॉफ्टवेयर घटक जो इनपुट छवि से सार्थक मान निकालता है। और हर कनवल्शन लेयर कई फिल्टर्स, स्क्वायर मैट्रिसेस से बनी होती है जो इमेज पर स्लाइड करते हैं और विभिन्न स्थानों पर पिक्सेल वैल्यू के वेटेड योग को रजिस्टर करते हैं। प्रत्येक फ़िल्टर के अलग-अलग मान होते हैं और इनपुट छवि से अलग-अलग विशेषताएं निकालते हैं। कनवल्शन लेयर का आउटपुट “फीचर मैप्स” का एक सेट है।

जब एक दूसरे के ऊपर ढेर किया जाता है, तो दृढ़ परतें दृश्य पैटर्न के पदानुक्रम का पता लगा सकती हैं। उदाहरण के लिए, निचली परतें ऊर्ध्वाधर और क्षैतिज किनारों, कोनों और अन्य सरल पैटर्न के लिए फीचर मैप तैयार करेंगी। अगली परतें अधिक जटिल पैटर्न जैसे ग्रिड और सर्कल का पता लगा सकती हैं। जैसे-जैसे आप नेटवर्क में गहराई तक जाते हैं, परतें कारों, घरों, पेड़ों और लोगों जैसी जटिल वस्तुओं का पता लगा लेंगी।

ऊपर: तंत्रिका नेटवर्क की प्रत्येक परत इनपुट छवि से विशिष्ट विशेषताओं को एन्कोड करती है।

अधिकांश दृढ़ तंत्रिका नेटवर्क अपने फीचर मैप के आकार को धीरे-धीरे कम करने और सबसे प्रमुख भागों को रखने के लिए पूलिंग परतों का उपयोग करते हैं। मैक्स-पूलिंग, जो वर्तमान में सीएनएन में उपयोग की जाने वाली पूलिंग परत का मुख्य प्रकार है, पिक्सेल के एक पैच में अधिकतम मान रखता है। उदाहरण के लिए, यदि आप आकार 2 के साथ पूलिंग परत का उपयोग करते हैं, तो यह पिछली परत द्वारा निर्मित फीचर मैप से 2×2-पिक्सेल पैच लेगा और उच्चतम मान रखेगा। यह ऑपरेशन नक्शों के आकार को आधा कर देता है और सबसे प्रासंगिक सुविधाओं को बनाए रखता है। पूलिंग परतें सीएनएन को अपनी क्षमताओं को सामान्य बनाने में सक्षम बनाती हैं और छवियों में वस्तुओं के विस्थापन के प्रति कम संवेदनशील होती हैं।

अंत में, कनवल्शन लेयर्स के आउटपुट को सिंगल डायमेंशन मैट्रिक्स में समतल किया जाता है जो कि इमेज में निहित विशेषताओं का संख्यात्मक प्रतिनिधित्व है। उस मैट्रिक्स को तब कृत्रिम न्यूरॉन्स की “पूरी तरह से जुड़ी” परतों की एक श्रृंखला में खिलाया जाता है जो सुविधाओं को नेटवर्क से अपेक्षित आउटपुट के लिए मैप करते हैं।

दृढ़ तंत्रिका नेटवर्क वास्तुकला

ऊपर: दृढ़ तंत्रिका नेटवर्क (सीएनएन) की वास्तुकला।

दृढ़ तंत्रिका नेटवर्क के लिए सबसे बुनियादी कार्य छवि वर्गीकरण है, जिसमें नेटवर्क एक छवि को इनपुट के रूप में लेता है और उन मूल्यों की एक सूची देता है जो इस संभावना का प्रतिनिधित्व करते हैं कि छवि कई वर्गों में से एक से संबंधित है। उदाहरण के लिए, मान लें कि आप लोकप्रिय ओपन-सोर्स डेटासेट इमेजनेट में निहित सभी 1,000 वर्गों की वस्तुओं का पता लगाने के लिए एक तंत्रिका नेटवर्क को प्रशिक्षित करना चाहते हैं। उस स्थिति में, आपकी आउटपुट परत में 1,000 संख्यात्मक आउटपुट होंगे, जिनमें से प्रत्येक में उन वर्गों में से एक से संबंधित छवि की संभावना है।

आप हमेशा खरोंच से अपना स्वयं का दृढ़ तंत्रिका नेटवर्क बना और परीक्षण कर सकते हैं। लेकिन अधिकांश मशीन सीखने वाले शोधकर्ता और डेवलपर्स कई आजमाए हुए और परीक्षण किए गए दृढ़ तंत्रिका नेटवर्क जैसे कि एलेक्सनेट, वीजीजी 16, और रेसनेट -50 में से एक का उपयोग करते हैं।

ऑब्जेक्ट डिटेक्शन डेटासेट

ऑब्जेक्ट डिटेक्शन इमेज एनोटेशन

ऊपर: ऑब्जेक्ट-डिटेक्शन नेटवर्क को सटीक रूप से एनोटेट की गई छवियों पर प्रशिक्षित करने की आवश्यकता है।

जबकि एक छवि वर्गीकरण नेटवर्क बता सकता है कि किसी छवि में एक निश्चित वस्तु है या नहीं, यह यह नहीं कहेगा कि छवि में वस्तु कहाँ स्थित है। ऑब्जेक्ट डिटेक्शन नेटवर्क एक छवि में निहित वस्तुओं के वर्ग और एक बाउंडिंग बॉक्स दोनों प्रदान करते हैं जो उस वस्तु के निर्देशांक प्रदान करते हैं।

ऑब्जेक्ट डिटेक्शन नेटवर्क छवि वर्गीकरण नेटवर्क से बहुत मिलते-जुलते हैं और दृश्य सुविधाओं का पता लगाने के लिए कनवल्शन लेयर्स का उपयोग करते हैं। वास्तव में, अधिकांश ऑब्जेक्ट डिटेक्शन नेटवर्क एक छवि वर्गीकरण सीएनएन का उपयोग करते हैं और ऑब्जेक्ट डिटेक्शन के लिए इसका पुन: उपयोग करते हैं।

ऑब्जेक्ट डिटेक्शन एक पर्यवेक्षित मशीन लर्निंग समस्या है, जिसका अर्थ है कि आपको अपने मॉडल को लेबल किए गए उदाहरणों पर प्रशिक्षित करना होगा। प्रशिक्षण डेटासेट में प्रत्येक छवि के साथ एक फ़ाइल होनी चाहिए जिसमें उसमें शामिल वस्तुओं की सीमाएँ और वर्ग शामिल हों। कई ओपन-सोर्स टूल हैं जो ऑब्जेक्ट डिटेक्शन एनोटेशन बनाते हैं।

ऑब्जेक्ट डिटेक्शन एनोटेशन फ़ाइल

ऊपर: ऑब्जेक्ट डिटेक्शन ट्रेनिंग डेटा के लिए एनोटेशन फ़ाइल का उदाहरण।

ऑब्जेक्ट डिटेक्शन नेटवर्क को एनोटेट किए गए डेटा पर तब तक प्रशिक्षित किया जाता है जब तक कि वह छवियों में ऐसे क्षेत्र नहीं ढूंढ पाता जो प्रत्येक प्रकार की वस्तु से मेल खाते हों।

आइए अब कुछ ऑब्जेक्ट-डिटेक्शन न्यूरल नेटवर्क आर्किटेक्चर को देखें।

आर-सीएनएन डीप लर्निंग मॉडल

आर-सीएनएन वास्तुकला

ऊपर: आर-सीएनएन वास्तुकला।

2014 में कैलिफोर्निया विश्वविद्यालय, बर्कले में एआई शोधकर्ताओं द्वारा क्षेत्र-आधारित कन्वेन्शनल न्यूरल नेटवर्क (आर-सीएनएन) प्रस्तावित किया गया था। आर-सीएनएन तीन प्रमुख घटकों से बना है।

सबसे पहले, एक क्षेत्र चयनकर्ता “चयनात्मक खोज,” एल्गोरिथ्म का उपयोग करता है जो छवि में पिक्सेल के क्षेत्रों को ढूंढता है जो वस्तुओं का प्रतिनिधित्व कर सकता है, जिसे “रुचि के क्षेत्र” (आरओआई) भी कहा जाता है। क्षेत्र चयनकर्ता प्रत्येक छवि के लिए रुचि के लगभग 2,000 क्षेत्र उत्पन्न करता है।

इसके बाद, RoI को एक पूर्वनिर्धारित आकार में विकृत किया जाता है और एक दृढ़ तंत्रिका नेटवर्क पर पारित किया जाता है। CNN प्रत्येक क्षेत्र को अलग-अलग कनवल्शन ऑपरेशन की एक श्रृंखला के माध्यम से सुविधाओं को निकालता है। फीचर मैप्स को संख्यात्मक मानों के एकल-आयामी वेक्टर में एन्कोड करने के लिए सीएनएन पूरी तरह से कनेक्टेड परतों का उपयोग करता है।

अंत में, क्लासिफायर मशीन लर्निंग मॉडल सीएनएन से प्राप्त एन्कोडेड विशेषताओं को आउटपुट कक्षाओं में मैप करता है। क्लासिफायरियर में “बैकग्राउंड” के लिए एक अलग आउटपुट क्लास होता है, जो किसी भी चीज से मेल खाती है जो ऑब्जेक्ट नहीं है।

आर-सीएनएन ऑब्जेक्ट डिटेक्शन

ऊपर: आर-सीएनएन के साथ ऑब्जेक्ट डिटेक्शन।

मूल आर-सीएनएन पेपर फीचर निष्कर्षण के लिए एलेक्सनेट कन्वेन्शनल न्यूरल नेटवर्क और वर्गीकरण के लिए एक सपोर्ट वेक्टर मशीन (एसवीएम) का सुझाव देता है। लेकिन पेपर प्रकाशित होने के बाद के वर्षों में, शोधकर्ताओं ने आर-सीएनएन के प्रदर्शन को बेहतर बनाने के लिए नए नेटवर्क आर्किटेक्चर और वर्गीकरण मॉडल का उपयोग किया है।

R-CNN कुछ समस्याओं से ग्रस्त है। सबसे पहले, मॉडल को प्रत्येक छवि के लिए 2,000 अलग-अलग क्षेत्रों को उत्पन्न और क्रॉप करना होगा, जिसमें काफी समय लग सकता है। दूसरा, मॉडल को 2,000 क्षेत्रों में से प्रत्येक के लिए अलग-अलग सुविधाओं की गणना करनी चाहिए। यह बहुत सारी गणनाओं के बराबर है और प्रक्रिया को धीमा कर देता है, जिससे आर-सीएनएन रीयल-टाइम ऑब्जेक्ट डिटेक्शन के लिए अनुपयुक्त हो जाता है। और अंत में, मॉडल तीन अलग-अलग घटकों से बना है, जिससे गणनाओं को एकीकृत करना और गति में सुधार करना मुश्किल हो जाता है।

फास्ट आर-सीएनएन

फास्ट आर-सीएनएन आर्किटेक्चर

ऊपर: फास्ट आर-सीएनएन आर्किटेक्चर।

2015 में, आर-सीएनएन पेपर के प्रमुख लेखक ने फास्ट आर-सीएनएन नामक एक नई वास्तुकला का प्रस्ताव रखा, जिसने अपने पूर्ववर्ती की कुछ समस्याओं को हल किया। फास्ट आर-सीएनएन सिंगल मशीन लर्निंग मॉडल में फीचर निष्कर्षण और क्षेत्र चयन लाता है।

फास्ट आर-सीएनएन एक छवि और आरओआई का एक सेट प्राप्त करता है और छवि में पाई गई वस्तुओं के बाउंडिंग बॉक्स और वर्गों की एक सूची देता है।

फास्ट आर-सीएनएन में प्रमुख नवाचारों में से एक “आरओआई पूलिंग परत” था, एक ऑपरेशन जो एक छवि के लिए सीएनएन फीचर मैप्स और रुचि के क्षेत्रों को लेता है और प्रत्येक क्षेत्र के लिए संबंधित सुविधाएं प्रदान करता है। इसने फास्ट आर-सीएनएन को आर-सीएनएन के विपरीत छवि में रुचि के सभी क्षेत्रों के लिए सुविधाओं को निकालने की अनुमति दी, जो आर-सीएनएन के विपरीत है, जो प्रत्येक क्षेत्र को अलग से संसाधित करता है। इससे गति में उल्लेखनीय वृद्धि हुई।

हालाँकि, एक मुद्दा अनसुलझा रहा। फास्ट आर-सीएनएन को अभी भी छवि के क्षेत्रों को निकालने और मॉडल के इनपुट के रूप में प्रदान करने की आवश्यकता है। फास्ट आर-सीएनएन अभी भी रीयल-टाइम ऑब्जेक्ट डिटेक्शन के लिए तैयार नहीं था।

तेज़ आर-सीएनएन

तेज आर-सीएनएन

ऊपर: तेज़ आर-सीएनएन आर्किटेक्चर।

2016 में पेश किया गया तेज़ आर-सीएनएन, ऑब्जेक्ट डिटेक्शन नेटवर्क में क्षेत्र निष्कर्षण तंत्र को एकीकृत करके ऑब्जेक्ट-डिटेक्शन पहेली के अंतिम टुकड़े को हल करता है।

तेज़ आर-सीएनएन एक छवि को इनपुट के रूप में लेता है और ऑब्जेक्ट क्लास और उनके संबंधित बाउंडिंग बॉक्स की एक सूची देता है।

फास्टर आर-सीएनएन की वास्तुकला काफी हद तक फास्ट आर-सीएनएन के समान है। इसका मुख्य नवाचार “क्षेत्र प्रस्ताव नेटवर्क” (आरपीएन) है, एक घटक जो एक संवेदी तंत्रिका नेटवर्क द्वारा निर्मित फीचर मैप्स लेता है और बाउंडिंग बॉक्स का एक सेट प्रस्तावित करता है जहां ऑब्जेक्ट स्थित हो सकते हैं। फिर प्रस्तावित क्षेत्रों को RoI पूलिंग लेयर में पास कर दिया जाता है। बाकी प्रक्रिया फास्ट आर-सीएनएन के समान है।

मुख्य तंत्रिका नेटवर्क वास्तुकला में क्षेत्र का पता लगाने को एकीकृत करके, तेज़ आर-सीएनएन निकट-वास्तविक समय वस्तु का पता लगाने की गति प्राप्त करता है।

योलो

योलो वास्तुकला

ऊपर: योलो वास्तुकला।

2016 में, वाशिंगटन विश्वविद्यालय, एलन इंस्टीट्यूट फॉर एआई और फेसबुक एआई रिसर्च के शोधकर्ताओं ने तंत्रिका नेटवर्क के एक परिवार “यू ओनली लुक वन्स” (योलो) का प्रस्ताव रखा, जिसने गहन सीखने के साथ वस्तु का पता लगाने की गति और सटीकता में सुधार किया।

YOLO में मुख्य सुधार एक ही नेटवर्क में संपूर्ण ऑब्जेक्ट डिटेक्शन और वर्गीकरण प्रक्रिया का एकीकरण है। सुविधाओं और क्षेत्रों को अलग-अलग निकालने के बजाय, YOLO एक ही नेटवर्क के माध्यम से एक ही पास में सब कुछ करता है, इसलिए इसका नाम “यू ओनली लुक वन्स” है।

YOLO वीडियो स्ट्रीमिंग फ्रैमरेट पर ऑब्जेक्ट डिटेक्शन कर सकता है और उपयुक्त एप्लिकेशन है जिसके लिए वास्तविक समय के अनुमान की आवश्यकता होती है।

पिछले कुछ वर्षों में, डीप लर्निंग ऑब्जेक्ट डिटेक्शन ने एक लंबा सफर तय किया है, जो विभिन्न घटकों के पैचवर्क से एकल तंत्रिका नेटवर्क में विकसित हुआ है जो कुशलता से काम करता है। आज, कई अनुप्रयोग अपने मुख्य घटकों में से एक के रूप में ऑब्जेक्ट-डिटेक्शन नेटवर्क का उपयोग करते हैं। यह आपके फ़ोन, कंप्यूटर, कार, कैमरा आदि में है। यह देखना दिलचस्प (और शायद डरावना) होगा कि तेजी से उन्नत तंत्रिका नेटवर्क के साथ क्या हासिल किया जा सकता है।

बेन डिक्सन एक सॉफ्टवेयर इंजीनियर और TechTalks के संस्थापक हैं, जो एक ऐसा ब्लॉग है जो उन तरीकों की खोज करता है जिनसे तकनीक हल कर रही है और समस्याएं पैदा कर रही है।

यह कहानी मूल रूप से Bdtechtalks.com पर छपी थी। कॉपीराइट 2021

वेंचरबीट

तकनीकी निर्णय लेने वालों के लिए परिवर्तनकारी तकनीक और लेनदेन के बारे में ज्ञान हासिल करने के लिए वेंचरबीट का मिशन एक डिजिटल टाउन स्क्वायर बनना है।

जब आप अपने संगठनों का नेतृत्व करते हैं तो हमारा मार्गदर्शन करने के लिए हमारी साइट डेटा तकनीकों और रणनीतियों पर आवश्यक जानकारी प्रदान करती है। हम आपको हमारे समुदाय का सदस्य बनने के लिए आमंत्रित करते हैं:

  • आपकी रुचि के विषयों पर अप-टू-डेट जानकारी
  • हमारे समाचार पत्र
  • गेटेड विचार-नेता सामग्री और हमारे बेशकीमती आयोजनों के लिए रियायती पहुंच, जैसे रूपांतरण 2021: और अधिक जानें
  • नेटवर्किंग सुविधाएँ, और बहुत कुछ

सदस्य बने

Leave a Reply

Your email address will not be published. Required fields are marked *