AI experts refute Cvedia’s claim its synthetic data eliminates bias

Posted on

एआई अपनाने की अवस्था में आपका उद्यम कहां खड़ा है? पता लगाने के लिए हमारे एआई सर्वेक्षण में भाग लें।


AI की अधिकांश महत्वपूर्ण चुनौतियाँ वास्तव में AI के बारे में नहीं हैं; वे डेटा के बारे में हैं। यह पक्षपाती है। इसे गोपनीयता और सहमति की परवाह किए बिना एकत्र और उपयोग किया जाता है। और मशीन लर्निंग सिस्टम को इसकी खगोलीय मात्रा की आवश्यकता होती है। अब जैसे-जैसे गोपनीयता कानूनों का प्रसार होगा, वैसे-वैसे इसे प्राप्त करना भी कठिन होगा।

उद्यम अपने एआई को शक्ति प्रदान करने के लिए सिंथेटिक डेटा पर तेजी से विचार कर रहे हैं। वास्तविक दुनिया के डेटा के लिए एक स्टैंड-इन के रूप में डिजिटल रूप से उत्पन्न, इसे वास्तव में गुमनाम और पूर्वाग्रह मुक्त कहा जाता है। और क्योंकि इसे वास्तविक दुनिया के गन्दा डेटा के सभी मुद्दों से मुक्त माना जाता है, इसलिए इसकी बहुत कम आवश्यकता होगी। लेकिन यह सब कहा से आसान है। जबकि उद्योगों में उद्यम पहले से ही आवाज पहचान, कंप्यूटर दृष्टि और अन्य प्रणालियों को प्रशिक्षित करने के लिए सिंथेटिक डेटा का उपयोग कर रहे हैं, गंभीर मुद्दे बने हुए हैं। हम जानते हैं कि मूल प्रशिक्षण डेटा हमेशा वास्तव में अस्पष्ट नहीं होता है, और वर्तमान में इस बात के बहुत कम सबूत हैं कि सिंथेटिक डेटा पूर्वाग्रह को प्रभावी ढंग से कम कर सकता है। उसके शीर्ष पर, वास्तविक दुनिया के डेटा पर प्रशिक्षित सिस्टम की तुलना में प्रदर्शन मिश्रित रहा है।

हाल ही में, सिंथेटिक डेटा और कंप्यूटर विज़न कंपनी Cvedia ने घोषणा की कि उसने मालिकाना सिंथेटिक डेटा पाइपलाइन के साथ “आधिकारिक तौर पर ‘डोमेन अनुकूलन अंतर’ को हल कर दिया है” यह दावा करता है कि वास्तविक डेटा पर प्रशिक्षित एल्गोरिदम से बेहतर प्रदर्शन करता है। कंपनी यह भी दावा कर रही है कि उसका सिस्टम “शून्य डेटा” पर निर्मित पूर्वाग्रह से मुक्त है और ग्राहकों को “संपूर्ण डेटा प्रक्रिया को दरकिनार” करने में सक्षम करेगा। अगर सही है, तो इस तरह की प्रगति एआई में सिंथेटिक डेटा के उपयोग के मामले को मजबूत कर सकती है, लेकिन विशेषज्ञों का कहना है कि सीवेदिया के पास पर्याप्त सबूत नहीं हैं और उसने अपने काम की देखरेख की है।

क्वीन मैरी यूनिवर्सिटी ऑफ लंदन के एआई शोधकर्ता माइक कुक ने वेंचरबीट को बताया, “यह पूरे डोमेन अंतर को हल नहीं कर रहा है, न ही यह सिस्टम से पूर्वाग्रह को खत्म कर रहा है।” “यह निश्चित रूप से अच्छा है। जैसा मैं कहता हूं, मैंने इसी तरह की तकनीकें कहीं और देखी हैं। लेकिन यह यहां दावा किए जा रहे सभी आश्चर्यजनक काम नहीं कर रहा है। ”

डोमेन गैप

“डोमेन गैप” या “डोमेन एडेप्टेशन गैप” से तात्पर्य है कि जिस तरह से एआई एक विशिष्ट प्रकार के डेटा पर प्रशिक्षित होता है, वह अपने ज्ञान को एक अलग प्रकार के डेटा में स्थानांतरित करने के लिए संघर्ष करता है। सिंथेटिक और वास्तविक दुनिया के प्रदर्शन के बीच तुलना से परे, यह प्रदर्शन समस्या अक्सर सामान्य रूप से एआई सिस्टम की तैनाती के साथ होती है, क्योंकि वे स्वाभाविक रूप से स्वच्छ वातावरण से वास्तविक परिदृश्यों में आगे बढ़ रहे हैं। AI को किसी नए कार्य में लागू करते समय अक्सर एक डोमेन गैप भी होता है। कुक ने कहा “यह निश्चित रूप से एक बड़ी समस्या है” लेकिन यह वह प्रकार नहीं है जिसे “हल” किया जा सकता है।

अपनी घोषणा में, Cvedia ने स्पष्ट रूप से यह नहीं बताया कि उसने वास्तव में क्या हासिल किया है। एक अस्पष्ट मीट्रिक के अलावा – बेंचमार्क पर रिकॉल पर 160% का लाभ बनाए रखते हुए 170% का सटीक सुधार – कंपनी ने डेटा या इसकी प्रक्रियाओं के बारे में कोई जानकारी जारी नहीं की। सीवेदिया के सह-संस्थापक और सीईओ अर्जन विजनवीन ने वेंचरबीट को बताया कि डेटा मुख्य रूप से विभिन्न प्रकार के कैमरों में उपयोग किए जाने वाले ईओ/आईआर सेंसर के लिए है, विशेष रूप से पहचान, वर्गीकरण और प्रतिगमन एल्गोरिदम के लिए। लेकिन वह परीक्षणों और परीक्षणों के बारे में कोई भी जानकारी साझा नहीं करेगा, जो कि कुक और ओस कीज़, वाशिंगटन विश्वविद्यालय के एक एआई शोधकर्ता, दोनों सहमत हैं, दावों का समर्थन करने के लिए आवश्यक हैं।

विजनवीन ने इस तरह की जानकारी वेंचरबीट के साथ साझा करने से इनकार कर दिया, इसे मालिकाना बताया। लेकिन उन्होंने कहा कि जारी किए गए मीट्रिक और समग्र दावे केवल एक उपयोग के मामले पर आधारित हैं – रक्षा आपूर्तिकर्ता FLIR सिस्टम, जिसने अपने स्वयं के मूल्यांकन से आंकड़े प्रदान किए। कुक और कीज़ इस बात से सहमत हैं कि भले ही कंपनी ने एक सिस्टम के साथ प्रदर्शन में सफलता देखी हो, लेकिन यह डोमेन गैप समस्या को हल करने से बहुत दूर है। वे यह सुनकर विशेष रूप से संशय में पड़ गए कि Cvedia को FLIR सिस्टम्स द्वारा वित्त पोषित किया गया है और रक्षा कंपनी के CTO, पियरे बौलैंगर, भी Cvedia के दो कानूनी सलाहकारों में से एक हैं (विजनवीन अन्य हैं)।

डेटा डेटा है

सिंथेटिक डेटा आमतौर पर वास्तविक दुनिया के डेटा को डिजिटल रूप से पुन: उत्पन्न करके बनाया जाता है, इसलिए यह अभी भी गणितीय रूप से प्रतिनिधि है। लेकिन अपनी प्रेस विज्ञप्ति में, Cvedia का दावा है कि उसने किसी भी डेटा का बिल्कुल भी उपयोग नहीं किया। विजनवीन ने बाद में इसे वेंचरबीट को अलग तरह से समझाया, “यह केवल पतली हवा से बना है” और यह “उन सभी चीजों के खिलाफ जाता है जो डेटा वैज्ञानिकों के लिए खड़े हैं, लेकिन हमारे लिए यह वास्तव में काम करता है।”

विशेष रूप से, उन्होंने समझाया कि कंपनी ने वास्तविक दुनिया में पाई जाने वाली विभिन्न वस्तुओं के 3D मॉडल बनाने के लिए 50 कलाकारों की एक टीम को टैप किया, जिसे कंपनी AI सिस्टम के प्रशिक्षण के लिए उपयोग करने के लिए बेचती है। उन्होंने कहा कि लेबलिंग “पूरी तरह से स्वचालित” है और एक 3 डी इंजन “बस लेबल और संकेतों के साथ डेटा उत्पन्न करता है।” इन कारणों से, उनका दावा है कि इन मॉडलों पर निर्मित एआई पूर्वाग्रह से मुक्त है। लेकिन मॉडल डेटा का प्रतिनिधित्व करते हैं, भले ही वे एकत्र किए जाने के बजाय आंतरिक रूप से बनाए गए हों। और किसी को सिस्टम के हर हिस्से को डिजाइन करना था जिसने यह सब किया। विजनवीन ने यह भी स्वीकार किया कि कुछ अपवाद हैं, जहां वास्तविक तस्वीरों का इस्तेमाल किया गया था और एनोटेशन हाथ से किए गए थे। कुल मिलाकर, कुक ने इस विश्वास को कहा कि तकनीक पूर्वाग्रह को “भौं बढ़ाने वाला दावा” समाप्त करती है।

“अपना खुद का डेटा बनाना निश्चित रूप से एक उपयोगी दृष्टिकोण है, लेकिन किसी भी तरह से कोई भी इसे पूर्वाग्रह से मुक्त नहीं मानेगा,” उन्होंने कहा। “कौन हैं ये कलाकार? उन्होंने किन वस्तुओं का मॉडल बनाया? उन्हें किसने चुना? मान लीजिए कि यह एक सैन्य ड्रोन के लिए एक लक्ष्य एआई है और मैं इसे सैन्य लोगों से नागरिक लक्ष्यों की पहचान करने के लिए सिखाने जा रहा हूं। कलाकारों को अभी भी यह बताने की जरूरत है कि क्या मॉडल बनाना है। अगर उन्हें मस्जिदों को संभावित सैन्य ठिकानों और अमेरिकी ठिकानों को नागरिक के रूप में मॉडल करने के लिए कहा जाता है, तो हम यह नहीं कहेंगे कि यह निष्पक्ष था क्योंकि वे 3D मॉडल हैं। ”

कीज़ ने सहमति व्यक्त करते हुए कहा कि सीमाएं इस परिदृश्य में पूर्वाग्रह के रूप में कैसे कार्य करती हैं: “चाहे आपके पास सड़क पर 50 फोटोग्राफर हैं जो तस्वीरें ले रहे हैं या 50 सीएडी कलाकार उन्हें बेसमेंट में बना रहे हैं, वे 50 लोग अभी भी उन वस्तुओं में सीमित होने जा रहे हैं जो वे देख सकते हैं और कल्पना कर सकते हैं।”

पूर्वाग्रह को परिभाषित करना

यहां तक ​​​​कि इन बिंदुओं के साथ प्रस्तुत किए जाने पर, विजनवीन ने तर्क दिया कि सीवेदिया के सिंथेटिक डेटा पर प्रशिक्षित सिस्टम पूर्वाग्रह से मुक्त हैं। उन्होंने दौड़ और चेहरे का पता लगाने के पूर्वाग्रह के संबंध में कहा, “ये पूर्वाग्रह नहीं हैं जिनसे हम पीड़ित हैं।” यह पता चला, वह पूर्वाग्रह की अपनी परिभाषा का उपयोग कर रहा था।

“हमेशा ट्रेडऑफ होने जा रहा है, ठीक है, इसलिए यह कभी भी एक सही समाधान नहीं होगा। लेकिन बहुत बार, इसके शीर्ष पर आवेदन के अधिकार क्षेत्र के आधार पर, आपको अभी भी उपयुक्त परिणाम मिलने वाले हैं, ”विजनवीन ने कहा। “तो यह वास्तव में एक उत्पादक वाणिज्यिक स्तर के आवेदन के बारे में है जो क्षेत्र में काम करेगा, और वैज्ञानिक, डेटा विज्ञान के दृष्टिकोण से इतना नहीं।” उन्होंने आगे कहा, “इसमें बारीकियां हैं” और हमें “फिर से परिभाषित” करने की जरूरत है [bias] अकादमिक बनाम उत्पादक-आकार के पूर्वाग्रहों के संदर्भ में। ”

लेकिन जब मशीन लर्निंग और एआई की बात आती है तो पूर्वाग्रह कोई मामूली समस्या नहीं है। यह क्षेत्र को प्रभावित करता है और कई तरह से एल्गोरिदम में रेंग सकता है। कुक ने कहा कि पूर्वाग्रह उन्मूलन एक “बेहद मजबूत दावा” है और यह प्रेस विज्ञप्ति को “पीआर के एक टुकड़े के रूप में पारदर्शी” बनाता है। उन्होंने कहा कि यह कहना कि आपने पूर्वाग्रह को समाप्त कर दिया है, इसका मतलब उन लोगों के लिए विशिष्ट है, जो इस मुद्दे को एक लेंस के माध्यम से देखते हैं, जिसे विज़नवीन “अकादमिक” कहते हैं। कीज़ ने दावे की तुलना एक डॉक्टर से की, जिसमें उन्होंने घोषणा की कि उन्होंने एक मेलेनोमा के इलाज के बाद कैंसर को ठीक कर दिया है।

“उनके नमक के लायक कोई भी अकादमिक शोधकर्ता वास्तव में यह नहीं मानता है कि कोई भी पूर्वाग्रह को पूरी तरह से समाप्त कर सकता है क्योंकि उपयोग के मामले ‘पूर्वाग्रह’ के लिए कितना प्रासंगिक है,” कीज़ ने कहा। “जो चीज इसे अकादमिक नहीं बनाती है वह यह है कि शून्य वास्तविक विवरण या सबूत हैं। यदि एक अकादमिक शोधकर्ता ने इस तरह का दावा करने की कोशिश की, तो उन्हें यह स्पष्ट करना होगा कि वे क्या कर रहे थे, वे पूर्वाग्रह को कैसे परिभाषित कर रहे थे, सिस्टम क्या था। उन्होंने ऐसा कुछ नहीं किया है। वह सिर्फ घोषणा कर रहा है ‘हमने समस्या को ठीक कर दिया है! कृपया हमसे मत पूछो कैसे; यह मालिकाना है।'”

एआई यथार्थवाद बनाए रखना

Cvedia के काम और बड़े पैमाने पर सिंथेटिक डेटा के साथ मुद्दों के बावजूद, सामान्य दृष्टिकोण वादा कर सकता है। कीज़ और कुक सहमत हैं कि कंपनी का काम दिलचस्प हो सकता है, और डीपमाइंड 2018 से कुछ इसी तरह से काम कर रहा है। यदि सिंथेटिक डेटा वास्तव में इसकी उत्पत्ति को अस्पष्ट कर सकता है और वास्तविक दुनिया के डेटा पर प्रशिक्षित सिस्टम के साथ-साथ प्रदर्शन भी कर सकता है, तो यह एक कदम आगे होगा, खासकर जब संवेदनशील जानकारी शामिल हो।

लेकिन जैसा कि अधिक उद्यम सिंथेटिक डेटा का उपयोग करने पर विचार करते हैं और विभिन्न रूपों में एआई को लागू करने के लिए आगे बढ़ते हैं, सावधानी बरतने की जरूरत है। जबकि पूर्वाग्रह को कम करने के लिए व्यावहारिक रणनीतियाँ हैं, उद्यमों को उन दावों पर अत्यधिक संदेह करना चाहिए कि इसे समाप्त कर दिया गया है। और उपकरण अक्सर पूर्वाग्रह को कम करने और कम करने में मदद करने के लिए होते हैं, क्योंकि ये मुद्दे गहरे चलते हैं और आसान सुधारों को दूर करते हैं।

कुक ने कहा, “हम एआई सिस्टम कैसे बनाते हैं, इसे सुधारने के लिए कदम उठाना महत्वपूर्ण है, लेकिन हमें प्रक्रिया के बारे में यथार्थवादी होना चाहिए और महसूस करना चाहिए कि इसे कई कोणों से हमला करने की आवश्यकता है।” “कोई चांदी की गोली नहीं है।”

वेंचरबीट

तकनीकी निर्णय लेने वालों के लिए परिवर्तनकारी तकनीक और लेनदेन के बारे में ज्ञान हासिल करने के लिए वेंचरबीट का मिशन एक डिजिटल टाउन स्क्वायर बनना है।

जब आप अपने संगठनों का नेतृत्व करते हैं तो हमारा मार्गदर्शन करने के लिए हमारी साइट डेटा तकनीकों और रणनीतियों पर आवश्यक जानकारी प्रदान करती है। हम आपको हमारे समुदाय का सदस्य बनने के लिए आमंत्रित करते हैं:

  • आपकी रुचि के विषयों पर अप-टू-डेट जानकारी
  • हमारे समाचार पत्र
  • गेटेड विचार-नेता सामग्री और हमारे बेशकीमती आयोजनों के लिए रियायती पहुंच, जैसे रूपांतरण 2021: और अधिक जानें
  • नेटवर्किंग सुविधाएँ, और बहुत कुछ

सदस्य बने

Leave a Reply

Your email address will not be published. Required fields are marked *