Data labeling for AI research is highly inconsistent, study finds

Posted on

एआई/एमएल ऑटोमेशन टेक्नोलॉजी समिट के लिए 12 जुलाई को ट्रांसफॉर्म 2021 में एआई और डेटा लीडर्स से जुड़ें। आज पंजीकृत करें।


पर्यवेक्षित मशीन लर्निंग, जिसमें मशीन लर्निंग मॉडल लेबल किए गए प्रशिक्षण डेटा से सीखते हैं, उस डेटा की गुणवत्ता जितनी ही अच्छी होती है। जर्नल में प्रकाशित एक अध्ययन में मात्रात्मक विज्ञान अध्ययन, कंसल्टेंसी वेबस्टर पैसिफिक और कैलिफोर्निया विश्वविद्यालय, सैन डिएगो और बर्कले के शोधकर्ता इस बात की जांच करते हैं कि एआई शोध पत्रों में मानव-लेबल वाले डेटा पर ध्यान केंद्रित करते हुए डेटा लेबलिंग के आसपास किस हद तक सर्वोत्तम प्रथाओं का पालन किया जाता है। उन्होंने पाया कि लेबल किए गए डेटा के प्रकार कागज से लेकर कागज तक व्यापक रूप से होते हैं और उनके द्वारा सर्वेक्षण किए गए अध्ययनों की “बहुलता” ने इस बारे में कोई जानकारी नहीं दी कि लेबलिंग किसने की – या डेटा कहां से आया।

जबकि लेबल किए गए डेटा को आमतौर पर जमीनी सच्चाई के साथ जोड़ा जाता है, डेटासेट में त्रुटियां हो सकती हैं – और कर सकती हैं। उन्हें बनाने के लिए उपयोग की जाने वाली प्रक्रियाएं स्वाभाविक रूप से त्रुटि-प्रवण होती हैं, जो तब समस्याग्रस्त हो जाती हैं जब ये त्रुटियां परीक्षण सेट तक पहुंच जाती हैं – डेटासेट शोधकर्ताओं के सबसेट प्रगति की तुलना करने के लिए उपयोग करते हैं। हाल ही में MIT के एक पेपर ने व्यावसायिक प्रणालियों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटासेट में हजारों से लाखों गलत लेबल वाले नमूनों की पहचान की। ये त्रुटियां वैज्ञानिकों को गलत निष्कर्ष निकालने के लिए प्रेरित कर सकती हैं कि कौन से मॉडल वास्तविक दुनिया में सर्वश्रेष्ठ प्रदर्शन करते हैं, बेंचमार्क को कम करते हैं।

Q . के सह-लेखकअनैच्छिक विज्ञान अध्ययन पेपर ने सामाजिक विज्ञान और मानविकी, जैव चिकित्सा और जीवन विज्ञान, और भौतिक और पर्यावरण विज्ञान सहित विभिन्न विषयों की एक श्रृंखला में 141 एआई अध्ययनों की जांच की। सभी पेपरों में से, 41% ने मौजूदा मानव-लेबल वाले डेटासेट का दोहन किया, 27% ने एक उपन्यास मानव-लेबल डेटासेट का उत्पादन किया, और 5% ने किसी भी तरह से खुलासा नहीं किया। (शेष 27% ने मशीन-लेबल वाले डेटासेट का उपयोग किया।) मानव-लेबल वाले डेटा का उपयोग करने वाली केवल आधी परियोजनाओं से पता चला कि क्या एनोटेटर्स को दिशानिर्देश, परिभाषा और उदाहरण वाले दस्तावेज़ या वीडियो दिए गए थे जिन्हें वे सहायता के रूप में संदर्भित कर सकते थे। इसके अलावा, मेट्रिक्स में एक “व्यापक भिन्नता” थी जिसका उपयोग यह निर्धारित करने के लिए किया जाता था कि क्या एनोटेटर विशेष लेबल से सहमत या असहमत हैं, कुछ कागजात इसे पूरी तरह से नोट करने में विफल रहे हैं।

मुआवजा और प्रतिलिपि प्रस्तुत करने योग्यता

जैसा कि कॉर्नेल और प्रिंसटन के वैज्ञानिकों द्वारा किए गए पिछले अध्ययन में बताया गया है, क्राउडसोर्सिंग लेबलिंग कार्य के लिए एक प्रमुख स्थान अमेज़ॅन मैकेनिकल तुर्क है, जहां एनोटेटर्स ज्यादातर अमेरिका और भारत से आते हैं। इससे सांस्कृतिक और सामाजिक दृष्टिकोण का असंतुलन हो सकता है। उदाहरण के लिए, शोध में पाया गया है कि ImageNet और OpenImages पर प्रशिक्षित मॉडल, दो बड़े, सार्वजनिक रूप से उपलब्ध छवि डेटासेट, वैश्विक दक्षिण देशों की छवियों पर खराब प्रदर्शन करते हैं। दूल्हे की छवियों को अमेरिका से दूल्हे की छवियों की तुलना में इथियोपिया और पाकिस्तान से आने पर कम सटीकता के साथ वर्गीकृत किया जाता है

एनोटेटर्स के लिए, लेबलिंग कार्य नीरस और कम-भुगतान वाले होते हैं – इमेजनेट श्रमिकों ने मजदूरी में $ 2 प्रति घंटे का औसत बनाया। दुर्भाग्य से, क्यूअनैच्छिक विज्ञान अध्ययन सर्वेक्षण से पता चलता है कि एआई क्षेत्र काफी हद तक निष्पक्ष मुआवजे का मुद्दा है। अधिकांश प्रकाशनों ने यह संकेत नहीं दिया कि उन्होंने लेबलर्स को किस प्रकार का इनाम दिया है या यहां तक ​​कि प्रशिक्षण डेटासेट का लिंक भी शामिल है।

लेबलर्स को नुकसान पहुंचाने के अलावा, लिंक की कमी से एआई में पुनरुत्पादन की समस्या बढ़ सकती है। ICML 2019 में, सम्मेलन की शुरुआत तक 30% लेखक अपने कागजात के साथ कोड जमा करने में विफल रहे। और एक रिपोर्ट में पाया गया कि प्राकृतिक भाषा प्रसंस्करण मॉडल द्वारा दिए गए ६०% से ७०% उत्तर कहीं न कहीं बेंचमार्क प्रशिक्षण सेट में एम्बेड किए गए थे, यह दर्शाता है कि मॉडल अक्सर केवल उत्तर याद कर रहे थे।

“हमने जिन कुछ पेपरों का विश्लेषण किया, उनमें से कुछ का विस्तार से वर्णन किया गया है कि कैसे अपने डेटासेट को लेबल करने वाले लोगों को उनकी विशेषज्ञता के लिए चुना गया था, जिसमें अनुभवी चिकित्सा चिकित्सकों से लेकर कई भाषाओं में सोशल मीडिया स्लैंग से परिचित युवाओं तक का निदान किया गया था। उस ने कहा, सभी लेबलिंग कार्यों के लिए वर्षों की विशेष विशेषज्ञता की आवश्यकता नहीं होती है, जैसे कि अधिक सरल कार्य जो हमने देखे, जैसे सकारात्मक बनाम नकारात्मक व्यावसायिक समीक्षाओं में अंतर करना या विभिन्न हाथ के इशारों की पहचान करना, ”के सह-लेखक मात्रात्मक विज्ञान अध्ययन कागज लिखा। “यहां तक ​​​​कि अधिक प्रतीत होता है-सीधा वर्गीकरण कार्यों में अभी भी अपरिहार्य किनारे के मामलों के लिए अस्पष्टता और त्रुटि के लिए पर्याप्त जगह हो सकती है, जिसके लिए एक मानकीकृत डेटासेट सुनिश्चित करने के लिए प्रशिक्षण और सत्यापन प्रक्रियाओं की आवश्यकता होती है।”

आगे बढ़ते हुए

शोधकर्ता मानव डेटा लेबलिंग के एकल, एक-आकार-फिट-सभी समाधान की वकालत करने से बचते हैं। हालांकि, वे डेटा वैज्ञानिकों का आह्वान करते हैं जो निर्णय के आसपास अधिक सावधानी बरतने के लिए डेटासेट का पुन: उपयोग करना चुनते हैं क्योंकि वे डेटा को स्वयं लेबल कर रहे थे – ऐसा न हो कि पूर्वाग्रह रेंगें। इमेजनेट के पुराने संस्करण में नग्न बच्चों की तस्वीरें पाई गईं, पोर्न अभिनेत्रियों, और कॉलेज पार्टियों, सभी को उन व्यक्तियों की सहमति के बिना वेब से हटा दिया गया। एक अन्य लोकप्रिय डेटासेट, 80 मिलियन टिनी इमेज, एक ऑडिट के बाद नस्लवादी, सेक्सिस्ट, और अन्यथा आपत्तिजनक टिप्पणियों के सामने आने के बाद ऑफ़लाइन ले लिया गया था, जैसे कि एन-शब्द के साथ लेबल की गई लगभग 2,000 छवियां और “बलात्कार संदिग्ध” और “चाइल्ड मोलेस्टर” जैसे लेबल।

“हम प्रतिलिपि प्रस्तुत करने योग्यता के क्लासिक सिद्धांत के लिए एक भूमिका देखते हैं, लेकिन डेटा लेबलिंग के लिए: क्या पेपर पर्याप्त विवरण प्रदान करता है ताकि एक अन्य शोधकर्ता काल्पनिक रूप से लेबलर्स की एक समान टीम की भर्ती कर सके, उन्हें समान निर्देश और प्रशिक्षण दे सके, समान रूप से असहमति का समाधान कर सके, और वे एक समान लेबल वाले डेटासेट का उत्पादन करते हैं ?, “शोधकर्ताओं ने लिखा। “[Our work gives] इस दावे के सबूत कि मानव लेबलिंग, प्रशिक्षण डेटा क्यूरेशन, और अनुसंधान प्रलेखन के आसपास की प्रथाओं में पर्याप्त और व्यापक भिन्नता है … हम विज्ञान के संस्थानों – प्रकाशनों, फंडर्स, अनुशासनात्मक समाजों और शिक्षकों से – एक प्रमुख भूमिका निभाने के लिए कहते हैं। डेटा गुणवत्ता और अनुसंधान प्रलेखन के इन मुद्दों के समाधान पर काम कर रहे हैं।”

वेंचरबीट

तकनीकी निर्णय लेने वालों के लिए परिवर्तनकारी तकनीक और लेनदेन के बारे में ज्ञान हासिल करने के लिए वेंचरबीट का मिशन एक डिजिटल टाउन स्क्वायर बनना है।

जब आप अपने संगठनों का नेतृत्व करते हैं तो हमारा मार्गदर्शन करने के लिए हमारी साइट डेटा तकनीकों और रणनीतियों पर आवश्यक जानकारी प्रदान करती है। हम आपको हमारे समुदाय का सदस्य बनने के लिए आमंत्रित करते हैं:

  • आपकी रुचि के विषयों पर अप-टू-डेट जानकारी
  • हमारे समाचार पत्र
  • गेटेड विचार-नेता सामग्री और हमारे बेशकीमती आयोजनों के लिए रियायती पहुंच, जैसे रूपांतरण 2021: और अधिक जानें
  • नेटवर्किंग सुविधाएँ, और बहुत कुछ

सदस्य बने

Leave a Reply

Your email address will not be published. Required fields are marked *