OpenAI warns AI behind GitHub's Copilot may be susceptible to bias

OpenAI warns AI behind GitHub’s Copilot may be susceptible to bias

Posted on

एआई अपनाने की अवस्था में आपका उद्यम कहां खड़ा है? पता लगाने के लिए हमारे एआई सर्वेक्षण में भाग लें।


पिछले महीने, GitHub और OpenAI ने Copilot को लॉन्च किया, एक ऐसी सेवा जो Microsoft Visual Studio जैसे विकास वातावरण के अंदर कोड की पूरी लाइनों के लिए सुझाव प्रदान करती है। कोडेक्स नामक एक एआई मॉडल द्वारा संचालित सार्वजनिक कोड की अरबों लाइनों पर बारिश हुई, कंपनियों का दावा है कि कोपिलॉट फ्रेमवर्क और भाषाओं के एक व्यापक सेट के साथ काम करता है और डेवलपर्स द्वारा किए गए संपादनों के अनुकूल होता है, उनकी कोडिंग शैलियों से मेल खाता है।

लेकिन ओपनएआई द्वारा प्रकाशित एक नए पेपर से पता चलता है कि कोपिलॉट में पूर्वाग्रह और नमूना अक्षमताओं सहित महत्वपूर्ण सीमाएं हो सकती हैं। जबकि शोध केवल शुरुआती कोडेक्स मॉडल का वर्णन करता है, जिनके वंशज ओपनएआई एपीआई में गिटहब कोपिलॉट और कोडेक्स मॉडल को शक्ति देते हैं, यह कोडेक्स के विकास में आने वाले नुकसान, मुख्य रूप से गलत बयानी और सुरक्षा चुनौतियों पर जोर देता है।

GPT-3, कोडेक्स और अन्य जैसे भाषा मॉडल की क्षमता के बावजूद, अवरोधक मौजूद हैं। मॉडल हमेशा गणित की समस्याओं का सही उत्तर नहीं दे सकते हैं या प्रशिक्षण डेटा को पैराफ्रेश किए बिना प्रश्नों का उत्तर नहीं दे सकते हैं, और यह अच्छी तरह से स्थापित है कि वे डेटा में पूर्वाग्रहों को बढ़ाते हैं। भाषा क्षेत्र में यह समस्याग्रस्त है, क्योंकि डेटा का एक हिस्सा अक्सर व्यापक लिंग, नस्ल और धार्मिक पूर्वाग्रहों वाले समुदायों से प्राप्त किया जाता है। और यह प्रोग्रामिंग डोमेन के बारे में भी सच हो सकता है – कम से कम कागज के अनुसार।

विशाल मॉडल

कोडेक्स को मई 2020 तक गिटहब पर होस्ट किए गए 54 मिलियन सार्वजनिक सॉफ्टवेयर रिपॉजिटरी पर प्रशिक्षित किया गया था, जिसमें 1 एमबी से कम आकार की 179 जीबी अद्वितीय पायथन फाइलें थीं। OpenAI ने उन फ़ाइलों को फ़िल्टर किया जो संभावित रूप से ऑटो-जेनरेट की गई थीं, जिनकी औसत लाइन लंबाई 100 से अधिक या अधिकतम 1,000 से अधिक थी, या अल्फ़ान्यूमेरिक वर्णों का एक छोटा प्रतिशत था। अंतिम प्रशिक्षण डेटासेट कुल 159 जीबी था।

OpenAI का दावा है कि उसके द्वारा विकसित सबसे बड़ा कोडेक्स मॉडल, जिसमें 12 बिलियन पैरामीटर हैं, ह्यूमनएवल में 28.8% समस्याओं को हल कर सकता है, 164 OpenAI- निर्मित समस्याओं का एक संग्रह जो एल्गोरिदम, भाषा की समझ और सरल गणित का आकलन करने के लिए डिज़ाइन किया गया है। (मशीन लर्निंग में, पैरामीटर उस मॉडल का हिस्सा होते हैं जो ऐतिहासिक प्रशिक्षण डेटा से सीखा जाता है, और वे आम तौर पर परिष्कार के साथ सहसंबंधित होते हैं।) इसकी तुलना OpenAI के GPT-3 से की जाती है, जो 0% समस्याओं को हल करता है, और EleutherAI का GPT-J, जो सिर्फ 11.4% हल करता है।

मॉडल से बार-बार नमूना लेने के बाद, जहां कोडेक्स को प्रति समस्या 100 नमूने दिए गए थे, ओपनएआई का कहना है कि यह मानवईवल चुनौतियों के 70.2% का सही उत्तर देने का प्रबंधन करता है। लेकिन कंपनी के शोधकर्ताओं ने यह भी पाया कि कोडेक्स सिंटैक्टिक रूप से गलत या अपरिभाषित कोड का प्रस्ताव करता है, ऐसे कार्यों, चर और विशेषताओं को लागू करता है जो अपरिभाषित या कोडबेस के दायरे से बाहर हैं।

अधिक महत्वपूर्ण रूप से, कोडेक्स ऐसे समाधान सुझाता है जो सतही रूप से सही प्रतीत होते हैं लेकिन वास्तव में इच्छित कार्य नहीं करते हैं। उदाहरण के लिए, जब एन्क्रिप्शन कुंजी बनाने के लिए कहा जाता है, तो कोडेक्स “मामलों के एक महत्वपूर्ण अंश” में “स्पष्ट रूप से असुरक्षित” कॉन्फ़िगरेशन पैरामीटर का चयन करता है। मॉडल निर्भरता के रूप में समझौता किए गए पैकेजों की भी सिफारिश करता है और असुरक्षित रूप से कार्य करता है, संभावित रूप से सुरक्षा खतरा पैदा करता है।

सुरक्षा को खतरा

अन्य बड़े भाषा मॉडल की तरह, कोडेक्स अपने प्रशिक्षण डेटा के समान प्रतिक्रियाएं उत्पन्न करता है, जिससे अस्पष्ट कोड होता है जो निरीक्षण पर अच्छा दिखता है लेकिन वास्तव में कुछ अवांछनीय करता है। विशेष रूप से, ओपनएआई ने पाया कि जीपीटी -3 की तरह कोडेक्स को कोड के रूप में नस्लवादी, बदनामी और अन्यथा हानिकारक आउटपुट उत्पन्न करने के लिए प्रेरित किया जा सकता है। शीघ्र “डीईएफ़ रेस (एक्स):” को देखते हुए, ओपनएआई रिपोर्ट करता है कि कोडेक्स अपनी पूर्णता में पारस्परिक रूप से अनन्य दौड़ श्रेणियों की एक छोटी संख्या को मानता है, जिसमें “व्हाइट” “ब्लैक” और “अन्य” के बाद सबसे आम है। और जब “इस्लाम” के संकेत के साथ कोड टिप्पणियां लिखते हैं, तो कोडेक्स में अक्सर “आतंकवादी” और “हिंसक” शब्द अन्य धार्मिक समूहों की तुलना में अधिक दर पर शामिल होते हैं।

OpenAI ने हाल ही में दावा किया कि उसने नैतिक, नैतिक और सामाजिक मूल्यों के संबंध में भाषा मॉडल के “व्यवहार” में सुधार करने का एक तरीका खोजा है। लेकिन जूरी इस बात से बाहर है कि क्या विधि कोडेक्स जैसे अन्य मॉडल आर्किटेक्चर के साथ-साथ अन्य सेटिंग्स और सामाजिक संदर्भों के लिए अच्छी तरह से अनुकूल है।

नए पेपर में, OpenAI ने यह भी स्वीकार किया कि कोडेक्स इस अर्थ में नमूना अक्षम है कि अनुभवहीन प्रोग्रामर से भी मॉडल से कम देखे जाने के बावजूद समस्याओं के एक बड़े हिस्से को हल करने की उम्मीद की जा सकती है। इसके अलावा, कोडेक्स को परिष्कृत करने के लिए एक महत्वपूर्ण मात्रा में गणना की आवश्यकता होती है – प्रति दिन सैकड़ों पेटाफ्लॉप्स – जो कार्बन उत्सर्जन में योगदान देता है। जबकि कोडेक्स को Microsoft Azure पर प्रशिक्षित किया गया था, जो OpenAI नोट कार्बन क्रेडिट और स्रोतों को “नवीकरणीय ऊर्जा की महत्वपूर्ण मात्रा” खरीदता है, कंपनी स्वीकार करती है कि कोड जनरेशन की गणना मांग कोडेक्स के प्रशिक्षण की तुलना में बहुत बड़ी हो सकती है यदि “महत्वपूर्ण अनुमान का उपयोग किया जाता है” चुनौतीपूर्ण समस्याओं से निपटें। ”

दूसरों के अलावा, प्रमुख एआई शोधकर्ता टिमनीत गेब्रू ने बड़े भाषा मॉडल बनाने के ज्ञान पर सवाल उठाया है, यह जांच कर रहा है कि उनसे कौन लाभान्वित है और कौन वंचित है। जून 2020 में, एमहर्स्ट में मैसाचुसेट्स विश्वविद्यालय के शोधकर्ताओं ने एक रिपोर्ट जारी की जिसमें अनुमान लगाया गया था कि एक निश्चित मॉडल के प्रशिक्षण और खोज के लिए आवश्यक बिजली की मात्रा में लगभग 626, 000 पाउंड कार्बन डाइऑक्साइड का उत्सर्जन शामिल है, जो कि जीवन भर के उत्सर्जन के लगभग 5 गुना के बराबर है। औसत अमेरिकी कार।

शायद आलोचना की आशंका करते हुए, OpenAI ने पेपर में दावा किया है कि कोडेक्स जैसे मॉडलों से जोखिम को “सावधान” दस्तावेज़ीकरण और उपयोगकर्ता इंटरफ़ेस डिज़ाइन, कोड समीक्षा और सामग्री नियंत्रण के साथ कम किया जा सकता है। एक सेवा के रूप में उपलब्ध कराए गए मॉडल के संदर्भ में, जैसे एपीआई के माध्यम से, उपयोगकर्ता समीक्षा, केस प्रतिबंध, निगरानी और दर सीमित करने सहित नीतियां भी नुकसान को कम करने में मदद कर सकती हैं, कंपनी का कहना है।

“कोडेक्स जैसे मॉडलों को विकसित किया जाना चाहिए, उपयोग किया जाना चाहिए, और उनकी क्षमताओं का सावधानीपूर्वक पता लगाया जाना चाहिए ताकि उनके सकारात्मक सामाजिक प्रभावों को अधिकतम किया जा सके और उनके उपयोग से होने वाले जानबूझकर या अनजाने नुकसान को कम किया जा सके। प्रभावी जोखिम विश्लेषण और शमन के लिए एक प्रासंगिक दृष्टिकोण महत्वपूर्ण है, हालांकि कोड जनरेशन मॉडल की किसी भी तैनाती पर विचार करने के लिए शमन की कुछ व्यापक श्रेणियां महत्वपूर्ण हैं, “ओपनएआई ने लिखा।

हमने यह देखने के लिए ओपनएआई से संपर्क किया है कि क्या कोपिलॉट में सुझाए गए सुरक्षा उपायों में से कोई लागू किया गया है।

वेंचरबीट

तकनीकी निर्णय लेने वालों के लिए परिवर्तनकारी तकनीक और लेनदेन के बारे में ज्ञान हासिल करने के लिए वेंचरबीट का मिशन एक डिजिटल टाउन स्क्वायर बनना है।

जब आप अपने संगठनों का नेतृत्व करते हैं तो हमारा मार्गदर्शन करने के लिए हमारी साइट डेटा तकनीकों और रणनीतियों पर आवश्यक जानकारी प्रदान करती है। हम आपको हमारे समुदाय का सदस्य बनने के लिए आमंत्रित करते हैं:

  • आपकी रुचि के विषयों पर अप-टू-डेट जानकारी
  • हमारे समाचार पत्र
  • गेटेड विचार-नेता सामग्री और हमारे बेशकीमती आयोजनों के लिए रियायती पहुंच, जैसे रूपांतरण 2021: और अधिक जानें
  • नेटवर्किंग सुविधाएँ, और बहुत कुछ

सदस्य बने

Leave a Reply

Your email address will not be published. Required fields are marked *