The data lakehouse: A database wishlist and a rant

Posted on

एआई/एमएल ऑटोमेशन टेक्नोलॉजी समिट के लिए 12 जुलाई को ट्रांसफॉर्म 2021 में एआई और डेटा लीडर्स से जुड़ें। आज पंजीकृत करें।


मैंने 2015 में द सिक्योरिटी डेटा लेक लिखा था। उस समय, बड़ा डेटा स्पेस आज की तरह परिपक्व नहीं था – और बड़े डेटा और सुरक्षा का प्रतिच्छेदन एक अच्छी तरह से समझा जाने वाला क्षेत्र नहीं था। आज तेजी से आगे बढ़ रहे हैं, लोग के बारे में बात कर रहे हैं डेटा लेकहाउस. यह एक नई अवधारणा है जिसे नई डेटाबेस प्रौद्योगिकियों, परियोजनाओं और कंपनियों ने हमारे आधुनिक डेटा प्रबंधन और विश्लेषण चुनौतियों को हल करने के लिए आगे बढ़ाया है। या अलग तरह से कहा, वे सभी हमारे डेटा को न्यूनतम संभव लागत पर कार्रवाई योग्य बनाने की कोशिश कर रहे हैं।

इस फर्स्ट-ऑफ-थ्री पोस्ट में, मैं यह देखने जा रहा हूँ कि पिछले कुछ वर्षों के दौरान बिग डेटा की दुनिया में क्या हुआ। दूसरे ब्लॉग पोस्ट में, हम पता लगाएंगे कि डेटा लेकहाउस क्या है और हम कुछ नवीनतम बड़े डेटा प्रोजेक्ट और टूल को समझने के लिए चारों ओर देखेंगे जो हमारे डेटा में छिपे रहस्यों को उजागर करने का वादा करते हैं।

मुझे डेटाबेस प्रौद्योगिकियों के बारे में कुछ शेख़ी के साथ शुरू करने दें। दिन में वापस, हमारे पास रिलेशनल डेटाबेस थे: दुनिया के MySQL और Oracles। और दुनिया अच्छी थी। तब हमें एहसास हुआ कि सभी डेटा नहीं और सभी नहीं एक्सेस पैटर्न इन डेटाबेस के लिए उपयुक्त थे, इसलिए हमने दस्तावेज़ स्टोर, खोज इंजन, ग्राफ़ डेटाबेस, कुंजी मान स्टोर, कॉलमर डेटाबेस इत्यादि का आविष्कार किया और वह तब हुआ जब जीवन जटिल हो गया। आप किन उद्देश्यों के लिए किस डेटाबेस का उपयोग करते हैं? अक्सर ऐसा लगता था कि हमें कई की आवश्यकता होगी। लेकिन इसका मतलब यह होगा कि हमें डेटा को डुप्लिकेट करना होगा, काम के लिए सही डेटाबेस चुनना होगा, डेटा को सिंक्रनाइज़ करना होगा, आदि। एक दुःस्वप्न। तब क्या हुआ था कि हमने उस तकनीक का उपयोग करना शुरू कर दिया जो हमारी अधिकांश जरूरतों को पूरा करती थी और अन्य कार्यों के लिए इसका दुरुपयोग करती थी। मैंने एक बहुत से दस्तावेज़ स्टोर देखे हैं जो जटिल विश्लेषणात्मक प्रश्नों की सेवा के लिए उपयोग किए जाते हैं (यानी, ल्यूसीन को कुल मीट्रिक और तदर्थ सारांश वापस करने के लिए कहना)।

डेटाबेस प्रौद्योगिकियों के साथ-साथ, एक उल्लेखनीय माध्यमिक प्रवृत्ति है: बढ़ी हुई आवश्यकताओं को एक नियामक, गोपनीयता और डेटा इलाके के दृष्टिकोण से। GDPR जैसे नियम डेटा को कैसे संग्रहीत किया जा सकता है, इस पर प्रतिबंध और आवश्यकताएं लगा रहे हैं और व्यक्तियों को अपना डेटा देखने और यहां तक ​​कि अनुरोध पर इसे संशोधित या हटाने का अधिकार देते हैं। कुछ डेटा स्टोर गोपनीयता सुविधाओं के साथ आए हैं, जो अक्सर उस अंतर्दृष्टि के कठोर विरोधाभास में होते हैं जिसे हम डेटा में ढूंढ रहे हैं। अंत में, तेजी से वैश्विक होने के साथ, यह मायने रखता है कि हम अपना डेटा कहां एकत्र और संसाधित करते हैं। न केवल गोपनीयता उद्देश्यों के लिए, बल्कि गति और भंडारण आवश्यकताओं को संसाधित करने के लिए। उदाहरण के लिए, आप अपने डेटा पर वैश्विक सारांशों की गणना कैसे करते हैं? क्या आप डेटा को एक डेटा सेंटर में लाते हैं? या क्या आप स्थानीय समुच्चय की गणना फिर उन्हें संक्षेप में करते हैं? विलंबता और भंडारण लागत पर विचार करने के लिए महत्वपूर्ण कारक हैं।

क्या यह अच्छा नहीं होगा यदि हमारे पास एक डेटा सिस्टम होता जो उपरोक्त सभी आवश्यकताओं को स्वचालित रूप से पूरा करता है? इतो ग्रहण हम इसे जो डेटा भेजते हैं – संरचित, असंरचित, संवेदनशील, गैर संवेदनशील, कुछ भी। और दूसरी तरफ, हम तैयार करते हैं प्रश्नों (मुझे लगता है कि हमें इसके लिए एसक्यूएल को भाषा के रूप में रखना चाहिए) हमारे पास मौजूद सवालों के जवाब देने के लिए। बेशक, हम शीर्ष पर अच्छी विज़ुअलाइज़ेशन परतें जोड़ सकते हैं, लेकिन यह केक पर आइसिंग है। मुझे एक स्व-समायोजन प्रणाली पसंद आएगी। मुझे यह मत चुनने दें कि मुझे ग्राफ़ डेटाबेस चाहिए या नहीं। मुझे डेटा इलाकों या गोपनीयता मापदंडों को कॉन्फ़िगर न करने दें। सिस्टम को आवश्यक पैरामीटर निर्धारित करने दें – शायद मुझे उन चीजों के लिए लूप में लाएं जिन्हें सिस्टम खुद नहीं समझ सकता है, लेकिन इसे मुझ पर आसान बना दें। निश्चित रूप से मुझे अनुक्रमणिका या विचार बनाने के लिए न कहें। मेरे एक्सेस पैटर्न को देखते हुए, सिस्टम को फ्लाई पर उन गुणों का पता लगाने दें। भंडारण लागत और नियामक बाधाओं को ध्यान में रखते हुए डेटा को वहां ले जाएं जहां इसकी आवश्यकता है, सारांश सारणी बनाएं और पारदर्शी रूप से भौतिक विचारों को बनाएं।

अब जब हमने स्टोरेज और एक्सेस के बारे में बात की, तो क्या होगा ईटीएल? अंतर्ग्रहण पर डेटा का अनुवाद करने में चुनौती यह है कि अनुवाद का अर्थ अक्सर जानकारी का नुकसान होता है। दूसरी तरफ, यह एनालिटिक्स के कार्यों को आसान बनाता है और यह डेटा को साफ करने में मदद करता है। उदाहरण के लिए, सुरक्षा लॉग (syslog) लें। हम उन्हें उनके मूल रूप में एक असंरचित स्ट्रिंग के रूप में संग्रहीत कर सकते हैं, या हम अलग-अलग क्षेत्रों को संरचित तरीके से संग्रहीत करने के लिए प्रत्येक तत्व को पार्स कर सकते हैं। चुनौती पार्सर है। अगर हम कुछ गलत करते हैं, तो हम पूरे लॉग रिकॉर्ड खो देंगे। यदि, हालांकि, हम लॉग को उनके मूल रूप में संग्रहीत करते हैं, तो हम विश्लेषण के समय परिवर्तन (पार्सिंग) कर सकते हैं। तब दोष यह है कि हम एक ही डेटा को कई बार पार्स करेंगे; हर बार जब हम क्वेरी करते हैं या उस पर कोई विश्लेषण चलाते हैं। क्या करें? फिर, क्या यह अच्छा नहीं होगा यदि डेटा सिस्टम हमारे लिए इस निर्णय का ध्यान रखे? यदि आवश्यक हो तो मूल डेटा को इधर-उधर रखें, जहाँ आवश्यक हो, पार्स करें, त्रुटि पर फिर से विश्लेषण करें, आदि।

आइए डेटा सिस्टम पहेली के एक अंतिम भाग को देखें, एनालिटिक्स. क्लाउड के आगमन के साथ, एनालिटिक्स को केंद्रीकृत करने के लिए एक बड़ा धक्का लगा है। इसका मतलब है कि सभी डेटा को एक ही केंद्रीय स्थान पर भेजना होगा। यह अपने आप में न तो हमेशा सस्ता होता है और न ही तेज। हमें एक ऐसे दृष्टिकोण की आवश्यकता है जो हमें कुछ डेटा को पूरी तरह से विकेंद्रीकृत रखने की अनुमति दे। डेटा को पीढ़ी के स्थान पर छोड़ दें और आंशिक उत्तर प्राप्त करने के लिए वहां गणना का उपयोग करें। केवल वही डेटा भेजें जिसकी आवश्यकता है। फिर से, हमारे पास सभी बाधाओं और आवश्यकताओं के साथ, जैसे कि उपलब्धता और लागत की गणना, हाइब्रिड डेटा स्टोरेज, फेल ओवर के विचार, अतिरेक, बैकअप, आदि और फिर से, मैं इन चीजों को कॉन्फ़िगर नहीं करना चाहता। मैं चाहता हूं कि कुछ मार्गदर्शक पैरामीटर बताए जाने के बाद सिस्टम उनकी देखभाल करे।

मैं यह पता लगाऊंगा कि पिछले कुछ वर्षों में बड़े डेटा पारिस्थितिकी तंत्र में क्या हुआ है और क्या है झील के किनारे का मकान के बारे में है। क्या वहां कोई समाधान हो सकता है जो उपर्युक्त आवश्यकताओं को पर्याप्त रूप से पूरा करता है?

यह कहानी मूल रूप से Raffy.ch पर दिखाई दी। कॉपीराइट 2021

वेंचरबीट

तकनीकी निर्णय लेने वालों के लिए परिवर्तनकारी तकनीक और लेनदेन के बारे में ज्ञान हासिल करने के लिए वेंचरबीट का मिशन एक डिजिटल टाउन स्क्वायर बनना है।

जब आप अपने संगठनों का नेतृत्व करते हैं तो हमारा मार्गदर्शन करने के लिए हमारी साइट डेटा तकनीकों और रणनीतियों पर आवश्यक जानकारी प्रदान करती है। हम आपको हमारे समुदाय का सदस्य बनने के लिए आमंत्रित करते हैं:

  • आपकी रुचि के विषयों पर अप-टू-डेट जानकारी
  • हमारे समाचार पत्र
  • गेटेड विचार-नेता सामग्री और हमारे बेशकीमती आयोजनों के लिए रियायती पहुंच, जैसे रूपांतरण 2021: और अधिक जानें
  • नेटवर्किंग सुविधाएँ, और बहुत कुछ

सदस्य बने

Leave a Reply

Your email address will not be published. Required fields are marked *