ChatGPT ने 300 अरब शब्दों का डेटाबेस कहां से बनाया? क्यों यह डेटा प्राइवेसी के लिए खतरा है?

चैटजीपीटी (ChatGPT) ने दुनिया में तूफान ला दिया है. जारी होने के दो महीने के भीतर यह 10 करोड़ एक्टिव यूजर्स तक पहुंच गया, जिससे यह अब तक का सबसे तेजी से बढ़ने वाला उपभोक्ता एप्लिकेशन बन गया है.

Thursday February 09, 2023 , 5 min Read

चैटजीपीटी (ChatGPT) ने दुनिया में तूफान ला दिया है. जारी होने के दो महीने के भीतर यह 10 करोड़ एक्टिव यूजर्स तक पहुंच गया, जिससे यह अब तक का सबसे तेजी से बढ़ने वाला उपभोक्ता एप्लिकेशन बन गया है.

यूजर्स उपकरण की एडवांस कैपिबिलिटीज से आकर्षित होते हैं और विभिन्न क्षेत्रों में व्यवधान पैदा करने की इसकी क्षमता से चिंतित भी हैं. चैटजीपीटी हममें से प्रत्येक के लिए निजता का जोखिम है

कल ही, Google ने आर्टिफिशियल इंटेलिजेंस (AI) आधारित बार्ड (Bard) की शुरुआत की है, और अन्य प्लेटफॉर्म भी निश्चित रूप से उनका अनुसरण करेंगे. एआई पर काम करने वाली प्रौद्योगिकी कंपनियां अच्छी तरह से और सही मायने में हथियारों की दौड़ में शामिल हो गई हैं. समस्या यह है कि यह सब हमारे निजी डेटा से प्रेरित हैं.

300 अरब शब्द, इसमें आपके कितने हैं?

चैटजीपीटी को एक वृहद भाषा मॉडल द्वारा तैयार किया गया है जिसे कार्य करने और सुधारने के लिए भारी मात्रा में डेटा की आवश्यकता होती है. मॉडल को जितना अधिक डेटा पर प्रशिक्षित किया जाता है, पैटर्न का पता लगाने में यह उतना ही बेहतर होता है.

चैटजीपीटी तैयार करने में महत्वपूर्ण भूमिका निभाने वाली कंपनी ओपनएआई ने उपकरण को लगभग 300 अरब शब्दों के जरिए तैयार किया. यह इंटरनेट, किताबें, लेख, वेबसाइट और पोस्ट के अलावा बिना सहमति से प्राप्त निजी जानकारी सहित उपलब्ध डेटा पर आधारित है.

यदि आपने कभी कोई ब्लॉग पोस्ट या उत्पाद समीक्षा लिखी है, या किसी लेख पर ऑनलाइन टिप्पणी की है, तो इस बात की काफी संभावना है कि इस जानकारी को चैटजीपीटी ने ग्रहण कर लिया है.

तो यह एक मुद्दा क्यों है?

चैटजीपीटी को प्रशिक्षित करने के लिए उपयोग किया जाने वाला डेटा संग्रह कई कारणों से समस्याग्रस्त है. सबसे पहले, हममें से किसी से नहीं पूछा गया कि क्या ओपनएआई हमारे डेटा का इस्तेमाल कर सकता है. यह गोपनीयता का स्पष्ट उल्लंघन है, खासकर जब डेटा संवेदनशील होता है और इसका उपयोग हमें, हमारे परिवार के सदस्यों या हमारे स्थान की पहचान करने के लिए किया जा सकता है.

यहां तक कि जब डेटा सार्वजनिक रूप से उपलब्ध होता है तब भी उनका इस्तेमाल उस चीज का उल्लंघन कर सकता है जिसे हम शाब्दिक अखंडता कहते हैं. निजता की कानूनी चर्चाओं में यह एक मूलभूत सिद्धांत है. यह जरूरी है कि लोगों की जानकारी उस संदर्भ के बाहर प्रकट न हो जिसमें इसे मूल रूप से निर्मित किया गया था.

इसके अलावा, ओपनएआई लोगों को यह जांचने के लिए कोई प्रक्रिया प्रदान नहीं करता है कि कंपनी उनकी व्यक्तिगत जानकारी संग्रहीत करती है या इसे हटाने का अनुरोध करती है. यह यूरोपीय जनरल डेटा प्रोटेक्शन रेगुलेशन (जीडीपीआर) के अनुसार एक गारंटी प्रदत्त अधिकार है. हालांकि यह अभी भी बहस के अधीन है कि क्या चैटजीपीटी जीडीपीआर मानदंड के अनुरूप है.

यह ‘‘मिटाने या भूलने का अधिकार’’ विशेष रूप से उन मामलों में महत्वपूर्ण है, जहां जानकारी गलत या भ्रामक है, जो चैटजीपीटी के साथ एक नियमित घटना प्रतीत होती है. इसके अलावा, रद्द डेटा का मालिकाना हक या कॉपीराइट हो सकता है. उदाहरण के लिए, जब मैंने कहा, तो इस उपकरण ने पीटर कैरी के उपन्यास ‘‘ट्रू हिस्ट्री ऑफ़ द केली गैंग’’ के पहले कुछ पैराग्राफ प्रस्तुत किए. यह पाठ कॉपीराइट के अंतर्गत आता है.

अंत में, ओपनएआई ने इंटरनेट से लिए गए डेटा के लिए भुगतान नहीं किया. इसे बनाने वाले लोगों, वेबसाइट के मालिकों और कंपनियों को मुआवजा नहीं दिया गया. यह विशेष रूप से उल्लेखनीय है कि ओपनएआई का मूल्य हाल में 29 अरब डॉलर था, जो 2021 में इसके मूल्य के दोगुने से भी अधिक था.

ओपनएआई ने हाल में चैटजीपीटी प्लस की भी घोषणा की है, जो एक भुगतान आधारित ‘सब्सक्रिप्शन प्लान’ है जो ग्राहकों को टूल तक निरंतर पहुंच, तेजी से प्रतिक्रिया समय और नयी सुविधाओं तक प्राथमिकता से पहुंच प्रदान करेगा. इस योजना से 2024 तक अनुमानित तौर पर एक अरब डॉलर की आय होगी. इनमें से कोई भी डेटा के बिना संभव नहीं है. यह डेटा हम सबका है जो हमारी अनुमति के बिना एकत्र और उपयोग किया जाता है.

कमजोर प्राइवेसी पॉलिसी

प्राइवेसी को लेकर एक जोखिम यह भी है कि चैटजीपीटी यूजर्स के संकेतों से भी डेटा हासिल कर सकता है. जब हम टूल से सवालों के जवाब देने या कार्य करने के लिए कहते हैं, तो हम अनजाने में संवेदनशील जानकारी सौंप सकते हैं और इसे सार्वजनिक ‘डोमेन’ में डाल सकते हैं.

उदाहरण के लिए, कोई वकील इस उपकरण को तलाक समझौते के मसौदे की समीक्षा करने के लिए कह सकता है, या एक प्रोग्रामर इसे कोड के एक हिस्से की जांच करने के लिए कह सकता है. ये सभी अब चैटजीपीटी के डेटाबेस का हिस्सा हैं. इसका मतलब है कि उनका उपयोग उपकरण को और प्रशिक्षित करने के लिए किया जा सकता है, और अन्य लोगों के संकेतों के जवाबों में शामिल किया जा सकता है.

इसके अलावा, ओपनएआई उपयोगकर्ता संबंधी अन्य जानकारी को भी एकत्र करता है. कंपनी की गोपनीयता नीति के अनुसार, यह उपयोगकर्ताओं के आईपी एड्रेस, ब्राउज़र प्रकार और सेटिंग्स, और साइट से संबंधित डेटा एकत्र करता है. इनमें संलग्न सामग्री, यूजर्स के द्वारा उपयोग की जाने वाली सुविधाएं जैसी चीजें भी हैं. ऐसी जानकारी भी एकत्र की जाती है कि यूजर्स कितना समय वेबसाइट पर देते हैं .

कुछ विशेषज्ञों का मानना है कि चैटजीपीटी एआई के लिए एक महत्वपूर्ण बिंदु है. यह ऐसा तकनीकी विकास हो सकता है जो हमारे काम करने, सीखने, लिखने और यहां तक कि सोचने के तरीके में क्रांति ला सकता है. इसके संभावित लाभ के बावजूद, हमें याद रखना चाहिए कि ओपनएआई एक निजी, लाभकारी कंपनी है, जिसके हित और व्यावसायिक अनिवार्यताएं आवश्यक रूप से अधिक सामाजिक जरूरतों के अनुरूप नहीं हैं.

चैटजीपीटी से जुड़े गोपनीयता जोखिमों को चेतावनी के रूप में लेना चाहिए. एआई टेक्नोलॉजियों के यूजर्स के रूप में, हमें इस बारे में बेहद सावधान रहना चाहिए कि हम ऐसे उपकरणों के साथ कौन सी जानकारी साझा करते हैं.

यह भी पढ़ें