वे कहते हैं कि सस्ता माल के लिए क्लासिक्स। हमारे युग की चार शताब्दियों में लिखा गया एक रूपक यह समझने के लिए आदर्श है कि आर्टिफिशियल इंटेलिजेंस के नए अनुप्रयोगों की सीमाएं क्या हैं। मैं "चैटजीपीटी गुफा" का जिक्र कर रहा हूं जो प्लेटो की गुफा के प्रसिद्ध रूपक के अनुकूलन से न तो अधिक है और न ही कम है।
मुझे आर्टिफिशियल इंटेलिजेंस टूल्स के इस्तेमाल पर कोई आपत्ति नहीं है। वास्तव में, मुझे लगता है कि वे काम को बहुत आसान बना देते हैं। लेकिन जब तक उन लोगों द्वारा उपयोग किया जाना चाहिए जिनके पास आपके कार्य का मूल्यांकन करने के लिए पर्याप्त ज्ञान है।
उदाहरण के लिए; कोई चैटजीपीटी को वर्डप्रेस प्लगइन लिखने के लिए कह सकता है, लेकिन अगर किसी को PHP का ज्ञान नहीं है तो प्लगइन गंभीर सुरक्षा समस्याएं पैदा कर सकता है।
गुफा का रूपक
प्लेटो एक ग्रीक दार्शनिक थे जो ईसा पूर्व XNUMXवीं और चौथी शताब्दी के बीच रहे थे। उन्होंने अपने विचारों को मिथकों और रूपकों के रूप में व्यक्त किया। उनमें से सबसे प्रसिद्ध गुफा थी।
में प्रकाशित किया गया था गणतंत्र, रूपक कल्पना करता है लोगों का एक समूह एक गुफा में जंजीरों से जकड़ा हुआ है, उनके पीछे आग है जो उनके सामने दीवार पर छाया डालती है। छाया ही एकमात्र ऐसी चीज है जिसे वे देखते हैं और कल्पना करते हैं कि वे ही एकमात्र ऐसी चीज हैं जो मौजूद हैं, जो परे है उसे अनदेखा करते हुए।
जब एक कैदी को रिहा किया जाता है, तो वह दुनिया को वास्तव में देखने में सक्षम होता है और महसूस करता है कि गुफा में उसके अनुभव कितने सीमित थे।
प्लेटो के विद्वानों के अनुसार, यह रूपक इस बात पर प्रकाश डालता है कि हम सभी अपना जीवन अपनी जानकारी और अनुभवों के आधार पर जीते हैं। गुफा की छाया के बराबर सूचना और अनुभव। कैदियों की तरह ही असली हकीकत है और यह हमारी समझ से परे है।
चैटजीपीटी की गुफा
ChatGPT और इसके प्रतिद्वंद्वियों के प्रशंसक और दोनों हैं निंदक। लेकिन, किसी ने एक लेख तक इसकी विफलताओं के बारे में तकनीकी स्पष्टीकरण नहीं दिया था प्रकाशित न्यू यॉर्कर में विज्ञान कथा लेखक टेड चांग द्वारा
भाषा मॉडल में दोषों की व्याख्या करने के लिए, चांग छवियों और ऑडियो फाइलों के साथ क्या होता है, इसके साथ समानता बनाता है।
डिजिटल फ़ाइल की रिकॉर्डिंग और पुनरुत्पादन के लिए दो चरणों की आवश्यकता होती है: पहला चरण है एन्कोडिंग, जिस बिंदु पर फ़ाइल को एक अधिक कॉम्पैक्ट प्रारूप में परिवर्तित किया जाता है, उसके बाद डिकोडिंग होती है, जो रिवर्स प्रक्रिया है. रूपांतरण प्रक्रिया को दोषरहित कहा जाता है (पुनर्स्थापित फ़ाइल मूल के समान है) या हानिपूर्ण (कुछ जानकारी हमेशा के लिए खो जाती है)। हानिपूर्ण संपीड़न छवि, वीडियो या ऑडियो फ़ाइलों पर लागू होता है और अधिकांश समय ध्यान देने योग्य नहीं होता है। जब यह होता है, तो इसे कम्प्रेशन आर्टिफैक्ट कहा जाता है। संपीड़न कलाकृतियाँ छवियों में धुंधलापन या ऑडियो में क्लैंकिंग के रूप में दिखाई देती हैं।
भाषा मॉडल को संदर्भित करने के लिए चांग वेब से अस्पष्ट जेपीजी के समानता का उपयोग करता है। और, यह काफी सटीक है। दोनों केवल "महत्वपूर्ण बात" रखते हुए जानकारी को संपीड़ित करते हैं। एलभाषा मॉडल बड़ी मात्रा में टेक्स्ट डेटा से, पैटर्न और शब्दों और वाक्यांशों के बीच संबंधों का एक कॉम्पैक्ट प्रतिनिधित्व उत्पन्न करते हैं।
इससे, एक नया पाठ उत्पन्न होता है, जितना संभव हो सके इसे सामग्री और अर्थ में मूल पाठ के समान बनाने की कोशिश कर रहा है। समस्या तब होती है जब नया पाठ उत्पन्न करने के लिए वेब पर पर्याप्त जानकारी नहीं होती है। यह ChatGPT को कॉलेज स्तर का निबंध लिखने में सक्षम बनाता है, लेकिन 5-अंकों का सरल संचालन नहीं करता है।
चांग ने निष्कर्ष निकाला कि:
भले ही बड़े भाषा मॉडल को संलेखन में भाग लेने से प्रतिबंधित करना संभव हो, क्या हमें वेब सामग्री उत्पन्न करने के लिए उनका उपयोग करना चाहिए? यह तभी समझ में आएगा जब हमारा लक्ष्य वेब पर पहले से उपलब्ध जानकारी को रीपैकेज करना है। कुछ कंपनियां ऐसा करने के लिए मौजूद हैं; हम आम तौर पर उन्हें सामग्री फ़ैक्टरी कहते हैं। कॉपीराइट उल्लंघन से बचने के तरीके के रूप में शायद भाषा मॉडल की अस्पष्टता उनके लिए उपयोगी है। आम तौर पर बोलते हुए, मैं कहूंगा कि सामग्री कारखानों के लिए जो कुछ भी अच्छा है वह जानकारी की तलाश करने वाले लोगों के लिए अच्छा नहीं है। इस प्रकार की रीपैकेजिंग का उदय हमारे लिए वह चीज़ ढूंढना मुश्किल बना रहा है जिसे हम अभी ऑनलाइन खोज रहे हैं।; बड़े भाषा मॉडल द्वारा उत्पन्न जितना अधिक पाठ वेब पर प्रकाशित होता है, उतना ही अधिक वेब स्वयं का धुंधला संस्करण बन जाता है।
और, गुफा के कैदियों की तरह, हमारा अनुभव उससे बहुत छोटा होगा जो वास्तविकता हमें प्रदान करती है।