[Techie Tuesday] मिलें शेयरचैट के डेटा साइंस विज़न को चलाने वाले डेटा साइंटिस्ट देबदूत मुखर्जी से
शेयरचैट के देवदूत मुखर्जी, जिन्होंने ईकॉमर्स, सामाजिक, मोबाइल और संचार में AI उत्पादों का निर्माण किया है। शेयरचैट के पहले देबदूत आईबीएम रिसर्च, माइनट्रा और हाइक में काम कर चुके हैं।
शेयरचैट पर देबदूत मुखर्जी की नौकरी में भारत के असंख्य वार्तालापों में बारीकियों और संदर्भ को समझने के लिए डेटा साइंस को लागू करना शामिल है।
उनके द्वारा बनाए गए मॉडल और उपकरण और डेटा वैज्ञानिकों की टीम जिसकी वह देखरेख करते हैं, अपने 130 मिलियन उपयोगकर्ताओं द्वारा पोस्ट किए गए टेक्स्ट, ऑडियो, वीडियो और फ़ोटो बड़े समूह की समझ बनाने में शेयरचैट की मदद करती है और उन्हें सबसे "प्रासंगिक कंटेन्ट फ़ीड" परोसती है।
देबदूत ने योरस्टोरी को बताया,
"एआई के साथ, हम अनिवार्य रूप से यह समझते हैं कि भारत के उपयोगकर्ता क्या चाहते हैं। हमारी चुनौती हर उपयोगकर्ता के स्वाद को समझने और उन्हें अपने फ़ीड पर सही समय पर सामग्री का सही हिस्सा दिखाने की है। हम जो करते हैं वह मूल्य देने के लिए उपभोक्ताओं के साथ सामग्री का मिलान होता है।”
हालांकि यह एक-पंक्ति मूल्य प्रस्ताव प्रतीत होती है, यह उन्नत एल्गोरिदम, रिकमंडेशन इंजन, डीप लर्निंग तंत्र, भाषा प्रसंस्करण प्रणाली और डेटा विश्लेषिकी के जटिल ढांचे द्वारा संचालित है।
या जैसा कि देबदूत इसे भारत उपयोगकर्ता के लिए "अत्याधुनिक प्रौद्योगिकी की स्थिति" कहते हैं।
12 साल से डेटा वैज्ञानिक और आईआईटी दिल्ली के गोल्ड मेडलिस्ट देबदूत 2019 की शुरुआत में शेयरचैट में शामिल हो गए। 650 मिलियन डॉलर के सूनिकॉर्न में AI के VP के रूप में वह सबसे बड़े इंडिक भाषा सोशल मीडिया नेटवर्क में डेटा साइंस पाइपलाइन का निर्माण, परीक्षण और ड्राइव करते हैं।
AI के साथ सोशल मीडिया की प्रासंगिकता
देबदूत ने कंप्यूटर विज़न, नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी), ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), प्रासंगिक खोज, टेक्स्ट एनालिटिक्स और डेटा माइनिंग जैसी उन्नत तकनीकों में नेतृत्व किया है।
शेयरचैट उपयोगकर्ता हर दिन 15 इंडिक भाषाओं में अनस्ट्रक्चर्ड डेटा के स्वैथ उत्पन्न करते हैं, जिसे एआई और एमएल फ्रेमवर्क प्रत्येक उपयोगकर्ता को सबसे अधिक व्यक्तिगत सामग्री फ़ीड परोसने के लिए क्रॉल करते हैं।
सोशल मीडिया प्लेटफॉर्म भारत के छोटे शहरों और बांग्लादेश, नेपाल और मध्य पूर्व के इंडिक-भाषा बोलने वाले हिस्सों से उपयोगकर्ताओं को आकर्षित करता है।
देबदूत कहते हैं, "उनकी जरूरतों को पॉलिश नहीं किया जा सकता है या उनके प्रवचन अन्य सोशल मीडिया प्लेटफार्मों की तरह प्रमुख नहीं हो सकते हैं। यही कारण है कि शेयरचैट वैल्यू डिलीवर करता है, यह एआई को हल करने के लिए एक अधिक दिलचस्प समस्या बन जाती है जब आप कई भाषाओं में सैकड़ों शैलियों में आवश्यकताओं की सेवा कर रहे हैं।"
इन वर्षों में, शेयरचैट ने "कंटेंट शैलियों की एक लंबी सूची" का जन्म किया है जो इसे अन्य सोशल मीडिया नेटवर्क से अलग करता है।
जबकि स्टार्टअप की प्रारंभिक वृद्धि को मीम, चुटकुले, शुभकामनाएं, भजन, शायरी, लघु वीडियो की मांग के द्वारा संचालित किया गया था, यह अब शिक्षा से मनोरंजन तक जानकारी के लिए "नई सामग्री की आवश्यकता" की एक किस्म की सेवा करता है।
वीपी ने कहा, “हमारे जैसे एक लागू वातावरण में डेटा विज्ञान के सभी धागे मिलना शुरू हो जाते हैं। हम दृश्य, पाठ और ऑडियो डेटा के संयोजन से सामग्री में पैटर्न को पहचानते हैं। भाषा की समझ में पहला कदम फ़ोटो और वीडियो में अंतर्निहित पाठ को पुनर्प्राप्त करना है, जो अधिकांश सामग्री बनाता है। हमने एक इन-हाउस ओसीआर मॉडल बनाया है जो इंडिक स्क्रिप्ट और विभिन्न प्रकार के फॉन्ट को समझ सकता है। डेटा की पुनर्प्राप्ति के बाद, हम सामग्री प्रकार की व्याख्या करने के लिए एनएलपी और डीप लर्निंग का उपयोग करते हैं। असमिया और ओडिया जैसी कम संसाधन वाली भाषाओं में डेटा की उपलब्धता एक चुनौती हो सकती है, लेकिन एमएल आपको अन्य भाषाओं में मॉडल को प्रशिक्षित करने के लिए हिंदी जैसी डेटा-समृद्ध भाषाओं से अपनी समझ को स्थानांतरित करने देता है।"
शेयरचैट डेटा को न केवल फीड्स को वैयक्तिकृत करता है, बल्कि ऑटो-टैग कंटेंट को भी कंप्लीट करता है, कॉम्प्लेक्स सेंटीमेंट एनालिसिस करता है, स्पैम्स का पता लगाता है और दुरुपयोग को कंट्रोल करता है। देबदूत कहते हैं, "हम अपनी ओसीआर पाइपलाइन को खोलने के लिए योजना बनाते हैं क्योंकि हम भारतीय विश्वविद्यालयों से बहुत अधिक रुचि देखते हैं।"
उन्होंने कहा कि एक उपभोक्ता तकनीक स्टार्टअप में आपको "डेटा के लिए पहली पहुंच" मिलती है और एक बार जब आप किसी समस्या को हल करते हैं, तो उपयोगकर्ता प्रतिक्रिया तत्काल होती है।
हालांकि, एक दशक पहले ऐसा नहीं था जब वह आईबीएम रिसर्च के हॉलिडे कॉरिडोर में एंटरप्राइज एआई में काम कर रहे थे। उन्होने बताया, “एमएल बड़े पैमाने पर अनुसंधान प्रयोगशालाओं या शिक्षाविदों के लिए प्रतिबंधित था। उसके पास उद्योग में कोई भी ऐसा आवेदन नहीं था जिसे सफल माना जा सके।”
लेकिन आईबीएम रिसर्च कंप्यूटर विज्ञान और इंजीनियरिंग के इन उन्नत विषयों के लिए उनका पहला "वास्तविक प्रदर्शन" था। वे कहते हैं, "यही वह जगह है जहाँ मेरी दिलचस्पी बढ़ गई है।"
उन्होने कहा, "जब मैं मशीन लर्निंग के पहले एप्लिकेशन के माध्यम से आ रहा था, तो मुझे अपने करियर के शुरुआती दिनों में एक शोध के माहौल से अवगत होने का सौभाग्य मिला। हमारी प्रयोगशाला में पीएचडी और नोबेल पुरस्कार विजेता थे। जो सीख हुई वह जबरदस्त थी।”
उद्यम अनुसंधान से लेकर स्टार्टअप तक
आईआईटी दिल्ली से कंप्यूटर साइंस एंड इंजीनियरिंग में मास्टर डिग्री हासिल करने के बाद देबदूत ने 2008 में एक अनुसंधान एवं विकास इंजीनियर के रूप में आईबीएम रिसर्च ज्वाइन किया।
अपने छह साल के कार्यकाल के दौरान उन्होंने कई शोध परियोजनाओं की शुरुआत की; उन्होने डेटा खनन, उद्यम खोज और निर्मित एंड-टू-एंड टूल और मॉडल में विशेषज्ञता प्राप्त की।
वह बताते हैं,
“आईबीएम का एक बहुत बड़ा वैश्विक सेवा प्रभाग था। बहुत सारा डॉकयुमेंटेशन हुआ जो... पीपीटी, वर्ड डॉक्स, एक्सेल शीट था। ये एक साइलो में बनाए गए थे और फिर कभी नहीं देखे गए थे। हमारी चुनौती इस ज्ञान को जीवन में लाने की थी। हमने ऐसे मॉडल बनाए जो असंरचित दस्तावेजों से जानकारी निकाल सकते हैं। एमएल ने रेखाचित्रों और सूचनाओं में अस्पष्टताओं को हल करने में मदद की और आकृतियों को संरचित डेटा सेटों में परिवर्तित किया।”
2014 तक, आईबीएम की लंबी प्रतिक्रिया चक्र और ग्राहकों पर निर्भरता ने डेबड आउट पहनना शुरू कर दिया था। यह वह समय भी था जब भारत में स्टार्टअप्स में उछाल आना शुरू हुआ था।
उन्हे उद्यम अनुसंधान से उपभोक्ता तकनीक के लिए कदम बनाने के लिए इसने प्रेरित किया। वे कहते हैं, "मैं स्टार्टअप संस्कृति का अनुभव करना चाहता हूं जहां आप समस्याएं पैदा करते हैं, समाधान ढूंढते हैं, तैनात करते हैं और अगली समस्या पर आगे बढ़ते हैं।"
2014 की शुरुआत में उन्होंने मिंत्रा पर डेटा साइंस टीम में शामिल होने के लिए आईबीएम छोड़ दिया, जो उस समय उपयोगकर्ताओं के लिए फैशन को निजीकृत करने के मिशन पर था। उनके शामिल होने के एक महीने के भीतर मिंत्रा को फ्लिपकार्ट द्वारा अधिग्रहित कर लिया गया था और उनके लिए संभावनाओं की एक नई दुनिया खुल गई।
एआई के साथ फैशन को निजीकृत करना
मिंत्रा में समस्या कथन सरल था: क्या फैशन के रूप में व्यक्तिगत कुछ डेटा विज्ञान के साथ रूपांतरित हो सकता है?
ये ईकॉमर्स बूम के शुरुआती दिन थे और मिंत्रा- पहले से ही एक प्रमुख फैशन ई-टेलर फैशन में एआई के उपयोग के लिए अग्रणी था।
देबदूत जो कि प्रमुख डेटा वैज्ञानिक थे, उन्होने एक ग्राहक अंतर्दृष्टि मंच विकसित किया, जो एक डेटा-लीडर फ्रेमवर्क है, जो ग्राहकों को फैशन, साइट नेविगेशन पैटर्न, इरादे, खरीद व्यवहार, सामग्री सूचनाओं, प्रतिक्रियाओं और वास्तविक समय के ऑफर प्रदान करता है।
फ्रेमवर्क उनके व्यवहार के आधार पर ग्राहकों के माइक्रो सेगमेंट बनाने के लिए डेटा को स्लाइस और डाइस करता है। ये "ग्राहक समझ का भविष्य कहने वाला मॉडल" मिंत्रा को प्रत्येक उपयोगकर्ता के लिए एक उच्च व्यक्तिगत 1: 1 खरीदारी का अनुभव प्रदान करने की अनुमति देता है।
वास्तव में, ऑनलाइन रिटेलर भी भौतिक दुकानों पर एक स्तर ऊपर जा सकता है।
देबदूत ने कहा, “एक मोर्टार स्टोर में, आप हर ग्राहक के लिए स्टोर का लेआउट नहीं बदल सकते। लेकिन ऑनलाइन पोर्टल में ऐसा करना संभव है क्योंकि आप अनिवार्य रूप से पिक्सेल के साथ खेल रहे हैं। पूरे कैटलॉग को केवल आपको ध्यान में रखकर दिखाया जा सकता है। यह 2014 में किए गए शुरुआती प्रयोगों में से एक था। हमने व्यक्तिगत उत्पादों की सूची को हाइपर किया और ग्राहक के हमारे पूर्वानुमानात्मक मॉडलिंग के आधार पर खोजों को अधिक प्रासंगिक बनाया। सभी व्यावसायिक मैट्रिक्स पर इसका स्वस्थ प्रभाव पड़ा।"
ग्राहक विश्लेषण को मिंत्रा के मूल में एकीकृत किया गया था और सभी निर्णय लेने वाले डेटा-संचालित थे। देबदूत ने ईकॉमर्स कंपनी में सभी डेटा विज्ञान कार्यक्रमों को आगे बढ़ाया और विभिन्न प्रकार के उपयोग मामलों की सेवा और उत्पादों की दृश्यता में सुधार के लिए एक "निजीकरण पाइपलाइन" का निर्माण किया।
वे कहते हैं, ''हमने मर्चेंडाइजिंग और मार्केटिंग से लेकर पूर्वानुमान और रणनीति बनाने तक सभी व्यापारिक कार्यों में निर्णय लेने को बदल दिया।''
लेकिन फैशन ईकॉमर्स में एआई के गहरे प्रभाव के बावजूद, यह अभी भी एक "आला डोमेन" था। देबदूत कहते हैं, "केवल इतना था कि आप फैशन में क्या कर सकते हैं।”
अधिक "मास डोमेन" में उत्पादों का निर्माण करने की उनकी इच्छा ने उन्हें 2015 के अंत में मिंत्रा छोड़ने और घरेलू मैसेजिंग यूनिकॉर्न हाइक में शामिल होने के लिए प्रेरित किया। और उन्होने सामाजिक, मोबाइल और संचार में अपनी यात्रा शुरू कर दी।
अरबों यूजर्स के लिए AI
Hike ने देबदूत को नेक्स्ट बिलियन यूजर्स की गहरी समझ हासिल करने में मदद की।
'भारत उपयोगकर्ता' के रूप में भी पहचाने जाने वाले इस सेट ने प्रौद्योगिकी की एक पीढ़ी को छोड़ दिया है और बिना इंटरनेट से उच्च-गति 4 जी में चला गया है। वे भारत में पहली-लहर इंटरनेट उपयोगकर्ताओं से अलग तरह से सोचते हैं, कार्य करते हैं, बोलते हैं और उपभोग करते हैं।
जब देबदूत ने हाइक को डेटा साइंस के प्रमुख के रूप में जॉइन किया, तो यह अभी भी एक प्रारंभिक चरण का स्टार्टअप था और इसकी "समस्याओं का पोर्टफोलियो, मिंत्रा की तुलना में बहुत व्यापक था"।
वह कहते हैं,
"हाइक के पास हल करने के लिए कई तरह की समस्याएं थीं। यह इंडिक भाषाओं के साथ सामान कर रहा था और जिसने एनएलपी करने के लिए समृद्ध अवसर प्रस्तुत किए, सामाजिक नेटवर्क के खनन के आधार पर सिफारिशें पेश कीं, कंप्यूटर दृष्टि का उपयोग करके कैमरा-फ्रंट पर एमएल का निर्माण किया।“
लेकिन शायद, AI और डेटा का सबसे प्रभावी उपयोग स्टिकर में था।
देबदूत कहते हैं, “स्टिकर प्रमुख विशेषताओं में से एक था। हाइक एक युवा दर्शकों (18-23) के लिए सेवा दे रहा था और इसका मुख्य मूल्य प्रस्ताव उन्हें समृद्ध अभिव्यक्ति के साथ संवाद करने में मदद करना था। हमारा लक्ष्य स्टिकर के साथ टेक्सटिंग को बदलना था और लगभग हर चीज के लिए एक स्टिकर होना संभव बना दिया, जिसे कोई भी व्यक्ति बातचीत वार्तालाप में कहना चाहेगा। इसमें एआई ने बेहतर मदद की।”
हाइक के पास हल करने के लिए तीन चीजें थीं:
1) क्या यूजर्स सिर्फ स्टिकर का उपयोग करके पूरी बातचीत कर सकते हैं?
2) त्वरित और प्रासंगिक स्टिकर का सुझाव देकर ऐप कितनी बातचीत सक्षम कर सकता है?
3) मंच भारतीय भाषाओं में उस क्षमता का निर्माण कैसे कर सकता है?
देबदूत कहते हैं, "हम सभी समस्याओं पर गए। पहले एआई के साथ और बाकी एनएलपी और गहन शिक्षा के साथ।"
अपने चार साल के कार्यकाल के दौरान, उन्होंने डेटा वैज्ञानिकों की एक टीम का नेतृत्व किया, जिसके माध्यम से देबदूत ने कहा, "भारत में उपयोगकर्ता अंतर्दृष्टि का सबसे बड़ा भंडार है"। उन्होंने वार्तालाप और भावना मॉडल, खोज ग्राफ़, अनुशंसाकर्ता सिस्टम, स्पैम फ़िल्टर बनाए, जिससे न केवल स्टिकर की खोज में सुधार हुआ, बल्कि उन्हें व्यक्तिगत रूप से भी पहचान मिली।"
देबदूत कहते हैं, "यह स्टिकर-टू-टेक्स्ट अनुपात पर एक जबरदस्त प्रभाव था, जो दोहरे अंकों में बढ़ गया और हाइक का संपूर्ण मूल्य प्रस्ताव स्टिकर के आसपास केंद्रित हो गया।"
उपभोक्ता तकनीक में एआई का भविष्य
यदि GPT-3 के चारों ओर चर्चा कुछ भी हो, तो AI का भविष्य यहां हो सकता है।
GPT-3 या जनरेटिव प्री- ट्रेंड ट्रांसफ़ॉर्मर 3 एक भाषा पूर्वानुमान मॉडल है जो मानव जैसे पाठ बनाने के लिए गहन सीखने का उपयोग करता है। सिलिकॉन वैली स्थित रिसर्च लैब OpenAI द्वारा निर्मित, यह सामग्री की सेवा के तरीके को बदल सकता है।
देबदूत ने कहा कि इसकी संभावनाएं बहुत अच्छी हैं और जीपीटी -3 में कुछ अकल्पनीय उपयोग के मामलों के साथ "एआई विशेषज्ञों को चौंका दिया है"। वो कहते हैं, “भले ही ओपनएआई ने अंतिम स्तर के विवरणों को पर्याप्त रूप से संरक्षित रखा है, लेकिन लोग दिलचस्प तरीके से इसके साथ खेल रहे हैं। सामग्री उत्पन्न करना एक कार्य होगा GPT-3 आदर्श रूप से इसके लिए उपयुक्त हो सकता है।”
क्या शेयरचैट के लिए चीजें बदल जाती हैं जो सामग्री वितरण में सुधार करने के लिए अपने AI का अनुकूलन कर रही है? और डेटा साइंस सोशल मीडिया में क्या हल कर सकता है?
देबदूत कहते हैं,
“हमने अपनी सामग्री फ़ीड को उपयोगकर्ता की आवश्यकताओं के साथ जोड़ दिया है और इंगेजमेंट दैनिक आधार पर सुधर रही है। लेकिन क्या हम एक ऐसी सामग्री मिश्रण की भविष्यवाणी कर सकते हैं जो दीर्घकालिक प्रतिधारण के साथ अल्पकालिक जुड़ाव को संतुलित कर सके? डेटा विज्ञान यह अनुमान लगा सकता है कि उपयोगकर्ताओं को बाद में क्या दिलचस्पी हो सकती है। यह अगले सत्र में उनकी सेवा करने के लिए एक सत्र से सीख सकता है। अमूर्त सामग्री को समझना, जो मशीनों द्वारा आसानी से पहचाने जाने योग्य नहीं है, वह वही है जो हम बेहतर कर रहे हैं।”
एक ऐसे व्यक्ति के लिए, जिसने भारत में AI लागू करने में 12 साल से अधिक समय बिताया है, देबदूत अभी भी डेटा की शक्ति के बारे में व्यापक हैं।
वह सीखने के लिए आसान पहुँच के लिए इन विषयों में "हाइपर विकास" का श्रेय देते हैं।
“सभी अग्रिमों के माध्यम से आ रहे हैं क्योंकि एआई और एमएल समुदाय शायद ऑनलाइन शिक्षा का लाभ लेने के लिए लोगों का पहला सेट था। जहां तक पहुंच का सवाल है, वहां बहुत सारे लोग लेवल प्लेइंग फील्ड में काम कर रहे हैं। 10 साल पहले भी ऐसा नहीं था।”
आज, दुनिया का एक मंच है और यह शेयरचैट में अभी भी शुरुआत है।