मिलें IISc के प्रशांत कुमार घोष से, जिनके पेटेंट वॉइस और स्पीच टेक्नोलॉजी प्रोडक्ट मदद कर रहे हैं कैंसर रोगियों की
इस सप्ताह के टेकी ट्यूज्डे कॉलम में, हम IISc के एसोसिएट प्रोफेसर प्रशांत कुमार घोष से आपको रूबरू करवाने जा रहे हैं, जिनका स्पीच रिक्ग्नीशन में काम कई लोगों का जीवन बदल रहा है।
रविकांत पारीक
Tuesday January 25, 2022 , 7 min Read
भारतीय विज्ञान संस्थान (IISc), बेंगलुरु के एसोसिएट प्रोफेसर प्रशांत कुमार घोष ने आर्टिफिशियल इंटेलिजेंस (AI), मशीन लर्निंग (ML), और ऑगमेंटेड रियलिटी (AR) का उपयोग करके कई पेटेंट वाली वॉयस टेक्नोलॉजी विकसित की है। लेकिन साइंस एण्ड टेक्नोलॉजी के प्रति उनका प्रेम उस समय से बढ़ता गया जब वे स्कूल में थे।
प्रशांत YourStory को बताते हैं, "चूंकि मेरे पिता ने अपने दिनों में सही शिक्षा प्राप्त करने के लिए काफी संघर्ष किया था, उन्होंने सुनिश्चित किया कि मैं अच्छी तरह से शिक्षित बनूँ और मुझे सही शिक्षण और सलाह मिले। लेकिन 1996 में हाई स्कूल के दिनों में जिस चीज ने मुझे वास्तव में उत्साहित किया, वह थी इलेक्ट्रॉनिक्स और वह काम जो ISRO उस समय कर रहा था।"
उनके पिता एक सरकारी कर्मचारी थे और उनकी माँ एक गृहिणी थीं। प्रशांत के लिए लक्ष्य ग्रेजुएशन के तुरंत बाद नौकरी पाना था। उस समय ISRO जो काम कर रहा था, उसके लिए उनके प्यार के बावजूद, वह संगठन के प्रस्ताव को स्वीकार नहीं कर सके क्योंकि वह पहले से ही एक अलग संगठन में काम कर रहे थे।
वह बताते हैं, “2003 में जादवपुर विश्वविद्यालय से इलेक्ट्रिकल इंजीनियरिंग में स्नातक होने के बाद, यह हमारे लिए बहुत महत्वपूर्ण था कि मुझे नौकरी मिले। मैंने हर जगह आवेदन करना शुरू कर दिया था, जिसने मुझे अलग-अलग जगहों से नौकरी के प्रस्ताव दिए, और मैंने कोलकाता में उषा कॉम्प प्राइवेट लिमिटेड में काम करना शुरू कर दिया।”
रिसर्च की दुनिया
हालांकि, उन्हें कभी भी नौकरी करने में कोई दिलचस्पी नहीं थी और वे इलेक्ट्रिकल इंजीनियरिंग और नई टेक्नोलॉजी पर रिसर्च और काम करना चाहते थे। प्रशांत बताते हैं, "मैंने अपने पिता को समझाया कि नौकरी छोड़ना एक कठिन कॉल की तरह लग सकता है, लेकिन लंबे समय में, यह अधिक लाभांश का भुगतान करेगा।"
इसके बाद, उन्होंने स्नातकोत्तर अध्ययन करने के लिए IISc प्रवेश परीक्षा का प्रयास किया।
वे कहते हैं, “मेरी रैंक 489 थी, इस प्रकार मैं बहुत सारे IIT और यहाँ तक कि IISc से चूक गया। मेरे दोस्त IISc में शामिल हो गए और वे मुझे बताते रहे कि संस्थान में एक रिसर्च पद के लिए एक रिक्ति थी। मैंने 2004 में परीक्षा पास की, और फिर कार्यक्रम के लिए चुना गया।”
इसी दौरान उन्हें ISRO की ओर से ऑफर मिला। IISc में MSc की पढ़ाई करते हुए और साथ ही साथ वहां काम करते हुए, उन्होंने महसूस किया कि वे काफी बड़ी समस्याओं को हल करने के लिए निर्माण और काम कर सकते हैं।
प्रशांत कहते हैं, “IISc में संकाय सदस्य प्रेरणादायक से कम नहीं थे। उनके पढ़ाने की शैली और जिस तरह से उन्होंने लोगों को रिसर्च करने के लिए प्रेरित किया, उससे मुझे इस क्षेत्र से प्यार हो गया, और मैंने एक रिसर्चर की भूमिका निभाने का फैसला किया।”
इसका मतलब अकादमिक रूप से बहुत मेहनत करना था। एक स्टार्टअप से नौकरी की पेशकश होने के बावजूद, प्रशांत ने अकादमिक मार्ग पर बने रहने का फैसला किया। वह Microsoft Research India में एक रिसर्च इंटर्न बन गए जहां उन्होंने 2006 में ऑडियो-विजुअल स्पीकर वैरिफिकेशन के क्षेत्र पर ध्यान केंद्रित किया।
स्पीच कंप्रेशन
प्रशांत बताते हैं, "मैंने अपने रिसर्च और स्पीच कंप्रेशन पर काम किया। जब आप आज फोन पर बात करते हैं और बातचीत को रिकॉर्ड करते हैं, तो ऑडियो को कंप्रेस करने के बाद आवाज आपके दोस्त तक पहुंच जाती है। मेरा काम नॉन-यूनिफॉर्म सैंपलिंग-बेस्ड कंप्रेशन के आसपास है। किसी भी तरंग का तीन प्रमुख स्थानों पर सैंपल लिया जा सकता है। आपको पूरे सिग्नल या सभी सैंपल को देखने की ज़रूरत नहीं है, लेकिन प्रमुख स्थानों को संकुचित (compressed) और पुनर्निर्मित (reconstructed) किया जाता है।”
उन्होंने अपने रिसर्च को प्रकाशित किया जिससे उन्हें एक थीसिस पुरस्कार मिला। इससे उन्हें यह भी एहसास हुआ कि वह इस क्षेत्र में और काम कर सकते हैं। उन्होंने आगे कहा, "मुझे स्पीच के क्षेत्र में अन्य विकल्पों को देखने का मौका मिला और मैंने अमेरिका में उन जगहों को देखना शुरू कर दिया जहां मैं अपनी PhD कर सकता था।"
उन्होंने 2011 में University of Southern California (USC), लॉस एंजिल्स से इलेक्ट्रिकल इंजीनियरिंग में PhD प्राप्त की। वहां उन्होंने सीखा कि विभिन्न अंतःविषय (interdisciplinary) कार्य कैसे किए जा सकते हैं।
बहुविषयक दृष्टिकोण
प्रशांत बताते हैं, "मैंने साइंस एण्ड टेक्नोलॉजी के चौराहे पर काम किया। मैंने स्पीच-रिक्ग्नीशन टेक्नोलॉजी बनाने के लिए भाषाविदों, इंजीनियरों, गणितज्ञों और अन्य लोगों के साथ काम किया। मैं समझ गया था कि कैसे एक एफएम (फ़्रीक्वेंसी मॉड्यूलेशन) ट्रांसमीटर सिग्नल उत्पन्न करता है और यह समझने का आधार था कि ह्यूमन स्पीच कैसे काम करता है।”
उन्हें USC में एक विशेष विद्युतचुंबकीय कार्यक्रम पर काम करने का भी अनुभव था जो बोलते समय होंठ और जीभ की गति और जबड़े की गति को रिकॉर्ड और ट्रैक करता था। इसने आगे विभिन्न स्पीच-रिक्ग्नीशन मॉड्यूल का निर्माण किया।
वे बताते हैं, "मुझे यह विचार तब आया जब मैं LA में था जिसमें बड़ी हिस्पैनिक आबादी है जो अंग्रेजी की तुलना में स्पेनिश बोलना पसंद करती है। मेरे पास एक प्रोजेक्ट था जिसमें डॉक्टर का भाषण, जो अंग्रेजी में था, का स्पेनिश में अनुवाद किया जाना था ताकि रोगी उन्हें समझ सके।"
2011-2012 के दौरान, प्रशांत एक रिसर्चर के रूप में IBM India Research Lab (IRL) में थे। उन्हें 2012 में डिपार्टमेंट ऑफ साइंस एण्ड टेक्नोलॉजी, भारत सरकार से INSPIRE Faculty Fellowship से भी सम्मानित किया गया था।
प्रशांत कहते हैं, "IBM में मैंने भाषण में आशय वर्गीकरण के आसपास अधिक काम किया। उदाहरण के लिए, अगर कोई पूछता है कि 'क्या मुझे कल छाता ले जाना चाहिए', तो वे वास्तव में कल के लिए मौसम जानना चाहते हैं।" उन्होंने टेक्स्ट एनालिटिक्स और इसके इरादे पर भी काम किया।
IBM में अपने कार्यकाल के बाद वह फिर से IISc में शामिल हो गए। स्पीच रिक्ग्नीशन पर काम करने के बाद, अगला स्तर ऑडियो-विजुअल स्पीच रिक्ग्नीशन पर काम करना रहा था।
वे बताते हैं, "हम इशारों के साथ बोलते हैं, और यह समझना महत्वपूर्ण है कि इशारे कैसे यथार्थवादी एनीमेशन बना सकते हैं। हमारे पास एक ऑप्टिट्रैक मोशन कैमरा डिवाइस है जो किसी के बोलने पर उसके इशारों को रिकॉर्ड कर सकता है, जो भाषण व्यवहार को समझने में मदद कर सकता है।”
हेल्थकेयर पर काम करना
प्रशांत ने NIMHANS, St Johns, बेंगलुरु, आदि जैसे अस्पतालों के साथ भी काम किया है। प्रशांत कहते हैं, “आपकी आवाज़ की आवाज़ का उपयोग करके, हम उदाहरण के लिए, यह समझने की कोशिश कर सकते हैं कि फेफड़ा कितना भरा हुआ है। HCG Hospital के साथ, हम यह समझने की कोशिश कर रहे हैं कि क्या आपको अपने वॉयस बॉक्स में कोई समस्या है। कई कैंसर रोगियों ने अपना वॉयस बॉक्स खो दिया है; हम उनके भाषण को प्राकृतिक भाषण में बदलने की कोशिश कर रहे हैं। इसके अलावा, हम न्यूरोलॉजिकल समस्याओं वाले रोगियों की स्थिति का पता लगाने और सुधारने के लिए काम कर रहे हैं, जिन्हें बोलने में समस्या है।”
अब, वह AI, ML, और AR का उपयोग करके स्पीच रिक्ग्नीशन और वॉइस टेक्नोलॉजी पर काम कर रहे हैं। यह आजीविका में सुधार का वादा करता है, खासकर भारत के ग्रामीण हिस्सों में।
हालाँकि, जबकि भारत में 22 आधिकारिक अनुसूचित भाषाएँ हैं, और कुल 6,661 मातृभाषाएँ हैं, भारत में अग्रणी इंटरनेट कंपनियाँ वर्तमान में केवल पाँच या छह भारतीय भाषाओं पर ध्यान केंद्रित कर रही हैं।
हालांकि बाजार अभी भी नवजात है, स्थानीय भाषाओं और बोलियों में निवेश की कमी देश में वॉइस टेक्नोलॉजी के विकास के लिए मूलभूत बाधाओं में से एक है। प्रशांत की परियोजना का उद्देश्य व्यापक भारतीय भाषा आधार तक पहुंचकर इस बाधा को दूर करना और इसे जनता के लिए फायदेमंद बनाने के लिए नींव रखना है।
युवा तकनीकी विशेषज्ञों को सलाह देते हुए, प्रशांत कहते हैं, “पता लगाएं कि आप वास्तव में किसके बारे में भावुक हैं और उस पर ध्यान केंद्रित करें। एक बार जब आप अपने प्रोजेक्ट को बनाने और उस पर काम करने के लिए पूरी तरह से जाने का फैसला करते हैं, तो सही लोगों का समर्थन पाएं। आज आप जो कुछ भी करते हैं, उसके लिए कई लोगों के एक साथ आने की आवश्यकता होती है, और तब सब कुछ ठीक हो जाएगा।"
Edited by Ranjana Tripathi