मिलें IISc के प्रशांत कुमार घोष से, जिनके पेटेंट वॉइस और स्पीच टेक्नोलॉजी प्रोडक्ट मदद कर रहे हैं कैंसर रोगियों की

By Sindhu Kashyaap & रविकांत पारीक
January 25, 2022, Updated on : Tue Jan 25 2022 05:39:41 GMT+0000
मिलें IISc के प्रशांत कुमार घोष से, जिनके पेटेंट वॉइस और स्पीच टेक्नोलॉजी प्रोडक्ट मदद कर रहे हैं कैंसर रोगियों की
इस सप्ताह के टेकी ट्यूज्डे कॉलम में, हम IISc के एसोसिएट प्रोफेसर प्रशांत कुमार घोष से आपको रूबरू करवाने जा रहे हैं, जिनका स्पीच रिक्ग्नीशन में काम कई लोगों का जीवन बदल रहा है।
  • +0
    Clap Icon
Share on
close
  • +0
    Clap Icon
Share on
close
Share on
close

भारतीय विज्ञान संस्थान (IISc), बेंगलुरु के एसोसिएट प्रोफेसर प्रशांत कुमार घोष ने आर्टिफिशियल इंटेलिजेंस (AI), मशीन लर्निंग (ML), और ऑगमेंटेड रियलिटी (AR) का उपयोग करके कई पेटेंट वाली वॉयस टेक्नोलॉजी विकसित की है। लेकिन साइंस एण्ड टेक्नोलॉजी के प्रति उनका प्रेम उस समय से बढ़ता गया जब वे स्कूल में थे।


प्रशांत YourStory को बताते हैं, "चूंकि मेरे पिता ने अपने दिनों में सही शिक्षा प्राप्त करने के लिए काफी संघर्ष किया था, उन्होंने सुनिश्चित किया कि मैं अच्छी तरह से शिक्षित बनूँ और मुझे सही शिक्षण और सलाह मिले। लेकिन 1996 में हाई स्कूल के दिनों में जिस चीज ने मुझे वास्तव में उत्साहित किया, वह थी इलेक्ट्रॉनिक्स और वह काम जो ISRO उस समय कर रहा था।"


उनके पिता एक सरकारी कर्मचारी थे और उनकी माँ एक गृहिणी थीं। प्रशांत के लिए लक्ष्य ग्रेजुएशन के तुरंत बाद नौकरी पाना था। उस समय ISRO जो काम कर रहा था, उसके लिए उनके प्यार के बावजूद, वह संगठन के प्रस्ताव को स्वीकार नहीं कर सके क्योंकि वह पहले से ही एक अलग संगठन में काम कर रहे थे।


वह बताते हैं, “2003 में जादवपुर विश्वविद्यालय से इलेक्ट्रिकल इंजीनियरिंग में स्नातक होने के बाद, यह हमारे लिए बहुत महत्वपूर्ण था कि मुझे नौकरी मिले। मैंने हर जगह आवेदन करना शुरू कर दिया था, जिसने मुझे अलग-अलग जगहों से नौकरी के प्रस्ताव दिए, और मैंने कोलकाता में उषा कॉम्प प्राइवेट लिमिटेड में काम करना शुरू कर दिया।”

प्रशांत कुमार घोष

प्रशांत कुमार घोष

रिसर्च की दुनिया

हालांकि, उन्हें कभी भी नौकरी करने में कोई दिलचस्पी नहीं थी और वे इलेक्ट्रिकल इंजीनियरिंग और नई टेक्नोलॉजी पर रिसर्च और काम करना चाहते थे। प्रशांत बताते हैं, "मैंने अपने पिता को समझाया कि नौकरी छोड़ना एक कठिन कॉल की तरह लग सकता है, लेकिन लंबे समय में, यह अधिक लाभांश का भुगतान करेगा।"


इसके बाद, उन्होंने स्नातकोत्तर अध्ययन करने के लिए IISc प्रवेश परीक्षा का प्रयास किया।


वे कहते हैं, “मेरी रैंक 489 थी, इस प्रकार मैं बहुत सारे IIT और यहाँ तक कि IISc से चूक गया। मेरे दोस्त IISc में शामिल हो गए और वे मुझे बताते रहे कि संस्थान में एक रिसर्च पद के लिए एक रिक्ति थी। मैंने 2004 में परीक्षा पास की, और फिर कार्यक्रम के लिए चुना गया।”


इसी दौरान उन्हें ISRO की ओर से ऑफर मिला। IISc में MSc की पढ़ाई करते हुए और साथ ही साथ वहां काम करते हुए, उन्होंने महसूस किया कि वे काफी बड़ी समस्याओं को हल करने के लिए निर्माण और काम कर सकते हैं।


प्रशांत कहते हैं, “IISc में संकाय सदस्य प्रेरणादायक से कम नहीं थे। उनके पढ़ाने की शैली और जिस तरह से उन्होंने लोगों को रिसर्च करने के लिए प्रेरित किया, उससे मुझे इस क्षेत्र से प्यार हो गया, और मैंने एक रिसर्चर की भूमिका निभाने का फैसला किया।”


इसका मतलब अकादमिक रूप से बहुत मेहनत करना था। एक स्टार्टअप से नौकरी की पेशकश होने के बावजूद, प्रशांत ने अकादमिक मार्ग पर बने रहने का फैसला किया। वह Microsoft Research India में एक रिसर्च इंटर्न बन गए जहां उन्होंने 2006 में ऑडियो-विजुअल स्पीकर वैरिफिकेशन के क्षेत्र पर ध्यान केंद्रित किया।

Prasanta Kumar Ghosh on commencement at the University of Southern California in 2011.

स्पीच कंप्रेशन

प्रशांत बताते हैं, "मैंने अपने रिसर्च और स्पीच कंप्रेशन पर काम किया। जब आप आज फोन पर बात करते हैं और बातचीत को रिकॉर्ड करते हैं, तो ऑडियो को कंप्रेस करने के बाद आवाज आपके दोस्त तक पहुंच जाती है। मेरा काम नॉन-यूनिफॉर्म सैंपलिंग-बेस्ड कंप्रेशन के आसपास है। किसी भी तरंग का तीन प्रमुख स्थानों पर सैंपल लिया जा सकता है। आपको पूरे सिग्नल या सभी सैंपल को देखने की ज़रूरत नहीं है, लेकिन प्रमुख स्थानों को संकुचित (compressed) और पुनर्निर्मित (reconstructed) किया जाता है।”


उन्होंने अपने रिसर्च को प्रकाशित किया जिससे उन्हें एक थीसिस पुरस्कार मिला। इससे उन्हें यह भी एहसास हुआ कि वह इस क्षेत्र में और काम कर सकते हैं। उन्होंने आगे कहा, "मुझे स्पीच के क्षेत्र में अन्य विकल्पों को देखने का मौका मिला और मैंने अमेरिका में उन जगहों को देखना शुरू कर दिया जहां मैं अपनी PhD कर सकता था।"


उन्होंने 2011 में University of Southern California (USC), लॉस एंजिल्स से इलेक्ट्रिकल इंजीनियरिंग में PhD प्राप्त की। वहां उन्होंने सीखा कि विभिन्न अंतःविषय (interdisciplinary) कार्य कैसे किए जा सकते हैं।

बहुविषयक दृष्टिकोण

प्रशांत बताते हैं, "मैंने साइंस एण्ड टेक्नोलॉजी के चौराहे पर काम किया। मैंने स्पीच-रिक्ग्नीशन टेक्नोलॉजी बनाने के लिए भाषाविदों, इंजीनियरों, गणितज्ञों और अन्य लोगों के साथ काम किया। मैं समझ गया था कि कैसे एक एफएम (फ़्रीक्वेंसी मॉड्यूलेशन) ट्रांसमीटर सिग्नल उत्पन्न करता है और यह समझने का आधार था कि ह्यूमन स्पीच कैसे काम करता है।”


उन्हें USC में एक विशेष विद्युतचुंबकीय कार्यक्रम पर काम करने का भी अनुभव था जो बोलते समय होंठ और जीभ की गति और जबड़े की गति को रिकॉर्ड और ट्रैक करता था। इसने आगे विभिन्न स्पीच-रिक्ग्नीशन मॉड्यूल का निर्माण किया।


वे बताते हैं, "मुझे यह विचार तब आया जब मैं LA में था जिसमें बड़ी हिस्पैनिक आबादी है जो अंग्रेजी की तुलना में स्पेनिश बोलना पसंद करती है। मेरे पास एक प्रोजेक्ट था जिसमें डॉक्टर का भाषण, जो अंग्रेजी में था, का स्पेनिश में अनुवाद किया जाना था ताकि रोगी उन्हें समझ सके।"


2011-2012 के दौरान, प्रशांत एक रिसर्चर के रूप में IBM India Research Lab (IRL) में थे। उन्हें 2012 में डिपार्टमेंट ऑफ साइंस एण्ड टेक्नोलॉजी, भारत सरकार से INSPIRE Faculty Fellowship से भी सम्मानित किया गया था।


प्रशांत कहते हैं, "IBM में मैंने भाषण में आशय वर्गीकरण के आसपास अधिक काम किया। उदाहरण के लिए, अगर कोई पूछता है कि 'क्या मुझे कल छाता ले जाना चाहिए', तो वे वास्तव में कल के लिए मौसम जानना चाहते हैं।" उन्होंने टेक्स्ट एनालिटिक्स और इसके इरादे पर भी काम किया।


IBM में अपने कार्यकाल के बाद वह फिर से IISc में शामिल हो गए। स्पीच रिक्ग्नीशन पर काम करने के बाद, अगला स्तर ऑडियो-विजुअल स्पीच रिक्ग्नीशन पर काम करना रहा था।


वे बताते हैं, "हम इशारों के साथ बोलते हैं, और यह समझना महत्वपूर्ण है कि इशारे कैसे यथार्थवादी एनीमेशन बना सकते हैं। हमारे पास एक ऑप्टिट्रैक मोशन कैमरा डिवाइस है जो किसी के बोलने पर उसके इशारों को रिकॉर्ड कर सकता है, जो भाषण व्यवहार को समझने में मदद कर सकता है।”

Prasanta receiving honourable mention at MHI Research Festival for paper titled "Processing speech signal using auditory-like filterbank provides least uncertainty about articulatory gestures"

हेल्थकेयर पर काम करना

प्रशांत ने NIMHANS, St Johns, बेंगलुरु, आदि जैसे अस्पतालों के साथ भी काम किया है। प्रशांत कहते हैं, “आपकी आवाज़ की आवाज़ का उपयोग करके, हम उदाहरण के लिए, यह समझने की कोशिश कर सकते हैं कि फेफड़ा कितना भरा हुआ है। HCG Hospital के साथ, हम यह समझने की कोशिश कर रहे हैं कि क्या आपको अपने वॉयस बॉक्स में कोई समस्या है। कई कैंसर रोगियों ने अपना वॉयस बॉक्स खो दिया है; हम उनके भाषण को प्राकृतिक भाषण में बदलने की कोशिश कर रहे हैं। इसके अलावा, हम न्यूरोलॉजिकल समस्याओं वाले रोगियों की स्थिति का पता लगाने और सुधारने के लिए काम कर रहे हैं, जिन्हें बोलने में समस्या है।”


अब, वह AI, ML, और AR का उपयोग करके स्पीच रिक्ग्नीशन और वॉइस टेक्नोलॉजी पर काम कर रहे हैं। यह आजीविका में सुधार का वादा करता है, खासकर भारत के ग्रामीण हिस्सों में।


हालाँकि, जबकि भारत में 22 आधिकारिक अनुसूचित भाषाएँ हैं, और कुल 6,661 मातृभाषाएँ हैं, भारत में अग्रणी इंटरनेट कंपनियाँ वर्तमान में केवल पाँच या छह भारतीय भाषाओं पर ध्यान केंद्रित कर रही हैं।


हालांकि बाजार अभी भी नवजात है, स्थानीय भाषाओं और बोलियों में निवेश की कमी देश में वॉइस टेक्नोलॉजी के विकास के लिए मूलभूत बाधाओं में से एक है। प्रशांत की परियोजना का उद्देश्य व्यापक भारतीय भाषा आधार तक पहुंचकर इस बाधा को दूर करना और इसे जनता के लिए फायदेमंद बनाने के लिए नींव रखना है।


युवा तकनीकी विशेषज्ञों को सलाह देते हुए, प्रशांत कहते हैं, “पता लगाएं कि आप वास्तव में किसके बारे में भावुक हैं और उस पर ध्यान केंद्रित करें। एक बार जब आप अपने प्रोजेक्ट को बनाने और उस पर काम करने के लिए पूरी तरह से जाने का फैसला करते हैं, तो सही लोगों का समर्थन पाएं। आज आप जो कुछ भी करते हैं, उसके लिए कई लोगों के एक साथ आने की आवश्यकता होती है, और तब सब कुछ ठीक हो जाएगा।"


Edited by Ranjana Tripathi

हमारे दैनिक समाचार पत्र के लिए साइन अप करें