Brands
Discover
Events
Newsletter
More

Follow Us

twitterfacebookinstagramyoutube
Youtstory

Brands

Resources

Stories

General

In-Depth

Announcement

Reports

News

Funding

Startup Sectors

Women in tech

Sportstech

Agritech

E-Commerce

Education

Lifestyle

Entertainment

Art & Culture

Travel & Leisure

Curtain Raiser

Wine and Food

YSTV

ADVERTISEMENT
Advertise with us

मिलें IISc के प्रशांत कुमार घोष से, जिनके पेटेंट वॉइस और स्पीच टेक्नोलॉजी प्रोडक्ट मदद कर रहे हैं कैंसर रोगियों की

इस सप्ताह के टेकी ट्यूज्डे कॉलम में, हम IISc के एसोसिएट प्रोफेसर प्रशांत कुमार घोष से आपको रूबरू करवाने जा रहे हैं, जिनका स्पीच रिक्ग्नीशन में काम कई लोगों का जीवन बदल रहा है।

Sindhu Kashyaap

रविकांत पारीक

मिलें IISc के प्रशांत कुमार घोष से, जिनके पेटेंट वॉइस और स्पीच टेक्नोलॉजी प्रोडक्ट मदद कर रहे हैं कैंसर रोगियों की

Tuesday January 25, 2022 , 7 min Read

भारतीय विज्ञान संस्थान (IISc), बेंगलुरु के एसोसिएट प्रोफेसर प्रशांत कुमार घोष ने आर्टिफिशियल इंटेलिजेंस (AI), मशीन लर्निंग (ML), और ऑगमेंटेड रियलिटी (AR) का उपयोग करके कई पेटेंट वाली वॉयस टेक्नोलॉजी विकसित की है। लेकिन साइंस एण्ड टेक्नोलॉजी के प्रति उनका प्रेम उस समय से बढ़ता गया जब वे स्कूल में थे।

प्रशांत YourStory को बताते हैं, "चूंकि मेरे पिता ने अपने दिनों में सही शिक्षा प्राप्त करने के लिए काफी संघर्ष किया था, उन्होंने सुनिश्चित किया कि मैं अच्छी तरह से शिक्षित बनूँ और मुझे सही शिक्षण और सलाह मिले। लेकिन 1996 में हाई स्कूल के दिनों में जिस चीज ने मुझे वास्तव में उत्साहित किया, वह थी इलेक्ट्रॉनिक्स और वह काम जो ISRO उस समय कर रहा था।"

उनके पिता एक सरकारी कर्मचारी थे और उनकी माँ एक गृहिणी थीं। प्रशांत के लिए लक्ष्य ग्रेजुएशन के तुरंत बाद नौकरी पाना था। उस समय ISRO जो काम कर रहा था, उसके लिए उनके प्यार के बावजूद, वह संगठन के प्रस्ताव को स्वीकार नहीं कर सके क्योंकि वह पहले से ही एक अलग संगठन में काम कर रहे थे।

वह बताते हैं, “2003 में जादवपुर विश्वविद्यालय से इलेक्ट्रिकल इंजीनियरिंग में स्नातक होने के बाद, यह हमारे लिए बहुत महत्वपूर्ण था कि मुझे नौकरी मिले। मैंने हर जगह आवेदन करना शुरू कर दिया था, जिसने मुझे अलग-अलग जगहों से नौकरी के प्रस्ताव दिए, और मैंने कोलकाता में उषा कॉम्प प्राइवेट लिमिटेड में काम करना शुरू कर दिया।”

प्रशांत कुमार घोष

प्रशांत कुमार घोष

रिसर्च की दुनिया

हालांकि, उन्हें कभी भी नौकरी करने में कोई दिलचस्पी नहीं थी और वे इलेक्ट्रिकल इंजीनियरिंग और नई टेक्नोलॉजी पर रिसर्च और काम करना चाहते थे। प्रशांत बताते हैं, "मैंने अपने पिता को समझाया कि नौकरी छोड़ना एक कठिन कॉल की तरह लग सकता है, लेकिन लंबे समय में, यह अधिक लाभांश का भुगतान करेगा।"

इसके बाद, उन्होंने स्नातकोत्तर अध्ययन करने के लिए IISc प्रवेश परीक्षा का प्रयास किया।

वे कहते हैं, “मेरी रैंक 489 थी, इस प्रकार मैं बहुत सारे IIT और यहाँ तक कि IISc से चूक गया। मेरे दोस्त IISc में शामिल हो गए और वे मुझे बताते रहे कि संस्थान में एक रिसर्च पद के लिए एक रिक्ति थी। मैंने 2004 में परीक्षा पास की, और फिर कार्यक्रम के लिए चुना गया।”

इसी दौरान उन्हें ISRO की ओर से ऑफर मिला। IISc में MSc की पढ़ाई करते हुए और साथ ही साथ वहां काम करते हुए, उन्होंने महसूस किया कि वे काफी बड़ी समस्याओं को हल करने के लिए निर्माण और काम कर सकते हैं।

प्रशांत कहते हैं, “IISc में संकाय सदस्य प्रेरणादायक से कम नहीं थे। उनके पढ़ाने की शैली और जिस तरह से उन्होंने लोगों को रिसर्च करने के लिए प्रेरित किया, उससे मुझे इस क्षेत्र से प्यार हो गया, और मैंने एक रिसर्चर की भूमिका निभाने का फैसला किया।”

इसका मतलब अकादमिक रूप से बहुत मेहनत करना था। एक स्टार्टअप से नौकरी की पेशकश होने के बावजूद, प्रशांत ने अकादमिक मार्ग पर बने रहने का फैसला किया। वह Microsoft Research India में एक रिसर्च इंटर्न बन गए जहां उन्होंने 2006 में ऑडियो-विजुअल स्पीकर वैरिफिकेशन के क्षेत्र पर ध्यान केंद्रित किया।

Prasanta Kumar Ghosh on commencement at the University of Southern California in 2011.

स्पीच कंप्रेशन

प्रशांत बताते हैं, "मैंने अपने रिसर्च और स्पीच कंप्रेशन पर काम किया। जब आप आज फोन पर बात करते हैं और बातचीत को रिकॉर्ड करते हैं, तो ऑडियो को कंप्रेस करने के बाद आवाज आपके दोस्त तक पहुंच जाती है। मेरा काम नॉन-यूनिफॉर्म सैंपलिंग-बेस्ड कंप्रेशन के आसपास है। किसी भी तरंग का तीन प्रमुख स्थानों पर सैंपल लिया जा सकता है। आपको पूरे सिग्नल या सभी सैंपल को देखने की ज़रूरत नहीं है, लेकिन प्रमुख स्थानों को संकुचित (compressed) और पुनर्निर्मित (reconstructed) किया जाता है।”

उन्होंने अपने रिसर्च को प्रकाशित किया जिससे उन्हें एक थीसिस पुरस्कार मिला। इससे उन्हें यह भी एहसास हुआ कि वह इस क्षेत्र में और काम कर सकते हैं। उन्होंने आगे कहा, "मुझे स्पीच के क्षेत्र में अन्य विकल्पों को देखने का मौका मिला और मैंने अमेरिका में उन जगहों को देखना शुरू कर दिया जहां मैं अपनी PhD कर सकता था।"

उन्होंने 2011 में University of Southern California (USC), लॉस एंजिल्स से इलेक्ट्रिकल इंजीनियरिंग में PhD प्राप्त की। वहां उन्होंने सीखा कि विभिन्न अंतःविषय (interdisciplinary) कार्य कैसे किए जा सकते हैं।

बहुविषयक दृष्टिकोण

प्रशांत बताते हैं, "मैंने साइंस एण्ड टेक्नोलॉजी के चौराहे पर काम किया। मैंने स्पीच-रिक्ग्नीशन टेक्नोलॉजी बनाने के लिए भाषाविदों, इंजीनियरों, गणितज्ञों और अन्य लोगों के साथ काम किया। मैं समझ गया था कि कैसे एक एफएम (फ़्रीक्वेंसी मॉड्यूलेशन) ट्रांसमीटर सिग्नल उत्पन्न करता है और यह समझने का आधार था कि ह्यूमन स्पीच कैसे काम करता है।”

उन्हें USC में एक विशेष विद्युतचुंबकीय कार्यक्रम पर काम करने का भी अनुभव था जो बोलते समय होंठ और जीभ की गति और जबड़े की गति को रिकॉर्ड और ट्रैक करता था। इसने आगे विभिन्न स्पीच-रिक्ग्नीशन मॉड्यूल का निर्माण किया।

वे बताते हैं, "मुझे यह विचार तब आया जब मैं LA में था जिसमें बड़ी हिस्पैनिक आबादी है जो अंग्रेजी की तुलना में स्पेनिश बोलना पसंद करती है। मेरे पास एक प्रोजेक्ट था जिसमें डॉक्टर का भाषण, जो अंग्रेजी में था, का स्पेनिश में अनुवाद किया जाना था ताकि रोगी उन्हें समझ सके।"

2011-2012 के दौरान, प्रशांत एक रिसर्चर के रूप में IBM India Research Lab (IRL) में थे। उन्हें 2012 में डिपार्टमेंट ऑफ साइंस एण्ड टेक्नोलॉजी, भारत सरकार से INSPIRE Faculty Fellowship से भी सम्मानित किया गया था।

प्रशांत कहते हैं, "IBM में मैंने भाषण में आशय वर्गीकरण के आसपास अधिक काम किया। उदाहरण के लिए, अगर कोई पूछता है कि 'क्या मुझे कल छाता ले जाना चाहिए', तो वे वास्तव में कल के लिए मौसम जानना चाहते हैं।" उन्होंने टेक्स्ट एनालिटिक्स और इसके इरादे पर भी काम किया।

IBM में अपने कार्यकाल के बाद वह फिर से IISc में शामिल हो गए। स्पीच रिक्ग्नीशन पर काम करने के बाद, अगला स्तर ऑडियो-विजुअल स्पीच रिक्ग्नीशन पर काम करना रहा था।

वे बताते हैं, "हम इशारों के साथ बोलते हैं, और यह समझना महत्वपूर्ण है कि इशारे कैसे यथार्थवादी एनीमेशन बना सकते हैं। हमारे पास एक ऑप्टिट्रैक मोशन कैमरा डिवाइस है जो किसी के बोलने पर उसके इशारों को रिकॉर्ड कर सकता है, जो भाषण व्यवहार को समझने में मदद कर सकता है।”

Prasanta receiving honourable mention at MHI Research Festival for paper titled "Processing speech signal using auditory-like filterbank provides least uncertainty about articulatory gestures"

हेल्थकेयर पर काम करना

प्रशांत ने NIMHANS, St Johns, बेंगलुरु, आदि जैसे अस्पतालों के साथ भी काम किया है। प्रशांत कहते हैं, “आपकी आवाज़ की आवाज़ का उपयोग करके, हम उदाहरण के लिए, यह समझने की कोशिश कर सकते हैं कि फेफड़ा कितना भरा हुआ है। HCG Hospital के साथ, हम यह समझने की कोशिश कर रहे हैं कि क्या आपको अपने वॉयस बॉक्स में कोई समस्या है। कई कैंसर रोगियों ने अपना वॉयस बॉक्स खो दिया है; हम उनके भाषण को प्राकृतिक भाषण में बदलने की कोशिश कर रहे हैं। इसके अलावा, हम न्यूरोलॉजिकल समस्याओं वाले रोगियों की स्थिति का पता लगाने और सुधारने के लिए काम कर रहे हैं, जिन्हें बोलने में समस्या है।”

अब, वह AI, ML, और AR का उपयोग करके स्पीच रिक्ग्नीशन और वॉइस टेक्नोलॉजी पर काम कर रहे हैं। यह आजीविका में सुधार का वादा करता है, खासकर भारत के ग्रामीण हिस्सों में।

हालाँकि, जबकि भारत में 22 आधिकारिक अनुसूचित भाषाएँ हैं, और कुल 6,661 मातृभाषाएँ हैं, भारत में अग्रणी इंटरनेट कंपनियाँ वर्तमान में केवल पाँच या छह भारतीय भाषाओं पर ध्यान केंद्रित कर रही हैं।

हालांकि बाजार अभी भी नवजात है, स्थानीय भाषाओं और बोलियों में निवेश की कमी देश में वॉइस टेक्नोलॉजी के विकास के लिए मूलभूत बाधाओं में से एक है। प्रशांत की परियोजना का उद्देश्य व्यापक भारतीय भाषा आधार तक पहुंचकर इस बाधा को दूर करना और इसे जनता के लिए फायदेमंद बनाने के लिए नींव रखना है।

युवा तकनीकी विशेषज्ञों को सलाह देते हुए, प्रशांत कहते हैं, “पता लगाएं कि आप वास्तव में किसके बारे में भावुक हैं और उस पर ध्यान केंद्रित करें। एक बार जब आप अपने प्रोजेक्ट को बनाने और उस पर काम करने के लिए पूरी तरह से जाने का फैसला करते हैं, तो सही लोगों का समर्थन पाएं। आज आप जो कुछ भी करते हैं, उसके लिए कई लोगों के एक साथ आने की आवश्यकता होती है, और तब सब कुछ ठीक हो जाएगा।"


Edited by Ranjana Tripathi