भारत में कृत्रिम बुद्धिमत्ता के क्षेत्र में एक बड़ा प्रयोग सामने आया है। तूलू भाषा AI को लेकर बेंगलुरु की रिसर्च लैब Lossfunk ने ऐसी तकनीक विकसित की है, जिससे बड़े AI मॉडल बिना किसी ट्रेनिंग के भी तूलू भाषा में टेक्स्ट लिख सकते हैं। यह उपलब्धि इसलिए खास मानी जा रही है क्योंकि तूलू एक कम संसाधन वाली भाषा है और इंटरनेट पर इसका डेटा बेहद सीमित है। फिर भी नई पद्धति की मदद से AI ने लगभग 85 प्रतिशत व्याकरणिक सटीकता हासिल कर ली।
तूलू भाषा AI: बिना ट्रेनिंग के AI ने लिखना शुरू किया
Lossfunk नाम की AI रिसर्च लैब को सॉफ्टवेयर कंपनी Wingify के सह-संस्थापक परास चोपड़ा ने शुरू किया है। उनकी टीम ने एक ऐसा तरीका विकसित किया, जिससे बड़े भाषा मॉडल बिना किसी नए डेटा पर ट्रेनिंग के भी तूलू भाषा में टेक्स्ट जनरेट कर सकते हैं।
रिपोर्ट के अनुसार, इस तकनीक में AI को सीधे ट्रेनिंग देने के बजाय विशेष प्रकार के प्रॉम्प्ट का उपयोग किया गया। इन प्रॉम्प्ट में भाषा के व्याकरणिक नियम और कुछ प्रतिबंध शामिल किए गए। इससे मॉडल को यह समझने में मदद मिली कि उसे किस प्रकार की भाषा संरचना का पालन करना है।
परास चोपड़ा ने सोशल मीडिया प्लेटफॉर्म X पर बताया कि तूलू भाषा AI के प्रयोग में सबसे बड़ी चुनौती यह थी कि AI मॉडल बार-बार तूलू को कन्नड़ भाषा के साथ भ्रमित कर रहे थे। इस समस्या को दूर करने के लिए टीम ने ऐसे शब्दों की सूची तैयार की, जिन्हें AI को उपयोग नहीं करना था। इन नकारात्मक प्रतिबंधों ने परिणाम को काफी बेहतर बना दिया।
कम संसाधन वाली भाषा के लिए बड़ी उपलब्धि
तूलू भाषा कर्नाटक के तटीय क्षेत्रों में बोली जाती है और लगभग 20 लाख लोग इसका उपयोग करते हैं। लेकिन डिजिटल दुनिया में इस भाषा की उपस्थिति बेहद कम है। यही कारण है कि अधिकांश AI मॉडल तूलू भाषा AI के मामले में सही परिणाम नहीं दे पाते और अक्सर कन्नड़ जैसी बड़ी भाषाओं की ओर झुक जाते हैं।
Lossfunk की टीम ने इस समस्या को हल करने के लिए लगभग 2800 टोकन वाला पांच-स्तरीय प्रॉम्प्ट तैयार किया। इस प्रॉम्प्ट में भाषा के नियम, प्रतिबंधित शब्दों की सूची और स्वयं जांच करने वाला चेकलिस्ट शामिल था। शुरुआती परीक्षण में केवल 18 प्रतिशत व्याकरणिक सटीकता मिली और लगभग 80 प्रतिशत टेक्स्ट कन्नड़ भाषा से प्रभावित था।
हालांकि जैसे ही सही व्याकरणिक नियम और प्रतिबंध जोड़े गए, तूलू भाषा AI के परिणाम तेजी से सुधर गए। इसके बाद सटीकता बढ़कर लगभग 85 प्रतिशत तक पहुंच गई और कन्नड़ का प्रभाव घटकर केवल 5 प्रतिशत रह गया।
कई बड़े AI मॉडल पर सफल रहा प्रयोग
Lossfunk के इस प्रयोग को कई लोकप्रिय AI मॉडल पर परखा गया। रिपोर्ट के अनुसार Gemini 2.0 Flash मॉडल ने लगभग 85 प्रतिशत सटीकता हासिल की, जबकि GPT-4o ने करीब 82 प्रतिशत और Llama 3.1 70B ने लगभग 78 प्रतिशत सही परिणाम दिए।
जब शोधकर्ताओं ने जानबूझकर गलत व्याकरण नियमों का उपयोग किया तो सटीकता लगभग 50 प्रतिशत तक गिर गई। इससे यह संकेत मिलता है कि AI केवल उदाहरण याद नहीं कर रहा था बल्कि वास्तव में भाषा के नियमों को समझकर टेक्स्ट तैयार कर रहा था।
इस शोध का मूल्यांकन तीन मूल तूलू भाषा बोलने वाले विशेषज्ञों ने भी किया। उनके बीच 0.72 का सहमति स्कोर मिला, जो इस प्रयोग की विश्वसनीयता को मजबूत करता है।
भारत की भाषाओं के लिए खुल सकते हैं नए रास्ते
तूलू भाषा AI पर किया गया यह प्रयोग भारत जैसे बहुभाषी देश के लिए महत्वपूर्ण माना जा रहा है। देश में सैकड़ों भाषाएं बोली जाती हैं, लेकिन अधिकांश AI सिस्टम केवल कुछ बड़ी भाषाओं जैसे हिंदी, तमिल, मराठी या कन्नड़ पर ही केंद्रित रहते हैं।
अगर Lossfunk की यह तकनीक व्यापक स्तर पर अपनाई जाती है तो कई कम संसाधन वाली भारतीय भाषाओं को भी AI सिस्टम में शामिल किया जा सकता है। इससे नई तकनीकों तक क्षेत्रीय भाषाओं की पहुंच आसान हो सकती है।
परास चोपड़ा का मानना है कि केवल प्रॉम्प्ट इंजीनियरिंग के माध्यम से भी AI को ऐसी भाषाओं में काम करने के लिए प्रेरित किया जा सकता है, जिन पर मॉडल को पहले कभी प्रशिक्षित नहीं किया गया।
भारत में AI रिसर्च बढ़ाने की जरूरत
परास चोपड़ा ने जनवरी 2025 में Wingify से बाहर निकलने के बाद बेंगलुरु में Lossfunk रिसर्च लैब की शुरुआत की थी। फरवरी में आयोजित ET AI Awards 2025 में उन्होंने कहा कि भारत में अभी भी मूलभूत AI रिसर्च के लिए पर्याप्त निवेश नहीं हो रहा है।
उनका मानना है कि सफल कंपनियों और स्टार्टअप फाउंडर्स को वैज्ञानिक अनुसंधान में अधिक निवेश करना चाहिए। इससे भारत वैश्विक AI नवाचार में बड़ी भूमिका निभा सकता है।
तूलू भाषा AI पर किया गया यह प्रयोग दिखाता है कि सही रणनीति और शोध के जरिए कम संसाधन वाली भाषाओं को भी आधुनिक तकनीक से जोड़ा जा सकता है।
read also: चीन समेत पड़ोसी देशों के लिए एफडीआई नियमों में ढील, सरकार का बड़ा फैसला











