Sarvam AI (Source. X)
Sarvam Vision OCR: अब तक जब भी आर्टिफिशियल इंटेलिजेंस यानी AI मॉडल्स की बात होती थी, तो अमेरिका और चीन के नाम सबसे पहले सामने आते थे। लेकिन अब तस्वीर बदलती दिख रही है। बेंगलुरु के देसी स्टार्टअप Sarvam AI ने ऐसा कारनामा कर दिखाया है, जिसने दुनिया के बड़े-बड़े AI मॉडल्स को भी चौंका दिया है। खास बात यह है कि यह कंपनी शुरू से ही भारत में फाउंडेशनल AI मॉडल्स तैयार कर रही है। हाल ही में Sarvam AI के दो टूल्स Sarvam Vision और Bulbul ने टेक दुनिया में हलचल मचा दी है।
Sarvam Vision एक एडवांस्ड AI सिस्टम है, जिसने ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) के क्षेत्र में शानदार प्रदर्शन किया है। इस देसी AI ने कुछ इंटरनेशनल बेंचमार्क्स पर ChatGPT, Google Gemini और Anthropic Claude जैसे चर्चित मॉडल्स से भी बेहतर नतीजे दिए हैं। यही वजह है कि इसकी तारीफ अब सिर्फ यूजर्स ही नहीं, बल्कि टेक एक्सपर्ट्स भी कर रहे हैं। Sarvam AI के को-फाउंडर प्रत्युष कुमार ने X प्लेटफॉर्म पर कई पोस्ट के जरिए इन-हाउस AI मॉडल्स की उपलब्धियों को साझा किया है।
फाउंडर के पोस्ट के मुताबिक, Sarvam Vision ने OmniDocBench v1.5 (English only subset) पर 93.28 प्रतिशत की एक्युरेसी हासिल की है, जहां Gemini और ChatGPT जैसे मॉडल्स पीछे रह गए।
यह बेंचमार्क जांचता है कि कोई AI सिस्टम रियल वर्ल्ड डॉक्युमेंट्स को कितनी अच्छी तरह पढ़ और समझ सकता है। Sarvam Vision ने मुश्किल डिजाइन, टेक्निकल टेबल्स और मैथ्स फॉर्मूला जैसे सेक्शन्स में भी बेहतरीन स्कोर किया है जहां आम OCR सिस्टम अक्सर फेल हो जाते हैं।
Sarvam Vision achieves state-of-the-art accuracy of 84.3% on the olmOCR-Bench (English only subset) outperforming frontier models like Gemini 3 Pro and recent OCR models like DeepSeek OCR 2. pic.twitter.com/NsvN15hNqa — Pratyush Kumar (@pratykumar) February 5, 2026
एक समय Sarvam AI को सिर्फ भारतीय भाषाओं पर फोकस करने को लेकर सवालों का सामना करना पड़ता था, लेकिन अब वही सवाल तारीफ में बदल चुके हैं। X पर टेक कमेंटेटर डीडी दास ने लिखा कि Sarvam के OCR और इंडियन लैंग्वेज स्पीच मॉडल्स काफी मजबूत हैं और यह AI उस कमी को पूरा करता है, जिसे ग्लोबल AI लंबे समय तक नजरअंदाज करता रहा।
Sarvam AI को लेकर यूजर्स भी अपने अनुभव शेयर कर रहे हैं। एक यूजर ने लिखा कि उसने कुछ दिन पहले ही इस टूल का इस्तेमाल किया और अनुभव “कमाल का” रहा।
ये भी पढ़े: QR कोड स्कैन किया और खाते से उड़ गए पैसे, रोज़ पेमेंट करने वालों के लिए बड़ी चेतावनी
OCR के साथ-साथ Sarvam AI ने अपना नया टेक्स्ट-टू-स्पीच मॉडल Bulbul V3 भी लॉन्च किया है। कंपनी ने ब्लॉग पोस्ट में कहा, “हम Bulbul V3 लॉन्च कर रहे हैं। यह कंपनी का सबसे कैपेबल टेक्स्ट टू स्पीच मॉडल है” यह मॉडल भारतीय भाषाओं के लिए नेचुरल, एक्सप्रेसिव और प्रोडक्शन-रेडी वॉयस जनरेट करने के लिए डिजाइन किया गया है। Bulbul V3 में 11 भारतीय भाषाओं और 35 से ज्यादा वॉयस ऑप्शन्स का सपोर्ट दिया गया है। कंपनी का कहना है कि आने वाले समय में और भी भाषाएं इसमें जोड़ी जाएंगी।