AI चैटबॉट्स पर आंख मूंदकर भरोसा खतरनाक? Google के नए टेस्ट ने खोली सच्चाई
Google FACTS Benchmark: AI चैटबॉट्स से मिले जवाबों को बिना जांचे-परखे सही मान लेते हैं, तो यह खबर आपके लिए चेतावनी है। Google ने हाल ही में एक अहम असेसमेंट रिपोर्ट जारी की है।
- Written By: सिमरन सिंह
AI को लेकर चेतावनी। (सौ. Freepik)
What is Google FACTS Benchmark: अगर आप AI चैटबॉट्स से मिले जवाबों को बिना जांचे-परखे सही मान लेते हैं, तो यह खबर आपके लिए चेतावनी है। Google ने हाल ही में एक अहम असेसमेंट रिपोर्ट जारी की है, जिसमें AI चैटबॉट्स की सटीकता को लेकर चौंकाने वाले खुलासे किए गए हैं। Google के नए FACTS Benchmark Suite के जरिए यह सामने आया है कि दुनिया के सबसे ताकतवर AI मॉडल भी फैक्ट्स के मामले में पूरी तरह भरोसेमंद नहीं हैं। रिपोर्ट के मुताबिक, किसी भी बड़े AI मॉडल की फैक्चुअल एक्यूरेसी 70 प्रतिशत से आगे नहीं बढ़ पाती। सरल शब्दों में कहें तो AI चैटबॉट हर तीन में से एक जवाब गलत दे रहे हैं।
Google Gemini 3 Pro रहा सबसे सटीक
Google के इस बेंचमार्क टेस्ट में कंपनी का Gemini 3 Pro मॉडल सबसे आगे रहा। इस मॉडल ने 69 प्रतिशत फैक्चुअल एक्यूरेसी हासिल की, जो सभी प्रतिस्पर्धी AI सिस्टम्स से बेहतर मानी गई। OpenAI, Anthropic और एलन मस्क की कंपनी xAI के मॉडल इस स्तर तक भी नहीं पहुंच सके।
रिपोर्ट के अनुसार, Gemini 2.5 Pro और ChatGPT-5 ने 62 प्रतिशत सटीकता दर्ज की। वहीं Claude 4.5 Opus की एक्यूरेसी 51 प्रतिशत और Grok 4 की लगभग 54 प्रतिशत रही। खास बात यह है कि मल्टीमॉडल टास्क जहां टेक्स्ट के साथ इमेज, चार्ट या डायग्राम समझने होते हैं में ज्यादातर AI मॉडल बुरी तरह फेल साबित हुए और उनकी सटीकता 50 प्रतिशत से भी नीचे गिर गई।
सम्बंधित ख़बरें
सुपरकंप्यूटर की जंग में चीन ने मारी बाजी, US से छिना NO-1 का ताज; LineShine की रफ्तार देख दंग रह गई दुनिया
Telegram से हटा बैन, फिर से हुआ चालू, नहीं चल रहा ऐप तो अपनाएं ये आसान तरीका
अब कैमरे के सामने हाथ हिलाकर साबित करनी होगी पहचान, Google ला रहा नया reCAPTCHA सिस्टम
AI Smart Glasses पहनकर गाड़ी चलाना पड़ सकता है भारी, इस राज्य में बैन की तैयारी
क्या है Google का FACTS Benchmark Test?
Google का यह बेंचमार्क टेस्ट AI मॉडल्स की क्षमताओं को पारंपरिक तरीकों से अलग ढंग से परखता है। आमतौर पर AI टेस्ट में मॉडल से टेक्स्ट समरी बनवाना, सवाल-जवाब करना या कोड लिखवाना शामिल होता है। लेकिन FACTS Benchmark में यह जांचा जाता है कि AI द्वारा दी गई जानकारी वास्तव में कितनी सच्ची है।
चार अहम टेस्ट से गुजरते हैं AI मॉडल
यह बेंचमार्क चार प्रैक्टिकल यूज-केस पर आधारित है।
- पहला टेस्ट यह देखता है कि क्या AI मॉडल सिर्फ अपने ट्रेनिंग डेटा के आधार पर फैक्चुअल जवाब दे सकता है या नहीं।
- दूसरा टेस्ट मॉडल की सर्च परफॉर्मेंस को परखता है।
- तीसरा टेस्ट यह जांचता है कि नया या अतिरिक्त डेटा मिलने पर मॉडल डॉक्यूमेंट्स पर कितना सही ढंग से निर्भर करता है।
- चौथा और आखिरी टेस्ट मॉडल की मल्टीमॉडल अंडरस्टैंडिंग जैसे चार्ट, डायग्राम और इमेज को समझने की क्षमता को आंकता है।
ये भी पढ़े: अब उधार में भी होगा UPI पेमेंट! Google Pay Flex से बिना कार्ड मिलेगा क्रेडिट, जानिए कैसे
यूजर्स के लिए क्या है सबक?
Google की यह रिपोर्ट साफ इशारा करती है कि AI चैटबॉट्स को अंतिम सच मानना अभी भी जोखिम भरा हो सकता है। खासकर खबरों, मेडिकल जानकारी या संवेदनशील फैसलों में AI के जवाबों को क्रॉस-चेक करना बेहद जरूरी है।
