AI चैटबॉट्स पर आंख मूंदकर भरोसा खतरनाक? Google के नए टेस्ट ने खोली सच्चाई
Google FACTS Benchmark: AI चैटबॉट्स से मिले जवाबों को बिना जांचे-परखे सही मान लेते हैं, तो यह खबर आपके लिए चेतावनी है। Google ने हाल ही में एक अहम असेसमेंट रिपोर्ट जारी की है।
- Written By: सिमरन सिंह
AI को लेकर चेतावनी। (सौ. Freepik)
What is Google FACTS Benchmark: अगर आप AI चैटबॉट्स से मिले जवाबों को बिना जांचे-परखे सही मान लेते हैं, तो यह खबर आपके लिए चेतावनी है। Google ने हाल ही में एक अहम असेसमेंट रिपोर्ट जारी की है, जिसमें AI चैटबॉट्स की सटीकता को लेकर चौंकाने वाले खुलासे किए गए हैं। Google के नए FACTS Benchmark Suite के जरिए यह सामने आया है कि दुनिया के सबसे ताकतवर AI मॉडल भी फैक्ट्स के मामले में पूरी तरह भरोसेमंद नहीं हैं। रिपोर्ट के मुताबिक, किसी भी बड़े AI मॉडल की फैक्चुअल एक्यूरेसी 70 प्रतिशत से आगे नहीं बढ़ पाती। सरल शब्दों में कहें तो AI चैटबॉट हर तीन में से एक जवाब गलत दे रहे हैं।
Google Gemini 3 Pro रहा सबसे सटीक
Google के इस बेंचमार्क टेस्ट में कंपनी का Gemini 3 Pro मॉडल सबसे आगे रहा। इस मॉडल ने 69 प्रतिशत फैक्चुअल एक्यूरेसी हासिल की, जो सभी प्रतिस्पर्धी AI सिस्टम्स से बेहतर मानी गई। OpenAI, Anthropic और एलन मस्क की कंपनी xAI के मॉडल इस स्तर तक भी नहीं पहुंच सके।
रिपोर्ट के अनुसार, Gemini 2.5 Pro और ChatGPT-5 ने 62 प्रतिशत सटीकता दर्ज की। वहीं Claude 4.5 Opus की एक्यूरेसी 51 प्रतिशत और Grok 4 की लगभग 54 प्रतिशत रही। खास बात यह है कि मल्टीमॉडल टास्क जहां टेक्स्ट के साथ इमेज, चार्ट या डायग्राम समझने होते हैं में ज्यादातर AI मॉडल बुरी तरह फेल साबित हुए और उनकी सटीकता 50 प्रतिशत से भी नीचे गिर गई।
सम्बंधित ख़बरें
YouTube Users के लिए बड़ी राहत, अब बंद होगी Shorts की एंडलेस स्क्रॉलिंग
अब प्राइवेट नहीं रहेंगी आपकी Chats, Meta ने हटाया बड़ा सिक्योरिटी फीचर, बढ़ सकता है खतरा
क्या AI खत्म कर देगा कंप्यूटर इंजीनियरिंग? जानिए भविष्य में किन स्किल्स वालों की रहेगी सबसे ज्यादा मांग
Vivo X300 Ultra Vs Samsung S26 Ultra Vs Pixel 10 Pro: कौन-सा फ्लैगशिप फोन है सबसे दमदार?
क्या है Google का FACTS Benchmark Test?
Google का यह बेंचमार्क टेस्ट AI मॉडल्स की क्षमताओं को पारंपरिक तरीकों से अलग ढंग से परखता है। आमतौर पर AI टेस्ट में मॉडल से टेक्स्ट समरी बनवाना, सवाल-जवाब करना या कोड लिखवाना शामिल होता है। लेकिन FACTS Benchmark में यह जांचा जाता है कि AI द्वारा दी गई जानकारी वास्तव में कितनी सच्ची है।
चार अहम टेस्ट से गुजरते हैं AI मॉडल
यह बेंचमार्क चार प्रैक्टिकल यूज-केस पर आधारित है।
- पहला टेस्ट यह देखता है कि क्या AI मॉडल सिर्फ अपने ट्रेनिंग डेटा के आधार पर फैक्चुअल जवाब दे सकता है या नहीं।
- दूसरा टेस्ट मॉडल की सर्च परफॉर्मेंस को परखता है।
- तीसरा टेस्ट यह जांचता है कि नया या अतिरिक्त डेटा मिलने पर मॉडल डॉक्यूमेंट्स पर कितना सही ढंग से निर्भर करता है।
- चौथा और आखिरी टेस्ट मॉडल की मल्टीमॉडल अंडरस्टैंडिंग जैसे चार्ट, डायग्राम और इमेज को समझने की क्षमता को आंकता है।
ये भी पढ़े: अब उधार में भी होगा UPI पेमेंट! Google Pay Flex से बिना कार्ड मिलेगा क्रेडिट, जानिए कैसे
यूजर्स के लिए क्या है सबक?
Google की यह रिपोर्ट साफ इशारा करती है कि AI चैटबॉट्स को अंतिम सच मानना अभी भी जोखिम भरा हो सकता है। खासकर खबरों, मेडिकल जानकारी या संवेदनशील फैसलों में AI के जवाबों को क्रॉस-चेक करना बेहद जरूरी है।
