نتایج تکاندهنده: کدام هوش مصنوعی بیشترین جواب غلط را میدهد؟

در سالی که هوش مصنوعی با سرعتی بیسابقه در حال نفوذ به زندگی روزمره، رسانهها، آموزش، تولید محتوا و حتی تصمیمسازیهای کلان است، یک پرسش جدی بیش از همیشه مطرح میشود: کدام مدل هوش مصنوعی بیشترین خطا را تولید میکند؟
پژوهش تازهای از دانشگاه کمبریج ـ که بازتاب گستردهای در رسانهها یافت ـ تلاش کرده پاسخی علمی و قابلاتکا به این دغدغه بدهد. در این بررسی، میزان «توهّم» یا همان تولید پاسخهای غیرواقعی، ساختگی و اشتباه، در چند مدل معروف هوش مصنوعی اندازهگیری شده و نتایج آن، تصویری دقیق از تفاوت عملکرد میان مدلهای شناختهشده ارائه میدهد.

این مطالعه نشان میدهد مدل GPT‑۳ با نرخ توهّم ۹۴ درصد در صدر جدول قرار دارد؛ رقمی که نشان میدهد نسلهای قدیمیتر مدلهای زبانی چقدر مستعد ارائه پاسخهای اشتباه بودهاند. پس از آن، مدلهای گرَک۳ و گرَک۲ (نسخههای مورد بررسی این پژوهش) در رتبههای بعدی قرار گرفتهاند و همچنان نرخ بالایی از پاسخهای نادرست داشتهاند. در بخش میانی جدول، مدلهایی مانند دیپسیک و چتجیپیتی نسخه پایه قرار دارند که عملکردی متوسط اما نه چندان قابلاتکا در تولید پاسخ دقیق داشتهاند.
اما نکته مهمتر در این تحقیق، تفاوت محسوس میان مدلهای جستوجومحور و مدلهای تولیدی است. طبق یافتهها، سرویس Perplexity با نرخ توهّم ۳۳ درصد کمترین میزان خطا را در میان مدلهای بررسیشده داشته و بهعنوان دقیقترین ابزار معرفی شده است. جایگاه پس از آن هم متعلق به Copilot است که نرخ خطای ۴۰ درصدی را ثبت کرده است.
این آمار از آن جهت اهمیت دارد که نشان میدهد استفاده از مدلهایی که از منابع واقعی، نقلقولمحور و استنادمحور برای تولید پاسخ استفاده میکنند، میتواند خطای انسانی و اطلاعات غلط را بهشکل چشمگیری کاهش دهد.
البته یک نکته مهم وجود دارد: بسیاری از مدلهایی که در این نمودار دیده میشوند، نسخههای قدیمیتر هستند و نسخههای فعلی آنها (مانند GPT‑۴، GPT‑۵.۱، Gemini Advanced یا DeepSeek-R1) عملکردی بسیار متفاوت و دقیقتر دارند. بااینحال، برای مخاطبان عمومی و تولیدکنندگان محتوا، این نمودار همچنان یک معیار مهم درباره تفاوت رفتار مدلها در شرایط یکسان است.
بهطور کلی نتایج این گزارش نشان میدهد که:
۱. هر مدل هوش مصنوعی، صرفنظر از برند یا محبوبیت، میزانی از توهّم دارد.
۲. مدلهای تولیدیِ صرف (LLMهای کلاسیک) بیشتر از مدلهای جستوجومحور دچار خطا میشوند.
۳. کاربران باید بین “سرعت تولید پاسخ” و “دقت” یکی را ترجیح دهند یا از ترکیب ابزارها استفاده کنند.
۴. برای انتشار عمومی، استناد و نقلقول همچنان مهمتر از صرفاً هوشمند بودن مدل است.
این پژوهش یک پیام کلیدی برای کاربران و تولیدکنندگان محتوا دارد:
هیچ هوش مصنوعی بیخطا نیست؛ کیفیت خروجی به مدل، نسخه، منبع داده و حتی نوع پرسش وابسته است.
به همین دلیل است که متخصصان توصیه میکنند همیشه از مدلهای استنادمحور یا نسخههای پیشرفتهتر استفاده شود و هیچ پاسخ هوش مصنوعی بدون بررسی نهایی منتشر نشود.