تکنولوژی

نتایج تکان‌دهنده: کدام هوش مصنوعی بیشترین جواب غلط را می‌دهد؟

در سالی که هوش مصنوعی با سرعتی بی‌سابقه در حال نفوذ به زندگی روزمره، رسانه‌ها، آموزش، تولید محتوا و حتی تصمیم‌سازی‌های کلان است، یک پرسش جدی بیش از همیشه مطرح می‌شود: کدام مدل هوش مصنوعی بیشترین خطا را تولید می‌کند؟

پژوهش تازه‌ای از دانشگاه کمبریج ـ که بازتاب گسترده‌ای در رسانه‌ها یافت ـ تلاش کرده پاسخی علمی و قابل‌اتکا به این دغدغه بدهد. در این بررسی، میزان «توهّم» یا همان تولید پاسخ‌های غیرواقعی، ساختگی و اشتباه، در چند مدل معروف هوش مصنوعی اندازه‌گیری شده و نتایج آن، تصویری دقیق از تفاوت عملکرد میان مدل‌های شناخته‌شده ارائه می‌دهد.

نتایج تکان‌دهنده: کدام هوش مصنوعی بیشترین جواب غلط را می‌دهد؟

این مطالعه نشان می‌دهد مدل GPT‑۳ با نرخ توهّم ۹۴ درصد در صدر جدول قرار دارد؛ رقمی که نشان می‌دهد نسل‌های قدیمی‌تر مدل‌های زبانی چقدر مستعد ارائه پاسخ‌های اشتباه بوده‌اند. پس از آن، مدل‌های گرَک۳ و گرَک۲ (نسخه‌های مورد بررسی این پژوهش) در رتبه‌های بعدی قرار گرفته‌اند و همچنان نرخ بالایی از پاسخ‌های نادرست داشته‌اند. در بخش میانی جدول، مدل‌هایی مانند دیپ‌سیک و چت‌جی‌پی‌تی نسخه پایه قرار دارند که عملکردی متوسط اما نه چندان قابل‌اتکا در تولید پاسخ دقیق داشته‌اند.

اما نکته مهم‌تر در این تحقیق، تفاوت محسوس میان مدل‌های جست‌وجومحور و مدل‌های تولیدی است. طبق یافته‌ها، سرویس Perplexity با نرخ توهّم ۳۳ درصد کمترین میزان خطا را در میان مدل‌های بررسی‌شده داشته و به‌عنوان دقیق‌ترین ابزار معرفی شده است. جایگاه پس از آن هم متعلق به Copilot است که نرخ خطای ۴۰ درصدی را ثبت کرده است.

این آمار از آن جهت اهمیت دارد که نشان می‌دهد استفاده از مدل‌هایی که از منابع واقعی، نقل‌قول‌محور و استنادمحور برای تولید پاسخ استفاده می‌کنند، می‌تواند خطای انسانی و اطلاعات غلط را به‌شکل چشمگیری کاهش دهد.

البته یک نکته مهم وجود دارد: بسیاری از مدل‌هایی که در این نمودار دیده می‌شوند، نسخه‌های قدیمی‌تر هستند و نسخه‌های فعلی آن‌ها (مانند GPT‑۴، GPT‑۵.۱، Gemini Advanced یا DeepSeek-R1) عملکردی بسیار متفاوت و دقیق‌تر دارند. بااین‌حال، برای مخاطبان عمومی و تولیدکنندگان محتوا، این نمودار همچنان یک معیار مهم درباره تفاوت رفتار مدل‌ها در شرایط یکسان است.

به‌طور کلی نتایج این گزارش نشان می‌دهد که:

۱. هر مدل هوش مصنوعی، صرف‌نظر از برند یا محبوبیت، میزانی از توهّم دارد.

۲. مدل‌های تولیدیِ صرف (LLMهای کلاسیک) بیشتر از مدل‌های جست‌وجومحور دچار خطا می‌شوند.

۳. کاربران باید بین “سرعت تولید پاسخ” و “دقت” یکی را ترجیح دهند یا از ترکیب ابزارها استفاده کنند.

۴. برای انتشار عمومی، استناد و نقل‌قول همچنان مهم‌تر از صرفاً هوشمند بودن مدل است.

این پژوهش یک پیام کلیدی برای کاربران و تولیدکنندگان محتوا دارد:

هیچ هوش مصنوعی بی‌خطا نیست؛ کیفیت خروجی به مدل، نسخه، منبع داده و حتی نوع پرسش وابسته است.

به همین دلیل است که متخصصان توصیه می‌کنند همیشه از مدل‌های استنادمحور یا نسخه‌های پیشرفته‌تر استفاده شود و هیچ پاسخ هوش مصنوعی بدون بررسی نهایی منتشر نشود.

نمایش کامل خبر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا