شنبه ۱۶ فروردين ۱۴۰۴ ساعت ۱۸:۰۰

آزمونی که GPT-4 را به زانو درآورد

فرانسوا شوله با طراحی آزمون ARC-AGI ثابت کرد هوش مصنوعی فعلی تنها با تقلید داده‌ها عمل می‌کند و فاقد هوش سیال انسانی است، حتی مدل‌های پیشرفته‌ای مانند GPT-4 در مواجهه با مسائل جدید به شدت ضعیف ظاهر می‌شوند.

به گزارش مردم سالاری آنلاین ؛ فرانسوا شوله، دانشمند فرانسوی و از منتقدان سرسخت فناوری هوش مصنوعی، معتقد است مدل‌های امروزی مانند ChatGPT تنها با «تقلید» از داده‌های آموزشی عملکرد خوبی دارند، اما فاقد هوش واقعی هستند. او برای اثبات این ادعا، آزمونی به نام ARC-AGI طراحی کرده که توانایی حل مسئله از اصول اولیه را می‌سنجد.

هوش سیال در مقابل هوش مصنوعی تقلیدی

هوش سیال (Fluid Intelligence): توانایی حل مسائل جدید بدون تکیه بر دانش قبلی
هوش مصنوعی فعلی: فقط با داده‌های آموزشی آشناست و در مواجهه با مسائل جدید اغلب شکست می‌خورد.

نتایج تکان‌دهنده: GPT-4 در این آزمون «صفر» گرفت!

مدل‌های معروفی مانند GPT-4، Gemini 1.5 و Claude 3 در نسخه اول این آزمون نمرات بسیار پایینی (بین ۰ تا ۱۴ درصد) کسب کردند، در حالی که انسان‌ها به‌طور متوسط ۶۰ تا ۷۰ درصد امتیاز می‌گیرند. حتی GPT-4o که ادعا می‌شد در استدلال پیشرفته است، تنها ۵ درصد موفقیت داشت!

پیشرفت غیرمنتظره OpenAI: مدل o3 با نمره ۸۷٪

در دسامبر ۲۰۲۳، OpenAI مدل o3 را معرفی کرد که با کسب ۸۷ درصد در آزمون ARC-AGI، برای اولین بار به سطح انسان رسید. این موفقیت، شوله را شگفت‌زده کرد، اما او همچنان مشکوک است:«این مدل‌ها با صرف هزینه‌های گزاف محاسباتی (صدها هزار دلار برای حل هر مسئله) جواب می‌دهند، نه با هوش سیال واقعی!»

ARC-AGI-2: آزمون سخت‌تری که هوش مصنوعی را دوباره به زانو درآورد

شوله اخیراً نسخه دشوارتر این آزمون (ARC-AGI-2) را منتشر کرد که عملکرد مدل‌ها را به شدت کاهش داد:

o3 از ۸۷٪ به زیر ۲٪ سقوط کرد!
مدل‌های دیگر (مانند Gemini و Claude) نیز نمراتی زیر ۱٪ گرفتند.

آیا هوش مصنوعی واقعاً می‌تواند بیاندیشد؟

موافقان (مثل سم آلتمن): معتقدند o3 گامی به سوی هوش مصنوعی عمومی (AGI) است.
منتقدان (مثل شوله): می‌گویند این مدل‌ها فقط با brute force (محاسبات انبوه) جواب می‌دهند، نه با استدلال انسانی.

آینده مبهم AGI: سودآوری یا هوش واقعی؟

شرکت‌هایی مانند OpenAI به جای تمرکز صرف بر آزمون‌های انتزاعی، به کاربردهای عملی هوش مصنوعی (مانند وب‌گردی خودکار) توجه کرده‌اند. حتی تعریف آن‌ها از AGI بیشتر اقتصادی است: نرم‌افزاری که ۱۰۰ میلیارد دلار سود ایجاد کند!
شوله معتقد است تا زمانی که مدل‌ها نتوانند مانند یک کودک مسائل جدید را از پایه یاد بگیرند، ادعای دستیابی به AGI تنها یک فریب بازاریابی است. به نظر می‌رسد راه رسیدن به هوش واقعی مصنوعی هنوز بسیار طولانی است.