مدلهای معروفی مانند GPT-4، Gemini 1.5 و Claude 3 در نسخه اول این آزمون نمرات بسیار پایینی (بین ۰ تا ۱۴ درصد) کسب کردند، در حالی که انسانها بهطور متوسط ۶۰ تا ۷۰ درصد امتیاز میگیرند. حتی GPT-4o که ادعا میشد در استدلال پیشرفته است، تنها ۵ درصد موفقیت داشت!
در دسامبر ۲۰۲۳، OpenAI مدل o3 را معرفی کرد که با کسب ۸۷ درصد در آزمون ARC-AGI، برای اولین بار به سطح انسان رسید. این موفقیت، شوله را شگفتزده کرد، اما او همچنان مشکوک است:«این مدلها با صرف هزینههای گزاف محاسباتی (صدها هزار دلار برای حل هر مسئله) جواب میدهند، نه با هوش سیال واقعی!»
شوله اخیراً نسخه دشوارتر این آزمون (ARC-AGI-2) را منتشر کرد که عملکرد مدلها را به شدت کاهش داد:
شرکتهایی مانند OpenAI به جای تمرکز صرف بر آزمونهای انتزاعی، به کاربردهای عملی هوش مصنوعی (مانند وبگردی خودکار) توجه کردهاند. حتی تعریف آنها از AGI بیشتر اقتصادی است: نرمافزاری که ۱۰۰ میلیارد دلار سود ایجاد کند!
شوله معتقد است تا زمانی که مدلها نتوانند مانند یک کودک مسائل جدید را از پایه یاد بگیرند، ادعای دستیابی به AGI تنها یک فریب بازاریابی است. به نظر میرسد راه رسیدن به هوش واقعی مصنوعی هنوز بسیار طولانی است.