Oyun Oynamak mı? Yapay Zekayı Test Etmek mi? Super Mario Artık İkisi Birden

Merhaba

Pokemon’un yapay zeka için zorlu bir kıyaslama aracı olduğunu mu düşünüyordunuz? Bir grup araştırmacıya göre Super Mario Bros. bundan bile daha zor.

California Üniversitesi San Diego’daki Hao AI Lab adlı araştırma kuruluşu, geçtiğimiz Cuma günü yapay zekaları canlı Super Mario Bros. oyunlarında test etti. Anthropic’in Claude 3.7 modeli en iyi performansı gösterirken, onu Claude 3.5 izledi. Google’ın Gemini 1.5 Pro’su ve OpenAI’ın GPT-4o modeli ise zorlandı.

Elbette bu, 1985’teki orijinal Super Mario Bros. sürümü değildi. Oyun bir emülatörde çalıştırıldı ve yapay zekaların Mario’yu kontrol etmesini sağlayan GamingAgent adlı bir çerçeveye entegre edildi.

Hao’nun kendi geliştirdiği GamingAgent, yapay zekaya Eğer yakınında bir engel veya düşman varsa, sola hareket et/zıpla gibi temel talimatlar ve oyun içi ekran görüntüleri sağladı. Yapay zeka ise Mario’yu kontrol etmek için Python kodu şeklinde komutlar üretti.

Buna rağmen Hao, oyunun her modeli karmaşık manevralar planlamaya ve oynanış stratejileri geliştirmeye zorladığını belirtiyor. İlginç bir şekilde, genellikle çoğu kıyaslamada daha güçlü olan ve problemleri adım adım düşünerek çözen mantıksal modeller (örneğin OpenAI’ın o1’i), mantıksal olmayan modellere kıyasla daha kötü performans gösterdi.

Araştırmacılara göre, mantıksal modellerin bu tür gerçek zamanlı oyunlarda zorlanmasının başlıca sebeplerinden biri, karar vermelerinin genellikle saniyeler sürmesidir. Super Mario Bros.’ta ise zamanlama her şeydir — bir saniye, güvenli bir zıplayış ile boşluğa düşüş arasındaki fark olabilir.

Oyunlar onlarca yıldır yapay zekayı kıyaslamak için kullanılıyor. Ancak bazı uzmanlar, yapay zekanın oyunlardaki başarısı ile teknolojik ilerlemesi arasında bağlantı kurmanın ne kadar doğru olduğu konusunda şüphe duyuyor. Gerçek dünyanın aksine, oyunlar genellikle soyut ve görece basittir; ayrıca yapay zekayı eğitmek için teorik olarak sonsuz veri sağlarlar.

 

Bir yanıt yazın

Başa Dön