Antropik menggunakan Pokémon untuk membandingkan model AI terbarunya

0 1 minute read

Antropik menggunakan Pokémon untuk membandingkan model AI terbarunya. Ya, sungguh.

Di blog pos Diterbitkan Senin, Anthropic mengatakan bahwa mereka menguji model terbarunya, Claude 3.7 Sonnetdi Game Boy Classic Pokémon Red. Perusahaan melengkapi model dengan memori dasar, input piksel layar, dan panggilan fungsi untuk menekan tombol dan menavigasi di sekitar layar, memungkinkannya untuk memainkan Pokémon secara terus menerus.

Fitur unik dari Claude 3.7 Sonnet adalah kemampuannya untuk terlibat dalam “pemikiran yang diperluas.” Seperti O3-Mini Openai dan R1 Deepseek, Claude 3.7 sonnet dapat “beralasan” melalui masalah yang menantang dengan menerapkan lebih banyak komputasi-dan mengambil lebih banyak waktu.

Itu berguna di Pokémon Red, rupanya.

Dibandingkan dengan versi sebelumnya dari Claude, Claude 3.0 Sonnet, yang gagal meninggalkan rumah di Pallet Town di mana cerita dimulai, Claude 3.7 soneta berhasil melawan tiga pemimpin gym Pokémon dan memenangkan lencana mereka.

Kredit gambar:Antropik

Sekarang, tidak jelas berapa banyak komputasi yang diperlukan untuk Claude 3.7 soneta untuk mencapai tonggak itu – dan berapa lama masing -masing. Antropik hanya mengatakan bahwa model itu melakukan 35.000 tindakan untuk mencapai pemimpin gym terakhir, Surge.

Itu pasti tidak akan lama sebelum beberapa pengembang giat mengetahuinya.

Pokémon Red lebih merupakan tolok ukur mainan daripada apa pun. Namun, di sana adalah Sejarah Panjang game yang digunakan untuk tujuan pembandingan AI. Dalam beberapa bulan terakhir saja, sejumlah aplikasi dan platform baru telah muncul untuk menguji kemampuan permainan model pada judul mulai dari Street Fighter ke Pictionary.

Source

Edward Gunawan 3 weeks ago

0 1 minute read