DeepMind mengklaim AI -nya berkinerja lebih baik daripada peraih medali emas Olimpiade Matematika Internasional
Sistem AI yang dikembangkan oleh Google DeepMind, laboratorium penelitian AI terkemuka Google, tampaknya telah melampaui peraih medali emas rata -rata dalam memecahkan masalah geometri dalam kompetisi matematika internasional.
Sistem, yang disebut Alphageometry2, adalah versi yang lebih baik dari suatu sistem, alfageometri, DeepMind yang dirilis Januari lalu. Di sebuah Studi yang baru diterbitkanpara peneliti DeepMind di belakang Alphageometry2 mengklaim AI mereka dapat menyelesaikan 84% dari semua masalah geometri selama 25 tahun terakhir di International Mathematical Olympiad (IMO), kontes matematika untuk siswa sekolah menengah.
Mengapa DeepMind peduli dengan kompetisi matematika tingkat sekolah menengah? Nah, laboratorium berpikir kunci untuk AI yang lebih mampu mungkin terletak pada menemukan cara -cara baru untuk memecahkan masalah geometri yang menantang – khususnya Masalah geometri Euclidean.
Membuktikan teorema matematika, atau secara logis menjelaskan mengapa teorema (misalnya teorema Pythagoras) benar, membutuhkan penalaran dan kemampuan untuk memilih dari berbagai langkah yang mungkin menuju solusi. Keterampilan pemecahan masalah ini bisa-jika hak DeepMind-ternyata menjadi komponen yang berguna dari model AI tujuan umum di masa depan.
Memang, musim panas yang lalu, DeepMind mendemonstrasikan sistem yang menggabungkan alphageometry2 dengan alphaproof, model AI untuk penalaran matematika formal, untuk menyelesaikan empat dari enam masalah dari IMO 2024. Selain masalah geometri, pendekatan seperti ini dapat diperluas ke bidang matematika dan sains lainnya – misalnya, untuk membantu dengan perhitungan teknik yang kompleks.
Alphageometry2 memiliki beberapa elemen inti, termasuk model bahasa dari keluarga model AI Gemini Google dan “mesin simbolik.” Model Gemini membantu mesin simbolik, yang menggunakan aturan matematika untuk menyimpulkan solusi untuk masalah, sampai pada bukti yang layak untuk teorema geometri yang diberikan.
Masalah geometri Olympiad didasarkan pada diagram yang membutuhkan “konstruksi” untuk ditambahkan sebelum dapat diselesaikan, seperti titik, garis, atau lingkaran. Model Gemini Alphageometry2 memprediksi konstruksi mana yang mungkin berguna untuk ditambahkan ke diagram, yang dirujuk mesin untuk membuat pengurangan.
Pada dasarnya, model Gemini Alphageometry2 menyarankan langkah -langkah dan konstruksi dalam bahasa matematika formal kepada mesin, yang – mengikuti aturan spesifik – memeriksa langkah -langkah ini untuk konsistensi logis. Algoritma pencarian memungkinkan Alphageometry2 untuk melakukan beberapa pencarian untuk solusi secara paralel dan menyimpan temuan yang mungkin berguna dalam basis pengetahuan umum.
Alphageometry2 mempertimbangkan masalah untuk “diselesaikan” ketika tiba pada bukti yang menggabungkan saran model Gemini dengan prinsip -prinsip yang diketahui mesin simbolis.
Karena kompleksitas menerjemahkan bukti ke dalam format yang dapat dipahami AI, ada kelangkaan data pelatihan geometri yang dapat digunakan. Jadi DeepMind membuat data sintetisnya sendiri untuk melatih model bahasa Alphageometry2, menghasilkan lebih dari 300 juta teorema dan bukti dari berbagai kompleksitas.
Tim DeepMind memilih 45 masalah geometri dari kompetisi IMO selama 25 tahun terakhir (dari tahun 2000 hingga 2024), termasuk persamaan linier dan persamaan yang membutuhkan objek geometris bergerak di sekitar pesawat. Mereka kemudian “menerjemahkan” ini menjadi set 50 masalah yang lebih besar. (Untuk alasan teknis, beberapa masalah harus dibagi menjadi dua.)
Menurut kertas, Alphageometry2 memecahkan 42 dari 50 masalah, membersihkan skor medali emas rata -rata 40,9.
Memang, ada batasan. Keunikan teknis mencegah Alphageometry2 dari memecahkan masalah dengan jumlah variabel titik, persamaan nonlinier, dan ketidaksetaraan. Dan alphageometry2 tidak secara teknis Sistem AI pertama yang mencapai kinerja tingkat medali emas dalam geometri, meskipun ini adalah yang pertama mencapainya dengan serangkaian masalah ukuran ini.
Alphageometry2 juga melakukan lebih buruk pada serangkaian masalah IMO yang lebih sulit. Untuk tantangan tambahan, tim DeepMind memilih masalah – total 29 – yang telah dinominasikan untuk ujian IMO oleh para ahli matematika, tetapi itu belum muncul dalam kompetisi. Alphageometry2 hanya bisa menyelesaikan 20 di antaranya.
Namun, hasil penelitian cenderung memicu perdebatan tentang apakah sistem AI harus dibangun di atas manipulasi simbol-yaitu, memanipulasi simbol yang mewakili pengetahuan menggunakan aturan-atau jaringan saraf yang lebih mirip otak.
Alphageometry2 mengadopsi pendekatan hibrida: model Gemini memiliki arsitektur jaringan saraf, sedangkan mesin simboliknya berbasis aturan.
Para pendukung teknik jaringan saraf berpendapat bahwa perilaku cerdas, dari pengenalan suara hingga pembuatan gambar, dapat muncul dari tidak lebih dari jumlah besar data dan komputasi. Berlawanan dengan sistem simbolik, yang menyelesaikan tugas dengan mendefinisikan set aturan yang memanipulasi simbol yang didedikasikan untuk pekerjaan tertentu, seperti mengedit garis dalam perangkat lunak pengolah kata, jaringan saraf mencoba menyelesaikan tugas melalui perkiraan statistik dan pembelajaran dari contoh.
Jaringan saraf adalah landasan sistem AI yang kuat seperti Model “Penalaran” O1 Openai. Tapi, klaim pendukung AI simbolik, mereka bukan akhir-semua-semua; AI simbolis mungkin diposisikan lebih baik untuk menyandikan pengetahuan dunia secara efisien, beralasan jalan mereka melalui skenario yang kompleks, dan “menjelaskan” bagaimana mereka sampai pada jawaban, kata para pendukung ini.
“Sangat mengejutkan melihat kontras antara kemajuan yang berkelanjutan dan spektakuler pada tolok ukur semacam ini, dan sementara itu, model bahasa, termasuk yang lebih baru dengan 'penalaran,' terus berjuang dengan beberapa masalah akal sehat sederhana,” Vince Conitzer, seorang Carnegie Mellon Profesor Ilmu Komputer Universitas yang berspesialisasi dalam AI, kepada TechCrunch. “Saya tidak berpikir itu semua asap dan cermin, tetapi itu menggambarkan bahwa kita masih tidak benar -benar tahu perilaku apa yang diharapkan dari sistem berikutnya. Sistem ini cenderung sangat berdampak, jadi kami sangat perlu memahaminya dan risiko yang mereka sebut lebih baik. ”
Alphageometry2 mungkin menunjukkan bahwa dua pendekatan – manipulasi simbol dan jaringan saraf – digabungkan adalah jalur yang menjanjikan ke depan dalam pencarian AI yang dapat digeneralisasikan. Memang, menurut kertas DeepMind, O1, yang juga memiliki arsitektur jaringan saraf, tidak dapat menyelesaikan masalah IMO yang dapat dijawab oleh Alphageometry2.
Ini mungkin tidak terjadi selamanya. Dalam makalah itu, tim DeepMind mengatakan menemukan bukti awal bahwa model bahasa Alphageometry2 mampu menghasilkan solusi parsial untuk masalah tanpa bantuan mesin simbolik.
“[The] Hasil mendukung ide-ide bahwa model bahasa besar dapat mandiri tanpa tergantung pada alat eksternal [like symbolic engines]”Tulis tim DeepMind di koran,” tetapi sampai [model] Kecepatan ditingkatkan dan halusinasi sepenuhnya diselesaikan, alat -alat ini akan tetap penting untuk aplikasi matematika. ”