Sebuah Ujian yang Sangat Sulit Tidak Ada Sistem AI yang Dapat Melewatinya — Namun

Jika Anda sedang mencari alasan baru untuk merasa khawatir terhadap kecerdasan buatan, cobalah ini: Beberapa manusia terpintar di dunia sedang berjuang untuk menciptakan pengujian yang tidak dapat dilewati oleh sistem AI.
Selama bertahun-tahun, sistem AI diukur dengan memberikan model-model baru berbagai tes benchmark standar. Banyak dari tes ini terdiri dari soal-soal menantang kaliber SAT di berbagai bidang seperti matematika, sains, dan logika. Membandingkan skor model dari waktu ke waktu berfungsi sebagai ukuran kasar kemajuan AI.
Namun sistem AI pada akhirnya menjadi terlalu baik dalam tes tersebut, sehingga tes baru yang lebih sulit diciptakan — sering kali dengan jenis pertanyaan yang mungkin dihadapi mahasiswa pascasarjana dalam ujian mereka.
Tes-tes itu juga tidak dalam kondisi yang baik. Model-model baru dari perusahaan seperti OpenAI, Google, dan Anthropic telah mendapatkan nilai tinggi pada banyak tantangan tingkat Ph.D., sehingga membatasi kegunaan tes tersebut dan menimbulkan pertanyaan yang menakutkan: Apakah sistem AI menjadi terlalu pintar untuk kita ukur?
Minggu ini, para peneliti di Pusat Keamanan AI dan Skala AI merilis kemungkinan jawaban atas pertanyaan tersebut: Sebuah evaluasi baru, yang disebut “Ujian Terakhir Kemanusiaan,” yang mereka klaim sebagai ujian tersulit yang pernah dilakukan pada sistem AI.
Ujian Terakhir Kemanusiaan adalah gagasan Dan Hendrycks, peneliti keamanan AI terkenal dan direktur Pusat Keamanan AI. (Nama asli tes ini, “Pertahanan Terakhir Kemanusiaan,” dibuang karena terlalu dramatis.)
Bapak Hendrycks bekerja dengan Scale AI, sebuah perusahaan AI di mana dia menjadi penasihat, untuk menyusun tes tersebut, yang terdiri dari sekitar 3.000 pertanyaan pilihan ganda dan jawaban singkat yang dirancang untuk menguji kemampuan sistem AI di berbagai bidang mulai dari filsafat analitik hingga teknik roket. .
Pertanyaan diajukan oleh para ahli di bidang ini, termasuk profesor perguruan tinggi dan ahli matematika pemenang penghargaan, yang diminta untuk mengajukan pertanyaan-pertanyaan yang sangat sulit yang mereka tahu jawabannya.
Di sini, cobalah pertanyaan Anda tentang anatomi burung kolibri dari tes:
Burung kolibri dalam Apodiformes secara unik memiliki tulang oval berpasangan bilateral, sesamoid tertanam di bagian kaudolateral dari aponeurosis penyisipan m. depresor kauda. Berapa banyak pasangan tendon yang ditopang oleh tulang sesamoid ini? Jawab dengan nomor.
Atau, jika fisika lebih sesuai dengan kecepatan Anda, coba yang ini:
Sebuah balok diletakkan pada rel horizontal sehingga balok tersebut dapat meluncur tanpa gesekan. Benda tersebut diikatkan pada ujung sebuah batang kaku tak bermassa dengan panjang R. Sebuah benda diikatkan pada ujung yang lain. Kedua benda tersebut mempunyai berat W. Sistem awalnya diam, dengan massa tepat di atas balok. Massa diberi dorongan yang sangat kecil, sejajar dengan rel. Asumsikan sistem dirancang sedemikian rupa sehingga batang dapat berputar 360 derajat penuh tanpa gangguan. Ketika batang berada dalam posisi horizontal, ia menerima tegangan T1. Ketika batang kembali vertikal, dengan massa tepat di bawah balok, ia membawa tegangan T2. (Kedua besaran ini bisa bernilai negatif, yang menunjukkan bahwa batang berada dalam keadaan tekan.) Berapa nilai (T1−T2)/W?
(Saya akan mencetak jawabannya di sini, tapi itu akan merusak pengujian sistem AI apa pun yang dilatih di kolom ini. Selain itu, saya terlalu bodoh untuk memverifikasi sendiri jawabannya.)
Soal-soal Ujian Terakhir Kemanusiaan melalui proses penyaringan dua langkah. Pertama, pertanyaan yang diajukan diberikan kepada model AI terkemuka untuk dipecahkan.
Jika model tidak dapat menjawabnya (atau jika, dalam kasus pertanyaan pilihan ganda, model memberikan hasil yang lebih buruk dibandingkan dengan menebak secara acak), pertanyaan tersebut diberikan kepada sekelompok peninjau manusia, yang menyempurnakannya dan memverifikasi jawaban yang benar. . Para ahli yang menulis pertanyaan dengan peringkat teratas dibayar antara $500 dan $5,000 per pertanyaan, serta menerima kredit karena berkontribusi pada ujian.
Kevin Zhou, peneliti pascadoktoral dalam fisika partikel teoretis di Universitas California, Berkeley, mengajukan beberapa pertanyaan untuk ujian tersebut. Tiga dari pertanyaannya dipilih, yang semuanya menurutnya “berada di kisaran atas dari apa yang mungkin dilihat seseorang dalam ujian pascasarjana.”
Bapak Hendrycks, yang membantu menciptakan tes AI yang banyak digunakan yang dikenal sebagai Massive Multitask Language Understanding, atau MMLU, mengatakan bahwa dia terinspirasi untuk membuat tes AI yang lebih sulit melalui percakapan dengan Elon Musk. (Tuan Hendrycks juga merupakan penasihat keselamatan untuk perusahaan AI milik Tuan Musk, xAI.) Tuan Musk, katanya, menyampaikan kekhawatiran tentang pengujian yang diberikan pada model AI yang ada, yang menurutnya terlalu mudah.
“Elon melihat pertanyaan MMLU dan berkata, 'Ini adalah pertanyaan tingkat sarjana. Saya menginginkan hal-hal yang dapat dilakukan oleh pakar kelas dunia,'” kata Mr. Hendrycks.
Ada tes lain yang mencoba mengukur kemampuan AI tingkat lanjut di domain tertentu, seperti FrontierMath, tes yang dikembangkan oleh Epoch AI, dan ARC-AGIsebuah ujian dikembangkan oleh peneliti AI François Chollet.
Namun Ujian Terakhir Kemanusiaan bertujuan untuk menentukan seberapa baik sistem AI dalam menjawab pertanyaan-pertanyaan kompleks di berbagai mata pelajaran akademis, sehingga memberi kita apa yang mungkin dianggap sebagai skor kecerdasan umum.
“Kami mencoba memperkirakan sejauh mana AI dapat mengotomatiskan banyak pekerjaan intelektual yang sangat sulit,” kata Mr. Hendrycks.
Setelah daftar pertanyaan disusun, para peneliti memberikan Ujian Terakhir Kemanusiaan kepada enam model AI terkemuka, termasuk Gemini 1.5 Pro dari Google dan Claude 3.5 Sonnet dari Anthropic. Semuanya gagal total. Sistem o1 OpenAI mendapat skor tertinggi, dengan skor 8,3 persen.
(The New York Times telah menggugat OpenAI dan mitranya, Microsoft, menuduh mereka melakukan pelanggaran hak cipta atas konten berita terkait sistem AI. OpenAI dan Microsoft telah membantah klaim tersebut.)
Bapak Hendrycks memperkirakan skor tersebut akan meningkat dengan cepat, dan berpotensi melampaui 50 persen pada akhir tahun ini. Pada saat itu, katanya, sistem AI mungkin dianggap sebagai “oracle kelas dunia” yang mampu menjawab pertanyaan tentang topik apa pun dengan lebih akurat dibandingkan manusia. Dan kita mungkin harus mencari cara lain untuk mengukur dampak AI, seperti melihat data ekonomi atau menilai apakah AI dapat membuat penemuan baru di bidang seperti matematika dan sains.
“Anda dapat membayangkan versi yang lebih baik dari hal ini di mana kami dapat memberikan pertanyaan yang belum kami ketahui jawabannya, dan kami dapat memverifikasi apakah model tersebut dapat membantu menyelesaikannya untuk kami,” kata Summer Yue, Scale Direktur penelitian AI dan penyelenggara ujian.
Salah satu hal yang membingungkan tentang kemajuan AI saat ini adalah betapa tidak ratanya kemajuan tersebut. Kita memiliki model AI yang mampu mendiagnosis penyakit dengan lebih efektif dibandingkan dokter manusia, memenangkan medali perak di Olimpiade Matematika Internasional Dan mengalahkan programmer manusia papan atas tentang tantangan pengkodean yang kompetitif.
Namun model yang sama terkadang kesulitan dengan tugas-tugas dasar, seperti aritmatika atau menulis puisi terukur. Hal ini memberikan mereka reputasi yang luar biasa brilian dalam beberapa hal dan sama sekali tidak berguna dalam hal lain, dan hal ini telah menciptakan kesan yang sangat berbeda tentang seberapa cepat kemajuan AI, tergantung pada apakah Anda melihat keluaran terbaik atau terburuk.
Kekakuan tersebut juga membuat pengukuran model ini menjadi sulit. Saya menulis tahun lalu bahwa kita memerlukan evaluasi yang lebih baik untuk sistem AI. Saya masih percaya itu. Namun saya juga percaya bahwa kita memerlukan metode yang lebih kreatif untuk melacak kemajuan AI yang tidak bergantung pada tes standar, karena sebagian besar dari apa yang dilakukan manusia – dan apa yang kita khawatirkan akan dilakukan AI lebih baik daripada kita – tidak dapat diukur dalam ujian tertulis. .
Zhou, peneliti teori fisika partikel yang mengajukan pertanyaan pada Ujian Terakhir Kemanusiaan, mengatakan kepada saya bahwa meskipun model AI sering kali mampu menjawab pertanyaan rumit dengan baik, dia tidak menganggapnya sebagai ancaman bagi dirinya dan rekan-rekannya, karena pekerjaan mereka melibatkan banyak hal. lebih dari sekadar melontarkan jawaban yang benar.
“Ada kesenjangan besar antara arti mengikuti ujian dan arti menjadi fisikawan dan peneliti,” katanya. “Bahkan AI yang dapat menjawab pertanyaan-pertanyaan ini mungkin belum siap membantu penelitian, yang pada dasarnya kurang terstruktur.”