AI dapat menangani tugas dua kali lebih kompleks setiap beberapa bulan. Apa arti pertumbuhan eksponensial ini untuk bagaimana kita menggunakannya?

Para ilmuwan telah merancang cara baru untuk mengukur seberapa mampu kecerdasan buatan (AI) Sistem adalah – seberapa cepat mereka dapat mengalahkan, atau bersaing dengan, manusia dalam tugas yang menantang.
Sementara AIS umumnya dapat mengungguli manusia dalam prediksi teks dan tugas pengetahuan, ketika diberikan proyek yang lebih substantif untuk dilakukan, seperti bantuan eksekutif jarak jauh, mereka kurang efektif.
Untuk mengukur keuntungan kinerja ini dalam model AI, sebuah studi baru telah mengusulkan pengukuran AI berdasarkan durasi tugas yang dapat mereka selesaikan, versus berapa lama waktu yang dibutuhkan manusia. Para peneliti menerbitkan temuan mereka 30 Maret di database preprint arxivjadi mereka belum ditinjau oleh rekan sejawat.
“Kami menemukan bahwa mengukur lamanya tugas yang dapat diselesaikan oleh model adalah lensa yang bermanfaat untuk memahami kemampuan AI saat ini. Ini masuk akal: agen AI sering kali berjuang dengan merangkai urutan tindakan yang lebih lama daripada kurang dari mereka yang kurang atau pengetahuan yang diperlukan untuk menyelesaikan langkah tunggal,” para peneliti dari organisasi AI dari AI Evaluasi Model & Penelitian Ancaman (METR) dijelaskan dalam a Posting Blog Menemani penelitian ini.
Para peneliti menemukan bahwa model AI menyelesaikan tugas yang akan memakan waktu kurang dari empat menit dengan tingkat keberhasilan hampir 100%. Namun, ini turun menjadi 10% untuk tugas yang membutuhkan waktu lebih dari empat jam. Model AI yang lebih tua berkinerja lebih buruk pada tugas yang lebih lama daripada sistem terbaru.
Ini diharapkan, dengan penelitian ini menyoroti bahwa lamanya tugas generalis AIS dapat diselesaikan dengan keandalan 50% telah dua kali lipat kira -kira setiap tujuh bulan selama enam tahun terakhir.
Untuk melakukan studi mereka, para peneliti mengambil berbagai model AI-dari Sonnet 3.7 dan GPT-4 ke Claude 3 Opus dan model GPT yang lebih tua-dan mengadu mereka dengan serangkaian tugas. Ini berkisar dari tugas -tugas mudah yang biasanya membawa manusia beberapa menit seperti mencari pertanyaan faktual dasar tentang Wikipedia) ke yang membawa para ahli manusia beberapa jam – tugas pemrograman kompleks seperti menulis kernel cuda atau memperbaiki bug halus di Pytorch, misalnya.
Alat pengujian termasuk Hcast Dan B-Bench digunakan; Yang pertama memiliki 189 pengaturan tugas perangkat lunak otonomi untuk menilai kemampuan agen AI dalam menangani tugas-tugas di sekitar pembelajaran mesin, keamanan cyber dan rekayasa perangkat lunak, sementara yang terakhir menggunakan tujuh tugas teknik penelitian pembelajaran mesin terbuka yang menantang, seperti mengoptimalkan kernel GPU, yang ditandai dengan para ahli manusia.
Para peneliti kemudian menilai tugas-tugas ini untuk “kekacauan”, untuk melihat dan menilai bagaimana beberapa tugas berisi hal-hal seperti kebutuhan untuk koordinasi antara berbagai aliran kerja secara real-time-secara efektif membuat tugas itu diselesaikan-dan karenanya lebih mewakili tugas-tugas dunia nyata.
Para peneliti juga mengembangkan Tindakan Atom Perangkat Lunak (SWAA) untuk menetapkan seberapa cepat orang nyata dapat menyelesaikan tugas. Ini adalah tugas satu langkah mulai dari satu hingga 30 detik, didasarkan oleh karyawan METR.
Secara efektif, penelitian ini menemukan bahwa “rentang perhatian” AI maju dengan kecepatan. Dengan mengekstrapolasi tren ini, para peneliti diproyeksikan (jika memang hasilnya dapat diterapkan secara umum untuk tugas-tugas dunia nyata) bahwa AI dapat mengotomatisasi pengembangan perangkat lunak manusia selama sebulan pada tahun 2032 ..
Untuk lebih memahami kemampuan maju AI dan dampak potensial serta risiko bagi masyarakat, penelitian ini dapat membentuk tolok ukur baru yang berkaitan dengan hasil dunia nyata untuk memungkinkan “interpretasi yang bermakna dari kinerja absolut, bukan hanya kinerja relatif,” kata para ilmuwan.
Perbatasan baru untuk menilai AI?
Benchmark baru yang potensial dapat memungkinkan kita untuk lebih memahami kecerdasan dan kemampuan sebenarnya dari sistem AI.
“Metrik itu sendiri tidak mungkin mengubah jalannya pengembangan AI, tetapi akan melacak seberapa cepat kemajuan dilakukan pada jenis tugas tertentu di mana sistem AI idealnya akan digunakan,” Sohrob Kazerounianseorang peneliti AI terkemuka di Vectra AI, mengatakan kepada Live Science.
“Mengukur AI terhadap lamanya waktu dibutuhkan manusia untuk menyelesaikan tugas yang diberikan adalah metrik proxy yang menarik untuk intelijen dan kemampuan umum,” kata Kazerounian. “Pertama, karena tidak ada metrik tunggal yang menangkap apa yang kami maksudkan ketika kami mengatakan” kecerdasan. “Kedua, karena kemungkinan melakukan tugas yang berkepanjangan tanpa penyimpangan atau kesalahan menjadi sangat kecil. Ketiga, karena itu adalah ukuran langsung terhadap jenis tugas yang kami harapkan dari AI untuk; yaitu menyelesaikan masalah manusia yang kompleks, sementara itu tidak ada yang bermanfaat tentang hal -hal yang ada tentang hal -hal yang ada tentang hal yang ada. Datapoint, “tambahnya.
Eleanor WatsonAnggota IEEE dan insinyur etika AI di Singularity University, setuju bahwa penelitian ini berguna.
Mengukur AI pada panjang tugas adalah “berharga dan intuitif” dan “secara langsung mencerminkan kompleksitas dunia nyata, menangkap kemahiran AI dalam mempertahankan perilaku yang diarahkan pada tujuan yang koheren dari waktu ke waktu,” dibandingkan dengan tes tradisional yang menilai kinerja AI tentang masalah singkat, terisolasi, katanya kepada sains langsung.
AI generalis akan datang
Dapat diperdebatkan, selain metrik benchmark baru, dampak terbesar makalah ini adalah dalam menyoroti seberapa cepat sistem AI maju, di samping tren kenaikan dalam kemampuan mereka untuk menangani tugas yang panjang. Dengan pemikiran ini, Watson memperkirakan bahwa munculnya agen AI generalis yang dapat menangani berbagai tugas akan segera terjadi.
“Pada tahun 2026, kita akan melihat AI menjadi semakin umum, menangani beragam tugas sepanjang hari atau minggu daripada penugasan pendek, yang didefinisikan secara sempit,” kata Watson.
Untuk bisnis, Watson mencatat, ini dapat menghasilkan AIS yang dapat mengambil bagian substansial dari beban kerja profesional – yang tidak hanya dapat mengurangi biaya dan meningkatkan efisiensi tetapi juga membiarkan orang fokus pada tugas yang lebih kreatif, strategis, dan interpersonal.
“Bagi konsumen, AI akan berkembang dari asisten sederhana menjadi manajer pribadi yang dapat diandalkan, mampu menangani tugas -tugas hidup yang kompleks – seperti perencanaan perjalanan, pemantauan kesehatan, atau mengelola portofolio keuangan – selama berhari -hari atau berminggu -minggu, dengan pengawasan minimal,” tambah Watson.
Akibatnya, kemampuan AIS untuk menangani berbagai tugas panjang dapat memiliki dampak yang signifikan pada bagaimana masyarakat berinteraksi dan menggunakan AI dalam beberapa tahun ke depan.
“Sementara alat AI khusus akan bertahan dalam aplikasi niche untuk alasan efisiensi, agen AI generalis yang kuat – yang mampu beralih secara fleksibel di antara beragam tugas – akan muncul dengan jelas,” Watson menyimpulkan. “Sistem ini akan mengintegrasikan keterampilan khusus ke dalam alur kerja yang lebih luas dan diarahkan pada tujuan, membentuk kembali kehidupan sehari-hari dan praktik profesional dengan cara mendasar.”