Model AI masih berjuang untuk men -debug perangkat lunak, Microsoft Study menunjukkan

Edward Gunawan April 10, 2025

0 2 minutes read

Model AI dari Openai, Anthropic, dan Laboratorium AI teratas lainnya semakin banyak digunakan untuk membantu tugas pemrograman. CEO Google Sundar Pichai mengatakan pada bulan Oktober 25% kode baru di perusahaan dihasilkan oleh AI, dan CEO meta Mark Zuckerberg telah menyatakan ambisi untuk menggunakan model pengkodean AI secara luas dalam raksasa media sosial.

Namun bahkan beberapa model terbaik saat ini berjuang untuk menyelesaikan bug perangkat lunak yang tidak akan membuat dev yang berpengalaman.

A studi baru Dari Microsoft Research, divisi R&D Microsoft, mengungkapkan bahwa model, termasuk Anthropic's Claude 3.7 Sonnet dan openai O3-mini, Gagal men-debug banyak masalah dalam tolok ukur pengembangan perangkat lunak yang disebut SWE-Bench Lite. Hasilnya adalah pengingat yang serius berani pengumuman dari perusahaan seperti openaiAI masih belum cocok untuk para pakar manusia di domain seperti pengkodean.

Rekan penulis penelitian ini menguji sembilan model yang berbeda sebagai tulang punggung untuk “agen berbasis prompt tunggal” yang memiliki akses ke sejumlah alat debugging, termasuk debugger Python. Mereka menugasi agen ini dengan memecahkan serangkaian 300 tugas debugging perangkat lunak dari SWE-Bench Lite.

Menurut rekan penulis, bahkan ketika dilengkapi dengan model yang lebih kuat dan lebih baru, agen mereka jarang menyelesaikan lebih dari setengah tugas debugging dengan sukses. Claude 3.7 soneta memiliki tingkat keberhasilan rata-rata tertinggi (48,4%), diikuti oleh O1 Openai (30,2%), dan O3-Mini (22,1%).

Bagan dari penelitian ini. “Peningkatan relatif” mengacu pada model Boost yang didapat dari dilengkapi dengan debugging tooling.Kredit gambar:Microsoft

Mengapa kinerja underwhelming? Beberapa model berjuang untuk menggunakan alat debugging yang tersedia untuk mereka dan memahami bagaimana alat yang berbeda dapat membantu dengan masalah yang berbeda. Masalah yang lebih besar, bagaimanapun, adalah kelangkaan data, menurut rekan penulis. Mereka berspekulasi bahwa tidak ada cukup data yang mewakili “proses pengambilan keputusan berurutan”-yaitu, jejak debugging manusia-dalam data pelatihan model saat ini.

“Kami sangat percaya bahwa pelatihan atau penyesuaian [models] Dapat membuat mereka debugger interaktif yang lebih baik, “tulis rekan penulis dalam studi mereka.” Namun, ini akan membutuhkan data khusus untuk memenuhi pelatihan model tersebut, misalnya, data lintasan yang mencatat agen yang berinteraksi dengan debugger untuk mengumpulkan informasi yang diperlukan sebelum menyarankan perbaikan bug. “

Temuan tidak terlalu mengejutkan. Banyak penelitian yang memiliki ditampilkan AI yang menghasilkan kode cenderung memperkenalkan kerentanan dan kesalahan keamanan, karena kelemahan di bidang-bidang seperti kemampuan untuk memahami logika pemrograman. Satu evaluasi Devin baru -baru inialat pengkodean AI yang populer, menemukan bahwa itu hanya bisa menyelesaikan tiga dari 20 tes pemrograman.

Tetapi pekerjaan Microsoft adalah salah satu penampilan yang lebih rinci di bidang masalah yang persisten untuk model. Kemungkinan tidak akan meredam antusiasme investor Untuk alat pengkodean bantu bertenaga AI, tetapi dengan sedikit keberuntungan, itu akan membuat pengembang-dan atasan mereka-berpikir dua kali tentang membiarkan AI menjalankan acara pengkodean.

Untuk apa nilainya, semakin banyak pemimpin teknologi telah membantah gagasan bahwa AI akan mengotomatiskan pekerjaan pengkodean. Salah satu pendiri Microsoft, Bill Gates bilang dia berpikir pemrograman sebagai profesi di sini untuk tinggal. Begitu juga Replit CEO Amjad Masad, CEO OKTA Todd McKinnonDan CEO IBM Arvind Krishna.

Source

Edward Gunawan April 10, 2025

0 2 minutes read