AI Benchmarking Platform membantu perusahaan -perusahaan top mencurangi kinerja model mereka, klaim studi

Tolok ukur untuk kecerdasan buatan (AI) Chatbots menghadapi pengawasan dari para peneliti yang mengklaim bahwa tesnya mendukung model AI berpemilik dari perusahaan teknologi besar.
LM Arena secara efektif menempatkan dua model bahasa besar yang tidak dikenal (LLM) dalam pertempuran untuk melihat mana yang paling baik menangani prompt, dengan pengguna pemungutan suara tolok ukur untuk output yang paling mereka sukai. Hasilnya kemudian dimasukkan ke dalam papan peringkat yang melacak model mana yang melakukan yang terbaik dan bagaimana mereka telah meningkat.
Namun, para peneliti telah mengklaim bahwa tolok ukur itu miring, memberikan LLM utama “praktik pengujian pribadi yang dirahasiakan” yang memberi mereka keuntungan dibandingkan LLM sumber terbuka. Para peneliti menerbitkan temuan mereka 29 April di database preprint arxivjadi penelitian ini belum ditinjau sejawat.
“Kami menunjukkan bahwa koordinasi di antara segelintir penyedia dan kebijakan preferensial dari chatbot arena [later LM Arena] Menuju kelompok kecil yang sama telah membahayakan integritas ilmiah dan peringkat arena yang andal, “tulis para peneliti dalam penelitian ini.” Sebagai sebuah komunitas, kita harus menuntut dengan lebih baik. “
Keberuntungan? Keterbatasan? Manipulasi?
Dimulai sebagai Chatbot Arena, proyek penelitian yang dibuat pada tahun 2023 oleh para peneliti di University of California, Berkeley's Laboratorium Komputasi LangitLM Arena dengan cepat menjadi situs populer bagi perusahaan AI top dan underdog open-source untuk menguji model mereka. Menyukai analisis “berbasis getaran” yang diambil dari tanggapan pengguna daripada tolok ukur akademik, situs ini sekarang mendapatkan lebih dari 1 juta pengunjung sebulan.
Untuk menilai ketidakberpihakan situs, para peneliti mengukur lebih dari 2,8 juta pertempuran yang diambil selama periode lima bulan. Analisis mereka menunjukkan bahwa segelintir penyedia yang disukai – model andalan perusahaan termasuk Meta, Openai, Google dan Amazon – telah “diberikan akses yang tidak proporsional ke data dan pengujian” karena model mereka muncul dalam jumlah pertempuran yang lebih tinggi, memberikan versi akhir mereka dengan keuntungan yang signifikan.
“Penyedia seperti Google dan Openai telah menerima sekitar 19,2% dan 20,4% dari semua data di arena, masing -masing,” tulis para peneliti. “Sebaliknya, 83 model bobot terbuka gabungan hanya menerima sekitar 29,7% dari total data.”
Selain itu, para peneliti mencatat bahwa LLM yang berpemilik diuji di LM Arena beberapa kali sebelum rilis resmi mereka. Oleh karena itu, model-model ini memiliki lebih banyak akses ke data arena, yang berarti bahwa ketika mereka akhirnya diadu dengan LLM lain mereka dapat dengan mudah mengalahkan mereka, dengan hanya iterasi berkinerja terbaik dari setiap LLM yang ditempatkan di papan peringkat publik, para peneliti mengklaim.
“Pada ekstrem, kami mengidentifikasi 27 varian LLM pribadi yang diuji dengan meta menjelang rilis LLAMA-4. Kami juga menetapkan bahwa model tertutup eksklusif diambil sampelnya dengan harga yang lebih tinggi (jumlah pertempuran) dan memiliki lebih sedikit model yang dihapus dari arena daripada alternatif terbuka dan sumber terbuka,” para peneliti menulis dalam penelitian ini. “Kedua kebijakan ini menyebabkan asimetri akses data besar dari waktu ke waktu.”
Akibatnya, para peneliti berpendapat bahwa mampu menguji beberapa LLM pra-pelepasan, memiliki kemampuan untuk menarik kembali skor benchmark, hanya memiliki iterasi berkinerja tertinggi dari LLM mereka ditempatkan di papan peringkat, serta model komersial tertentu yang muncul di arena lebih sering daripada yang lain, memberi perusahaan AI besar kemampuan untuk “oversfit” model mereka. Ini berpotensi meningkatkan kinerja arena mereka dibandingkan pesaing, tetapi mungkin tidak berarti model mereka harus memiliki kualitas yang lebih baik.
Penelitian ini mempertanyakan otoritas LM Arena sebagai tolok ukur AI. LM Arena belum memberikan komentar resmi kepada Live Science, hanya menawarkan informasi latar belakang dalam tanggapan email. Tetapi organisasi itu memposting tanggapan terhadap penelitian di platform sosial X.
“Mengenai pernyataan bahwa beberapa penyedia model tidak diperlakukan secara adil: ini tidak benar. Mengingat kapasitas kami, kami selalu berusaha untuk menghormati semua permintaan evaluasi yang telah kami terima,” perwakilan perusahaan menulis di pos. “Jika penyedia model memilih untuk mengirimkan lebih banyak tes daripada penyedia model lain, ini tidak berarti penyedia model kedua diperlakukan tidak adil. Setiap penyedia model membuat pilihan yang berbeda tentang cara menggunakan dan menghargai preferensi manusia.”
LM Arena juga mengklaim bahwa ada kesalahan dalam data dan metodologi para peneliti, menanggapi bahwa pengembang LLM tidak bisa memilih skor terbaik untuk diungkapkan, dan bahwa hanya skor yang dicapai oleh LLM yang dirilis yang diletakkan di papan peringkat publik.
Meskipun demikian, temuan menimbulkan pertanyaan tentang bagaimana LLMS dapat diuji dengan cara yang adil dan konsisten, terutama sebagai lulus tes Turing bukan tanda air AI itu bisa dibilang dulu, dan itu Para ilmuwan mencari cara yang lebih baik untuk benar -benar menilai kemampuan AI yang berkembang pesat.