Sains

AI Benchmarking Platform membantu perusahaan -perusahaan top mencurangi kinerja model mereka, klaim studi

Tolok ukur untuk kecerdasan buatan (AI) Chatbots menghadapi pengawasan dari para peneliti yang mengklaim bahwa tesnya mendukung model AI berpemilik dari perusahaan teknologi besar.

LM Arena secara efektif menempatkan dua model bahasa besar yang tidak dikenal (LLM) dalam pertempuran untuk melihat mana yang paling baik menangani prompt, dengan pengguna pemungutan suara tolok ukur untuk output yang paling mereka sukai. Hasilnya kemudian dimasukkan ke dalam papan peringkat yang melacak model mana yang melakukan yang terbaik dan bagaimana mereka telah meningkat.

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button