Dev membangun tes untuk melihat bagaimana chatbot AI menanggapi topik kontroversial

Pengembang pseudonim telah menciptakan apa yang mereka sebut “evaluasi kebebasan berbicara,” Pidatountuk model AI yang menyalakan chatbots seperti Openai Chatgpt dan X. Grok. Tujuannya adalah untuk membandingkan bagaimana berbagai model memperlakukan subjek yang sensitif dan kontroversial, pengembang mengatakan kepada TechCrunch, termasuk kritik politik dan pertanyaan tentang hak -hak sipil dan protes.
Perusahaan AI telah fokus pada penyempurnaan bagaimana model mereka menangani topik tertentu sebagai Beberapa sekutu Gedung Putih menuduh Chatbots populer terlalu “bangun.” Banyak orang kepercayaan dekat Presiden Donald Trump, seperti Elon Musk dan Crypto dan Ai “Czar” David Sacks, menuduh bahwa chatbots Sensor Pandangan Konservatif.
Meskipun tidak ada perusahaan AI ini yang menanggapi tuduhan secara langsung, beberapa telah berjanji untuk menyesuaikan model mereka sehingga mereka menolak untuk menjawab pertanyaan yang lebih jarang. Misalnya, untuk model llama terbaru dari model llamaMeta mengatakan itu menyetel model untuk tidak mendukung “beberapa pandangan atas yang lain,” dan untuk membalas lebih banyak petunjuk politik yang “diperdebatkan”.
Pengembang pidato, yang menggunakan nama pengguna “xlr8harder”Pada X, mengatakan mereka termotivasi untuk membantu menginformasikan debat tentang model apa yang seharusnya, dan tidak boleh, melakukannya.
“Saya pikir ini adalah jenis diskusi yang harus terjadi di depan umum, bukan hanya di dalam kantor pusat perusahaan,” kata XLR8Harder kepada TechCrunch melalui email. “Itu sebabnya saya membangun situs untuk membiarkan siapa pun menjelajahi data itu sendiri.”
Pidato menggunakan model AI untuk menilai apakah model lain mematuhi serangkaian prompt tes yang diberikan. Dorongan menyentuh berbagai subjek, dari politik hingga narasi historis dan simbol nasional. Pidato mencatat apakah model “sepenuhnya” memenuhi permintaan (yaitu menjawabnya tanpa lindung nilai), memberikan jawaban “mengelak”, atau secara langsung menurun untuk merespons.
XLR8Harder mengakui bahwa tes tersebut memiliki kekurangan, seperti “noise” karena kesalahan penyedia model. Mungkin juga model “juri” mengandung bias yang dapat memengaruhi hasilnya.
Tetapi dengan asumsi proyek itu dibuat dengan itikad baik dan data akurat, pidato mengungkapkan beberapa tren yang menarik.
Misalnya, model Openai telah, dari waktu ke waktu, semakin menolak untuk menjawab dorongan terkait dengan politik, menurut pidato. Model terbaru perusahaan, GPT-4.1 Keluarga, sedikit lebih permisif, tetapi mereka masih turun dari salah satu rilis Openai tahun lalu.
Openai mengatakan pada bulan Februari itu akan Tune Future Models Untuk tidak mengambil sikap editorial, dan untuk menawarkan berbagai perspektif tentang subjek yang kontroversial – semuanya dalam upaya membuat modelnya tampak lebih “netral.”
Sejauh ini model kelompok yang paling permisif adalah Grok 3dikembangkan oleh startup AI Elon Musk Xai, menurut pembandingan pidato. GROK 3 Powers Sejumlah fitur pada X, termasuk Chatbot Grok.
GROK 3 menanggapi 96,2% dari permintaan uji pidato, dibandingkan dengan “tingkat kepatuhan” rata -rata global sebesar 71,3%.
“Sementara model Openai baru -baru ini menjadi kurang permisif dari waktu ke waktu, terutama pada permintaan yang sensitif secara politis, Xai bergerak ke arah yang berlawanan,” kata XLR8Harder.
Ketika Musk mengumumkan Grok kira-kira dua tahun yang lalu, ia melempar model AI sebagai tegang, tanpa filter, dan anti-“bangun”-secara umum, bersedia menjawab pertanyaan kontroversial yang tidak akan dilakukan oleh sistem AI lainnya. Dia memenuhi beberapa janji itu. Disuruh menjadi vulgar, misalnya, Grok dan Grok 2 akan dengan senang hati mewajibkan, memuntahkan bahasa berwarna -warni yang mungkin tidak akan Anda dengar Chatgpt.
Tapi model grok sebelum grok 3 lindung nilai pada subjek politik dan tidak akan menyeberang batas tertentu. Nyatanya, satu studi menemukan bahwa Grok bersandar pada kiri politik tentang topik -topik seperti hak transgender, program keragaman, dan ketidaksetaraan.
Musk telah menyalahkan perilaku itu pada data pelatihan Grok – halaman web publik – dan berjanji untuk “menggeser grok lebih dekat ke netral secara politis.” Pendek kesalahan profil tinggi seperti secara singkat menyensor tidak menariknya menyebutkan Presiden Donald Trump dan Musktampaknya dia mungkin telah mencapai tujuan itu.