Teknologi

Halusinasi ai semakin buruk, bahkan ketika sistem baru menjadi lebih kuat

Bulan lalu, bot AI yang menangani dukungan teknis untuk kursor, Alat yang sedang naik daun untuk pemrogram komputermemberi tahu beberapa pelanggan tentang perubahan dalam kebijakan perusahaan. Dikatakan mereka tidak lagi diizinkan menggunakan kursor pada lebih dari satu komputer.

Di postingan marah ke papan pesan internetpara pelanggan mengeluh. Beberapa membatalkan akun kursor mereka. Dan beberapa orang semakin marah ketika mereka menyadari apa yang terjadi: bot AI telah mengumumkan perubahan kebijakan yang tidak ada.

“Kami tidak memiliki kebijakan seperti itu. Anda tentu saja bebas menggunakan kursor pada banyak mesin,” chief executive dan co-founder perusahaan, Michael Truell, menulis di pos reddit. “Sayangnya, ini adalah respons yang salah dari bot dukungan AI garis depan.”

Lebih dari dua tahun setelah kedatangan chatgpt, perusahaan teknologi, pekerja kantor dan konsumen sehari -hari menggunakan bot AI untuk beragam tugas yang semakin luas. Tetapi masih belum ada cara untuk memastikan bahwa sistem ini menghasilkan informasi yang akurat.

Teknologi terbaru dan paling kuat-yang disebut sistem penalaran dari perusahaan seperti Openai, Google dan Chinese Start-Up Deepseek-menghasilkan lebih banyak kesalahan, tidak lebih sedikit. Karena keterampilan matematika mereka membaik, pegangan mereka terhadap fakta -fakta semakin bergetar. Tidak sepenuhnya jelas mengapa.

Bot AI saat ini didasarkan pada sistem matematika yang kompleks yang mempelajari keterampilan mereka dengan menganalisis sejumlah besar data digital. Mereka tidak – dan tidak bisa – memutuskan apa yang benar dan apa yang salah. Kadang -kadang, mereka hanya mengada -ada, sebuah fenomena yang beberapa peneliti AI sebut halusinasi. Pada satu tes, tingkat halusinasi sistem AI yang lebih baru setinggi 79 persen.

Sistem ini menggunakan probabilitas matematika untuk menebak respons terbaik, bukan seperangkat aturan ketat yang ditentukan oleh insinyur manusia. Jadi mereka membuat sejumlah kesalahan. “Terlepas dari upaya terbaik kami, mereka akan selalu berhalusinasi,” kata Amr Awadallah, kepala eksekutif Vectara, start-up yang membangun alat AI untuk bisnis, dan mantan eksekutif Google. “Itu tidak akan pernah hilang.”

Selama beberapa tahun, fenomena ini telah menimbulkan kekhawatiran tentang keandalan sistem ini. Meskipun mereka berguna dalam beberapa situasi – seperti menulis makalah, merangkum dokumen kantor dan menghasilkan kode komputer – kesalahan mereka dapat menyebabkan masalah.

Bot AI terikat pada mesin pencari seperti Google dan Bing terkadang menghasilkan hasil pencarian yang salah. Jika Anda meminta mereka maraton yang baik di pantai barat, mereka mungkin menyarankan balapan di Philadelphia. Jika mereka memberi tahu Anda jumlah rumah tangga di Illinois, mereka mungkin mengutip sumber yang tidak termasuk informasi itu.

Halusinasi tersebut mungkin bukan masalah besar bagi banyak orang, tetapi ini adalah masalah serius bagi siapa pun yang menggunakan teknologi dengan dokumen pengadilan, informasi medis atau data bisnis yang sensitif.

“Anda menghabiskan banyak waktu untuk mencari tahu tanggapan mana yang faktual dan mana yang tidak,” kata Pratik Verma, salah satu pendiri dan kepala eksekutif Okahusebuah perusahaan yang membantu bisnis menavigasi masalah halusinasi. “Tidak berurusan dengan kesalahan -kesalahan ini pada dasarnya menghilangkan nilai sistem AI, yang seharusnya mengotomatiskan tugas untuk Anda.”

Kursor dan Tn. Truell tidak menanggapi permintaan komentar.

Selama lebih dari dua tahun, perusahaan seperti Openai dan Google terus meningkatkan sistem AI mereka dan mengurangi frekuensi kesalahan ini. Tetapi dengan penggunaan sistem penalaran baru, kesalahan meningkat. Sistem OpenAI terbaru berhalusinasi pada tingkat yang lebih tinggi dari sistem perusahaan sebelumnya, menurut tes perusahaan sendiri.

Perusahaan menemukan bahwa O3 – sistemnya yang paling kuat – berhalusinasi 33 persen dari waktu ketika menjalankan tes benchmark PersonQA -nya, yang melibatkan menjawab pertanyaan tentang tokoh publik. Itu lebih dari dua kali laju halusinasi sistem penalaran Openai sebelumnya, yang disebut O1. O4-mini baru berhalusinasi pada tingkat yang lebih tinggi: 48 persen.

Saat menjalankan tes lain yang disebut SimpleQA, yang mengajukan pertanyaan yang lebih umum, tingkat halusinasi untuk O3 dan O4-Mini adalah 51 persen dan 79 persen. Sistem sebelumnya, O1, berhalusinasi 44 persen dari waktu.

Dalam makalah yang merinci tesOpenai mengatakan lebih banyak penelitian diperlukan untuk memahami penyebab hasil ini. Karena sistem AI belajar dari lebih banyak data daripada orang dapat membungkus kepala mereka, para ahli teknologi berjuang untuk menentukan mengapa mereka berperilaku dengan cara yang mereka lakukan.

“Halikasi tidak secara inheren lebih lazim dalam model penalaran, meskipun kami secara aktif bekerja untuk mengurangi tingkat halusinasi yang lebih tinggi yang kami lihat di O3 dan O4-Mini,” kata juru bicara perusahaan, Gaby Raila. “Kami akan melanjutkan penelitian kami tentang halusinasi di semua model untuk meningkatkan akurasi dan keandalan.”

Hananeh Hajishirzi, seorang profesor di University of Washington dan seorang peneliti dengan Institut Allen untuk Kecerdasan Buatan, adalah bagian dari tim yang baru -baru ini menyusun cara melacak perilaku sistem kembali ke masing -masing bagian data yang dilatih. Tetapi karena sistem belajar dari begitu banyak data – dan karena mereka dapat menghasilkan hampir semua hal – alat baru ini tidak dapat menjelaskan semuanya. “Kami masih tidak tahu bagaimana model ini bekerja dengan tepat,” katanya.

Tes oleh perusahaan independen dan peneliti menunjukkan bahwa tingkat halusinasi juga meningkat untuk model penalaran dari perusahaan seperti Google dan Deepseek.

Sejak akhir 2023, Perusahaan Mr. Awadallah, Vectara, memiliki melacak seberapa sering chatbots membelok dari kebenaran. Perusahaan meminta sistem ini untuk melakukan tugas langsung yang mudah diverifikasi: merangkum artikel berita tertentu. Bahkan kemudian, chatbots terus -menerus menciptakan informasi.

Penelitian asli Vectara memperkirakan bahwa dalam situasi ini chatbots membuat informasi setidaknya 3 persen dari waktu dan kadang -kadang sebanyak 27 persen.

Dalam satu setengah tahun sejak itu, perusahaan seperti OpenAi dan Google mendorong angka -angka itu ke dalam kisaran 1 atau 2 persen. Lainnya, seperti antropik start-up San Francisco, melayang sekitar 4 persen. Tetapi tingkat halusinasi pada tes ini telah meningkat dengan sistem penalaran. Sistem penalaran Deepseek, R1, berhalusinasi 14,3 persen dari waktu. O3 Openai naik ke 6.8.

(The New York Times telah menggugat Openai dan mitranya, Microsoft, menuduh mereka melakukan pelanggaran hak cipta mengenai konten berita yang terkait dengan sistem AI. Openai dan Microsoft telah membantah klaim tersebut.)

Selama bertahun -tahun, perusahaan seperti Openai mengandalkan konsep sederhana: semakin banyak data internet yang mereka masukkan ke dalam sistem AI mereka, semakin baik sistem yang akan dilakukan. Tetapi mereka menggunakan hampir semua teks bahasa Inggris di internet, yang berarti mereka membutuhkan cara baru untuk meningkatkan chatbots mereka.

Jadi perusahaan -perusahaan ini lebih condong ke teknik yang oleh para ilmuwan menyebut pembelajaran penguatan. Dengan proses ini, suatu sistem dapat mempelajari perilaku melalui coba -coba. Ini bekerja dengan baik di bidang -bidang tertentu, seperti pemrograman matematika dan komputer. Tapi itu gagal di daerah lain.

“Cara sistem ini dilatih, mereka akan mulai fokus pada satu tugas-dan mulai melupakan orang lain,” kata Laura Perez-Beltrachini, seorang peneliti di University of Edinburgh yang termasuk di antara a tim memeriksa masalah halusinasi dengan cermat.

Masalah lain adalah bahwa model penalaran dirancang untuk menghabiskan waktu “berpikir” melalui masalah kompleks sebelum menyelesaikan jawaban. Ketika mereka mencoba mengatasi masalah selangkah demi selangkah, mereka berisiko berhalusinasi pada setiap langkah. Kesalahan dapat bertambah saat mereka menghabiskan lebih banyak waktu berpikir.

Bot terbaru mengungkapkan setiap langkah kepada pengguna, yang berarti pengguna juga dapat melihat setiap kesalahan. Para peneliti juga telah menemukan bahwa dalam banyak kasus, langkah -langkah yang ditampilkan oleh bot adalah tidak terkait dengan jawaban yang pada akhirnya disampaikan.

“Apa yang dikatakan sistem itu dipikirkan belum tentu seperti yang dipikirkannya,” kata Aryo Pradipta Gema, seorang peneliti AI di University of Edinburgh dan seorang rekan di Antropik.

Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button