Menghukum AI tidak menghentikannya dari berbohong dan curang – itu hanya membuatnya bersembunyi lebih baik, studi menunjukkan

Yuliana Hasanah March 17, 2025

0 2 minutes read

Menghukum AI tidak menghentikannya dari berbohong dan curang - itu hanya membuatnya bersembunyi lebih baik, studi menunjukkan

Menghukum kecerdasan buatan untuk tindakan menipu atau berbahaya tidak menghentikannya dari perilaku buruk; Itu hanya membuatnya menyembunyikan kekecilannya, sebuah studi baru oleh pencipta chatgpt Openai telah mengungkapkan.

Sejak tiba di depan umum pada akhir 2022, kecerdasan buatan (AI) Model bahasa besar (LLM) telah berulang kali mengungkapkan kemampuan mereka yang menipu dan langsung menyeramkan. Ini termasuk tindakan mulai dari run-of-the-mill berbohong, curang dan menyembunyikan mereka Perilaku manipulatif sendiri mengancam Bunuh seorang profesor filosofimencuri kode nuklir dan merekayasa pandemi yang mematikan.

Sekarang, percobaan baru telah menunjukkan bahwa menyingkirkan perilaku buruk ini selama proses pelatihan mungkin lebih sulit daripada yang pertama kali dipikirkan.

Para peneliti di Openai menugaskan model yang belum dirilis dengan tujuan yang dapat diselesaikan dengan menipu, berbohong atau mengambil jalan pintas. Tim menemukan AI terlibat dalam “Hadiah Peretasan” – memaksimalkan imbalannya dengan menipu.

Namun menghukum model tidak membuatnya memperbaiki perilakunya, itu hanya membuatnya lebih menipu. Perusahaan menguraikan penelitiannya posting blogjadi belum ditinjau sejawat.

“Adalah umum bagi model penalaran perbatasan untuk sangat jelas menyatakan niat mereka dalam rantai mereka [CoT]. Sebagai contoh, mereka sering kali begitu jujur tentang rencana mereka untuk menumbangkan tugas yang mereka pikirkan “mari kita retas,” tulis para peneliti dalam posting blog.

Sementara pengembang dapat memantau dan menandai perilaku buruk, model “monitorabilitas alami sangat rapuh,” tambah mereka. “Jika pengawasan yang kuat diterapkan secara langsung pada rantai yang dipikirkan, model dapat belajar menyembunyikan niat mereka sambil terus melakukan kesalahan.”

Menavigasi kebohongan AI

Model penalaran, seperti O1 dan O3-Mini ChatGPT, adalah versi yang ditingkatkan dari LLMS standar yang menggunakan metode yang disebut “rantai-dipikirkan” untuk mundur dan evaluasi kembali logika merekayang memungkinkan mereka untuk menangani tugas yang lebih kompleks dengan akurasi yang lebih besar. Selama proses rantai-dipikirkan, model mengeja logika mereka dalam bahasa sederhana dengan setiap langkah yang mereka ambil, sehingga memungkinkan tindakan mereka untuk dengan mudah diamati.

Terkait: Ilmuwan merancang 'tolok ukur AGI' baru yang menunjukkan apakah model AI di masa depan dapat menyebabkan 'bahaya bencana'

Dengan menggunakan LLM standar, GPT-4O, untuk mengawasi model penalaran perbatasan yang belum dirilis selama pelatihan, para peneliti menyaksikan model menyelesaikan sejumlah tugas pengkodean.

Tetapi dalam beberapa kasus ini, model penalaran merasa lebih mudah dan lebih diinginkan untuk menghargai peretasan, secara eksplisit menyatakan hal itu melakukannya dalam rantai yang dipikirkan. Dalam satu contoh, ia melewati tugas yang ditugaskan dengan mengakhiri program secara prematur dan melaporkan keberhasilan. Di yang lain, itu meniru file yang diharapkan untuk di -output dengan tugas atas nama saja, membiarkannya kosong dan tidak berfungsi.

Ketika para peneliti berusaha menghukum sistem, itu agak meningkatkan hasilnya. Namun contoh penting peretasan hadiah dan output yang salah tetap; Model penalaran hanya menemukan cara untuk menyembunyikan kecurangan dalam rantai pemikiran dari AI pemantauan.

“Agen yang dilatih dengan tekanan cot masih belajar untuk menghargai peretasan; hanya sekarang kecurangannya tidak terdeteksi oleh monitor karena telah belajar untuk menyembunyikan niatnya dalam rantai-pemikiran,” tulis para peneliti.

Karena sulit untuk mengetahui apakah rangkaian pemikiran telah dirusak, para peneliti merekomendasikan agar orang lain yang bekerja dengan model penalaran menghindari penerapan pengawasan yang kuat untuk proses rantai yang dipikirkan. Saran ini bahkan lebih penting jika AI, dalam bentuk saat ini atau yang lain, bisa pernah cocok atau melebihi Kecerdasan manusia yang memantau itu.

“Mengorbankan metode yang efektif untuk memantau model penalaran mungkin tidak sepadan dengan peningkatan kemampuan kecil, dan oleh karena itu kami sarankan untuk menghindari tekanan optimisasi COT yang kuat sampai mereka dipahami dengan lebih baik,” tulis para peneliti.

Source

Yuliana Hasanah March 17, 2025

0 2 minutes read

Menghukum AI tidak menghentikannya dari berbohong dan curang – itu hanya membuatnya bersembunyi lebih baik, studi menunjukkan

Yuliana Hasanah

Leave a Reply Cancel reply

Pesawat kecil menabrak jalan perumahan di San Diego

Revenuecat mengumpulkan $ 50 juta karena berkembang di luar monetisasi aplikasi seluler

Kyle Richards memakai merek tas tangan yang tampak desainer ini yang sekarang mendapat diskon 40% untuk waktu yang terbatas

Gayle King diduga 'ditetapkan untuk berhenti' CBS di tengah mengklaim gaji $ 10 juta telah menjadi 'sulit untuk dibenarkan'

Paus Leo XIV meminta bantuan untuk mencapai Gaza dan diakhirinya permusuhan di audiensi umum pertamanya

Pesawat kecil menabrak jalan perumahan di San Diego

A dieta do desejo sexual: 15 alimentos deliciosos que podem aumentar sua libido

How Broadcast Networks are Using Procedurals as the Gateway to Innovative Storytelling

Peneliti AI François Chollet mendirikan laboratorium AI baru yang berfokus pada AGI

Pilihan Menteri Luar Negeri Trump Menjadi Balistik Terhadap Pendakian Global Tiongkok

Star Wars: Skeleton Crew Episódio 8 revela uma conexão com Palpatine

Subscribe to our mailing list to get the new updates!

1923 Season 2 Episode 4 menjelaskan asal stasiun kereta Yellowstone

AS meluncurkan serangan pada Yaman sebagai kapal pengiriman Houthi Attack

Related Articles

Leave a Reply Cancel reply

Pesawat kecil menabrak jalan perumahan di San Diego

A dieta do desejo sexual: 15 alimentos deliciosos que podem aumentar sua libido

How Broadcast Networks are Using Procedurals as the Gateway to Innovative Storytelling

Peneliti AI François Chollet mendirikan laboratorium AI baru yang berfokus pada AGI

Pilihan Menteri Luar Negeri Trump Menjadi Balistik Terhadap Pendakian Global Tiongkok

Star Wars: Skeleton Crew Episódio 8 revela uma conexão com Palpatine