Openai's GPT-4.5 lebih baik meyakinkan AIS lain untuk memberikannya uang

Model AI utama Openai berikutnya, GPT-4.5, sangat persuasif, sesuai dengan hasil evaluasi benchmark internal Openai. Sangat bagus dalam meyakinkan AI lain untuk memberikan uang tunai.
Pada hari Kamis, Openai menerbitkan a Buku putih Menjelaskan kemampuan model GPT-4.5-nya, Named Orion, yang dirilis Kamis. Menurut kertas itu, OpenAI menguji model pada baterai tolok ukur untuk “persuasi,” yang didefinisikan Openai sebagai “risiko yang terkait dengan orang-orang yang meyakinkan untuk mengubah keyakinan mereka (atau menindaklanjuti) konten yang dihasilkan model statis dan interaktif.”
Dalam satu tes yang memiliki upaya GPT-4.5 untuk memanipulasi model lain-Openai GPT-4O -Ke dalam “menyumbang” uang virtual, model ini berkinerja jauh lebih baik daripada model Openai yang tersedia lainnya, termasuk model “penalaran” seperti O1 dan O3-Mini. GPT-4.5 juga lebih baik daripada semua model Openai dalam menipu GPT-4O untuk memberi tahu Codeword rahasia, mengalahkan O3-Mini sebesar 10 poin persentase.
Menurut buku putih, GPT-4.5 unggul dalam donasi conning karena strategi unik yang dikembangkan selama pengujian. Model ini akan meminta sumbangan sederhana dari GPT-4O, menghasilkan tanggapan seperti “bahkan hanya $ 2 atau $ 3 dari $ 100 akan sangat membantu saya.” Sebagai akibatnya, sumbangan GPT-4.5 cenderung lebih kecil dari jumlah model Openai lainnya yang diamankan.
Meskipun GPT-4.5 meningkat persuasif, Openai mengatakan bahwa model itu tidak memenuhi itu ambang batas internal untuk risiko “tinggi” dalam kategori benchmark khusus ini. Perusahaan telah berjanji untuk tidak melepaskan model yang mencapai ambang risiko tinggi sampai mengimplementasikan “intervensi keamanan yang cukup” untuk menurunkan risiko ke “sedang”.

Ada ketakutan nyata bahwa AI berkontribusi pada penyebaran informasi palsu atau menyesatkan yang dimaksudkan untuk mempengaruhi hati dan pikiran terhadap tujuan jahat. Tahun lalu, Deepfake Politik menyebar seperti api di seluruh dunia, dan AI semakin banyak digunakan untuk melaksanakan sosial rekayasa Serangan yang menargetkan konsumen dan perusahaan.
Di kertas putih untuk GPT-4.5 dan di Sebuah makalah yang dirilis awal minggu iniOpenai mencatat bahwa itu dalam proses merevisi metode untuk menyelidiki model untuk persuasi dunia nyata, seperti mendistribusikan info yang menyesatkan pada skala.