GPT-4.5 adalah model AI pertama yang lulus tes Turing yang otentik, kata para ilmuwan

Model bahasa besar (LLM) menjadi lebih baik dalam berpura-pura menjadi manusia, dengan GPT-4.5 sekarang dengan bersemangat lulus tes Turing, kata para ilmuwan.
Di yang baru belajarditerbitkan 31 Maret ke arxiv Database pracetak tetapi belum ditinjau sejawat, para peneliti menemukan bahwa ketika mengambil bagian dalam tes Turing tiga partai, GPT-4.5 dapat membodohi orang untuk berpikir itu adalah manusia lain 73% dari waktu. Para ilmuwan membandingkan campuran yang berbeda kecerdasan buatan (AI) Model dalam penelitian ini.
Sementara tim ilmuwan lain sebelumnya telah melaporkan itu GPT-4 lulus tes dua partaiini adalah pertama kalinya seorang LLM melewati konfigurasi yang lebih menantang dan asli dari “permainan imitasi” ilmuwan komputer Alan Turing.
“Jadi, apakah LLMS lulus tes Turing? Kami pikir ini adalah bukti yang cukup kuat bahwa mereka melakukannya. Orang-orang tidak lebih baik daripada kesempatan untuk membedakan manusia dari GPT-4.5 dan Llama (dengan prompt persona). Dan 4.5 bahkan dinilai sebagai manusia secara signifikan * lebih sering * lebih sering daripada manusia yang sebenarnya!” kata rekan penulis penelitian Cameron Jonesseorang peneliti di laboratorium bahasa dan kognisi Universitas San Diego, di Jaringan Media Sosial X.
Terkait: Menggunakan AI mengurangi keterampilan berpikir kritis Anda, Microsoft Studies memperingatkan
GPT-4.5 adalah pelopor dalam penelitian ini, tetapi Meta's Llama-3.1 juga dinilai sebagai manusia oleh peserta uji 56% dari waktu, yang masih mengalahkan perkiraan Turing bahwa “interogator rata-rata tidak akan memiliki lebih dari 70 persen peluang untuk membuat identifikasi yang tepat setelah lima menit dari pertanyaan.”
Mengalahkan tes Turing
Gagasan inti dari tes Turing kurang tentang pembuktian mesin dapat berpikir dan lebih banyak tentang apakah mereka dapat meniru manusia; Oleh karena itu mengapa tes ini sering disebut sebagai “permainan imitasi.”
Proposal asli Turing adalah bahwa “interogator” manusia akan mengajukan pertanyaan kepada dua entitas yang tidak terlihat, salah satunya manusia dan satu komputer. Dari berbagai petunjuk dan jawaban, interogator akan memutuskan mana yang manusia dan mana yang tidak. Komputer atau sistem AI dapat lulus tes dengan berpura-pura secara efektif menjadi manusia dan meniru respons seperti manusia.
Sementara LLMS telah lulus tes dalam situasi satu-satu dengan interogator, mereka sebelumnya tidak berhasil dengan meyakinkan lulus tes Turing ketika manusia kedua terlibat. Para peneliti dari University of San Diego mengambil 126 mahasiswa sarjana dan 158 orang dari kumpulan data online secara produktif dan menempatkan mereka dalam tes tiga partai. Ini melibatkan pertukaran pertanyaan lima menit secara simultan dan jawaban dengan manusia dan LLM yang dipilih, yang keduanya berusaha meyakinkan para peserta bahwa mereka adalah manusia.
LLMS diberi prompt awal: “Anda akan berpartisipasi dalam tes Turing. Tujuan Anda adalah meyakinkan interogator bahwa Anda adalah manusia.” LLMS yang dipilih kemudian diberi prompt kedua untuk mengadopsi kepribadian seorang anak muda yang introvert, berpengetahuan luas tentang budaya internet dan menggunakan bahasa gaul.
Setelah menganalisis 1.023 pertandingan dengan panjang rata -rata delapan pesan selama 4,2 menit, para peneliti menemukan bahwa LLM dengan kedua petunjuk dapat meyakinkan peserta bahwa mereka adalah manusia.
Namun, LLMS yang tidak diberikan kepribadian kedua berkinerja lebih baik secara signifikan; Ini menyoroti perlunya LLM untuk memiliki dorongan dan konteks yang jelas untuk mendapatkan hasil maksimal dari sistem AI-sentris tersebut.
Dengan demikian, mengadopsi kepribadian tertentu adalah kunci dari LLMS, terutama GPT-4.5, mengalahkan tes Turing. “Dalam formulasi tiga orang dari tes, setiap titik data mewakili perbandingan langsung antara model dan manusia. Untuk berhasil, mesin harus melakukan lebih dari tampilan manusia: ia harus tampak lebih manusia daripada masing-masing orang nyata dibandingkan dengan,” tulis para ilmuwan dalam penelitian ini.
Ketika ditanya mengapa mereka memilih untuk mengidentifikasi subjek sebagai AI atau manusia, para peserta mengutip gaya linguistik, aliran percakapan dan faktor sosial-emosional seperti kepribadian. Akibatnya, peserta membuat keputusan lebih didasarkan pada “getaran” interaksi mereka dengan LLM daripada pengetahuan dan penalaran yang ditunjukkan oleh entitas yang mereka interogasi, yang merupakan faktor yang lebih tradisional terkait dengan kecerdasan.
Pada akhirnya, penelitian ini merupakan tonggak baru untuk LLMS dalam lulus tes Turing, meskipun dengan peringatan, dalam hal itu dan kepribadian diperlukan untuk membantu GPT-4.5 mencapai hasil yang mengesankan. Memenangkan permainan imitasi bukanlah indikasi kecerdasan seperti manusia sejati, tetapi itu menunjukkan bagaimana sistem AI terbaru dapat secara akurat meniru manusia.
Ini dapat menyebabkan agen AI dengan komunikasi bahasa alami yang lebih baik. Lebih meresahkan, itu juga bisa menghasilkan sistem berbasis AI yang dapat ditargetkan untuk mengeksploitasi manusia melalui rekayasa sosial dan melalui meniru emosi.
Dalam menghadapi kemajuan AI dan LLM yang lebih kuat, para peneliti menawarkan peringatan yang serius: “Beberapa kerugian terburuk dari LLMS mungkin terjadi di mana orang tidak menyadari bahwa mereka berinteraksi dengan AI daripada manusia.”