Turing Award diberikan kepada AI Pioneers Andrew Barto dan Richard Sutton

Pada tahun 1977, Andrew Barto, sebagai peneliti di University of Massachusetts, Amherst, mulai menjelajahi teori baru itu neuron berperilaku seperti hedonis. Gagasan dasarnya adalah bahwa otak manusia didorong oleh miliaran sel saraf yang masing -masing berusaha memaksimalkan kesenangan dan meminimalkan rasa sakit.
Setahun kemudian, ia bergabung dengan peneliti muda lainnya, Richard Sutton. Bersama -sama, mereka bekerja untuk menjelaskan kecerdasan manusia menggunakan konsep sederhana ini dan menerapkannya pada kecerdasan buatan. Hasilnya adalah “pembelajaran penguatan,” cara bagi sistem AI untuk belajar dari digital yang setara dengan kesenangan dan rasa sakit.
Pada hari Rabu, Asosiasi untuk Komputasi Mesin, Masyarakat Profesional Komputasi Terbesar di Dunia, mengumumkan bahwa Dr. Barto dan Dr. Sutton telah memenangkan Turing Award tahun ini untuk pekerjaan mereka tentang pembelajaran penguatan. Penghargaan Turing, yang diperkenalkan pada tahun 1966, sering disebut Nobel Prize of Computing. Kedua ilmuwan akan berbagi hadiah $ 1 juta yang disertakan dengan penghargaan.
Selama dekade terakhir, pembelajaran penguatan telah memainkan peran penting dalam kebangkitan kecerdasan buatan, termasuk teknologi terobosan seperti Google's Alphago dan Openai's Chatgpt. Teknik -teknik yang bertenaga sistem ini berakar pada karya Dr. Barto dan Dr. Sutton.
“Mereka adalah pelopor pembelajaran penguatan yang tak terbantahkan,” kata Oren Etzioni, seorang profesor emeritus ilmu komputer di Universitas Washington dan kepala eksekutif pendiri Institut Allen untuk Kecerdasan Buatan. “Mereka menghasilkan ide -ide utama – dan mereka menulis buku tentang masalah ini.”
Buku mereka, “Penguatan Pembelajaran: An Pendahuluan,” yang diterbitkan pada tahun 1998, tetap menjadi eksplorasi pasti dari sebuah gagasan yang menurut banyak ahli baru mulai menyadari potensinya.
Psikolog telah lama mempelajari cara -cara yang dipelajari manusia dan hewan dari pengalaman mereka. Pada tahun 1940 -an, ilmuwan komputer Inggris perintis Alan Turing menyarankan agar mesin dapat belajar dengan cara yang sama.
Tapi Dr. Barto dan Dr. Sutton yang mulai mengeksplorasi matematika tentang bagaimana ini bisa bekerja, membangun teori bahwa A. Harry Klopf, seorang ilmuwan komputer yang bekerja untuk pemerintah, telah mengusulkan. Barto melanjutkan untuk membangun laboratorium di UMass Amherst yang didedikasikan untuk ide itu, sementara Dr. Sutton mendirikan jenis lab yang serupa di University of Alberta di Kanada.
“Ini adalah ide yang jelas ketika Anda berbicara tentang manusia dan hewan,” kata Dr. Sutton, yang juga seorang ilmuwan peneliti di Keen Technologies, AI start-up, dan seorang rekan di Alberta Machine Intelligence Institute, salah satu dari tiga laboratorium AI Kanada. “Saat kami menghidupkannya, itu tentang mesin.”
Ini tetap menjadi pengejaran akademis sampai kedatangan Alphago pada tahun 2016. Sebagian besar ahli percaya bahwa 10 tahun lagi akan berlalu sebelum siapa pun membangun sistem AI yang dapat mengalahkan pemain terbaik dunia di Game of Go.
Tetapi selama pertandingan di Seoul, Korea Selatan, Alphago mengalahkan Lee Sedol, pemain terbaik dekade terakhir. Triknya adalah bahwa sistem telah memainkan jutaan pertandingan melawan dirinya sendiri, belajar dengan coba -coba. Itu belajar gerakan mana yang membawa kesuksesan (kesenangan) dan yang membawa kegagalan (rasa sakit).
Tim Google yang membangun sistem dipimpin oleh David Silver, seorang peneliti yang telah mempelajari pembelajaran penguatan di bawah Dr. Sutton di Universitas Alberta.
Banyak ahli masih mempertanyakan apakah pembelajaran penguatan dapat bekerja di luar permainan. Kemenangan game ditentukan oleh poin, yang memudahkan mesin untuk membedakan antara keberhasilan dan kegagalan.
Tetapi pembelajaran penguatan juga memainkan peran penting dalam chatbots online.
Menjelang rilis ChatGPT pada musim gugur 2022, Openai mempekerjakan ratusan orang untuk menggunakan versi awal dan memberikan saran tepat yang dapat mengasah keterampilannya. Mereka menunjukkan chatbot bagaimana menanggapi pertanyaan tertentu, menilai tanggapannya dan memperbaiki kesalahannya. Dengan menganalisis saran -saran itu, ChatGPT belajar menjadi chatbot yang lebih baik.
Para peneliti menyebut ini “pembelajaran penguatan dari umpan balik manusia,” atau RLHF dan itu adalah salah satu alasan utama mengapa chatbots saat ini merespons dengan cara yang sangat hidup.
(The New York Times telah menggugat Openai dan mitranya, Microsoft, atas pelanggaran hak cipta konten berita yang terkait dengan sistem AI. Openai dan Microsoft telah membantah klaim tersebut.)
Baru-baru ini, perusahaan seperti Openai dan Start-Up Deepseek China telah mengembangkan bentuk pembelajaran penguatan yang memungkinkan chatbots untuk belajar dari diri mereka sendiri-seperti halnya Alphago. Dengan bekerja melalui berbagai masalah matematika, misalnya, chatbot dapat mempelajari metode mana yang mengarah pada jawaban yang benar dan tidak.
Jika mengulangi proses ini dengan serangkaian masalah yang sangat besar, bot dapat belajar meniru seperti alasan manusia – setidaknya dalam beberapa hal. Hasilnya disebut sistem penalaran seperti O1 Openai atau Deepseek's R1.
Barto dan Dr. Sutton mengatakan sistem ini mengisyaratkan cara -cara yang akan dipelajari mesin di masa depan. Akhirnya, kata mereka, robot yang dijiwai AI akan belajar dari coba -coba di dunia nyata, seperti yang dilakukan manusia dan hewan.
“Belajar mengendalikan tubuh melalui pembelajaran penguatan – itu adalah hal yang sangat alami,” kata Dr. Barto.