Mengapa Deepseek bisa mengubah apa yang diyakini Silicon Valley tentang AI

Gada Saragih January 28, 2025

0 5 minutes read

Terobosan kecerdasan buatan yang mengirimkan gelombang kejut melalui pasar saham, menakuti raksasa Lembah Silikon, dan menghasilkan terengah -engah mengambil sekitar akhir dominasi teknologi Amerika tiba dengan gelar yang sederhana dan miring: “memberi insentif kemampuan penalaran dalam LLM melalui pembelajaran penguatan.”

Itu Kertas 22 halamandirilis minggu lalu oleh start-up AI Cina yang bernama Deepseek, tidak segera memicu lonceng alarm. Butuh beberapa hari bagi para peneliti untuk mencerna klaim kertas, dan implikasi dari apa yang dijelaskan. Perusahaan telah menciptakan model AI baru yang disebut Deepseek-R1, yang dibangun oleh tim peneliti yang mengaku telah menggunakan jumlah chip AI kelas dua sederhana untuk mencocokkan kinerja model AI Amerika terkemuka di sebagian kecil dari biaya.

Deepseek mengatakan telah melakukan ini dengan menggunakan rekayasa pintar untuk menggantikan tenaga kuda komputasi mentah. Dan itu telah melakukannya di Cina, sebuah negara yang menurut banyak ahli berada di tempat kedua yang jauh dalam perlombaan AI global.

Beberapa pengamat industri awalnya bereaksi terhadap terobosan Deepseek dengan tidak percaya. Tentunya, pikir mereka, Deepseek telah berselingkuh untuk mencapai hasil R1, atau memalsukan jumlah mereka untuk membuat model mereka terlihat lebih mengesankan daripada sebelumnya. Mungkin pemerintah Cina mempromosikan propaganda untuk merusak narasi dominasi AI Amerika. Mungkin Deepseek Menyembunyikan setumpuk chip nvidia h100 ilegaldilarang di bawah kontrol ekspor AS, dan berbohong tentang hal itu. Mungkin R1 sebenarnya hanya kulit yang cerdas dari model AI Amerika yang tidak mewakili banyak hal dalam kemajuan nyata.

Akhirnya, karena lebih banyak orang menggali detail Deepseek-R1-yang, tidak seperti kebanyakan model AI terkemuka, dirilis sebagai perangkat lunak open-source, memungkinkan orang luar untuk memeriksa pekerjaan dalamnya lebih dekat-skeptisisme mereka berubah menjadi kekhawatiran.

Dan akhir pekan lalu, ketika banyak orang Amerika mulai menggunakan model Deepseek untuk diri mereka sendiri, dan aplikasi seluler Deepseek mencapai tempat nomor satu di App Store Apple, itu menjadi panik yang penuh.

Saya skeptis terhadap pengambilan paling dramatis yang pernah saya lihat selama beberapa hari terakhir – seperti klaim, dibuat oleh seorang investor Lembah SilikonDeepseek itu adalah rencana rumit oleh pemerintah Cina untuk menghancurkan industri teknologi Amerika. Saya juga berpikir itu masuk akal bahwa anggaran yang ditepuk perusahaan telah sangat dibesar -besarkan, atau bahwa ia terbelakang dengan kemajuan yang dibuat oleh perusahaan AI Amerika dengan cara yang belum diungkapkannya.

Tapi saya pikir terobosan R1 Deepseek itu nyata. Berdasarkan percakapan yang saya lakukan dengan orang dalam industri, dan para ahli senilai satu minggu menusuk dan menguji temuan kertas untuk diri mereka sendiri, tampaknya membuat beberapa asumsi utama yang telah dibuat oleh industri teknologi Amerika.

Yang pertama adalah asumsi bahwa untuk membangun model AI mutakhir, Anda perlu menghabiskan sejumlah besar uang untuk chip dan pusat data yang kuat.

Sulit untuk melebih -lebihkan betapa mendasarnya dogma ini. Perusahaan seperti Microsoft, Meta dan Google telah menghabiskan puluhan miliar dolar membangun infrastruktur yang mereka pikir diperlukan untuk membangun dan menjalankan model AI generasi berikutnya. Mereka berencana untuk menghabiskan puluhan miliar lagi – atau, dalam kasus Openai, sebanyak $ 500 miliar melalui usaha patungan dengan Oracle dan Softbank yang diumumkan minggu lalu.

Deepseek tampaknya telah menghabiskan sebagian kecil dari bangunan itu R1. Kami tidak tahu biaya pastinya, dan ada banyak peringatan untuk dibuat tentang angka yang telah mereka rilis sejauh ini. Hampir pasti lebih tinggi dari $ 5,5 juta, jumlah yang diklaim perusahaan menghabiskan model sebelumnya.

Tetapi bahkan jika R1 harganya 10 kali lebih banyak untuk dilatih daripada klaim Deepseek, dan bahkan jika Anda memperhitungkan biaya lain, mereka mungkin telah dikecualikan, seperti gaji insinyur atau biaya melakukan penelitian dasar, itu masih akan menjadi pesanan sebesar itu lebih sedikit dari apa yang AI Amerika AI Amerika Amerika Perusahaan menghabiskan untuk mengembangkan model mereka yang paling cakap.

Kesimpulan yang jelas untuk menggambar bukanlah bahwa raksasa teknologi Amerika membuang -buang uang mereka. Masih mahal untuk menjalankan model AI yang kuat begitu mereka dilatih, dan ada alasan untuk berpikir bahwa menghabiskan ratusan miliar dolar masih masuk akal bagi perusahaan seperti Openai dan Google, yang mampu membayar mahal untuk tetap di kepala paket.

Tetapi terobosan Deepseek pada tantangan biaya narasi “lebih besar lebih baik” yang telah mendorong perlombaan senjata AI dalam beberapa tahun terakhir dengan menunjukkan bahwa model yang relatif kecil, ketika dilatih dengan benar, dapat mencocokkan atau melebihi kinerja model yang jauh lebih besar.

Itu, pada gilirannya, berarti bahwa perusahaan AI mungkin dapat mencapai kemampuan yang sangat kuat dengan investasi yang jauh lebih sedikit daripada yang diperkirakan sebelumnya. Dan itu menunjukkan bahwa kita mungkin akan segera melihat banjir investasi ke perusahaan baru yang lebih kecil, dan lebih banyak persaingan untuk raksasa Lembah Silikon. (Yang, karena biaya yang sangat besar untuk melatih model mereka, sebagian besar telah saling bersaing sampai sekarang.)

Ada alasan lain yang lebih teknis bahwa semua orang di Silicon Valley memperhatikan Deepseek. Dalam makalah penelitian, perusahaan mengungkapkan beberapa detail tentang bagaimana R1 sebenarnya dibangun, yang mencakup beberapa teknik mutakhir dalam distilasi model. (Pada dasarnya, itu berarti mengompresi model AI besar menjadi yang lebih kecil, membuat mereka lebih murah untuk berlari tanpa kehilangan banyak hal dalam cara kinerja.)

Deepseek juga termasuk detail itu disarankan Bahwa tidak sekeras yang sebelumnya diperkirakan untuk mengubah model bahasa AI “vanilla” menjadi model penalaran yang lebih canggih, dengan menerapkan teknik yang dikenal sebagai pembelajaran penguatan di atasnya. ;

Bahkan jika harga saham raksasa teknologi Amerika pulih dalam beberapa hari mendatang, keberhasilan Deepseek menimbulkan pertanyaan penting tentang strategi AI jangka panjang mereka. Jika sebuah perusahaan Cina dapat membangun model sumber terbuka yang murah yang sesuai dengan kinerja model Amerika yang mahal, mengapa ada orang yang membayar kami? Dan jika Anda meta-satu-satunya raksasa teknologi AS yang merilis modelnya sebagai perangkat lunak open-source gratis-apa yang mencegah Deepseek atau start-up lain dari sekadar mengambil model Anda, yang Anda habiskan miliaran dolar, dan menyaringnya menjadi lebih kecil , model yang lebih murah yang dapat mereka tawarkan untuk uang receh?

Terobosan Deepseek juga melemahkan beberapa asumsi geopolitik yang dibuat oleh banyak ahli Amerika tentang posisi China dalam ras AI.

Pertama, ini menantang narasi bahwa Cina secara bermakna di belakang perbatasan, ketika datang untuk membangun model AI yang kuat. Selama bertahun -tahun, banyak ahli AI (dan pembuat kebijakan yang mendengarkan mereka) berasumsi bahwa Amerika Serikat memiliki keunggulan setidaknya beberapa tahun, dan bahwa menyalin kemajuan yang dibuat oleh perusahaan teknologi Amerika sangat sulit dilakukan oleh perusahaan Cina dengan cepat.

Tetapi hasil Deepseek menunjukkan bahwa Cina telah memajukan kemampuan AI yang dapat mencocokkan atau melampaui model dari Openai dan perusahaan AI Amerika lainnya, dan bahwa terobosan yang dibuat oleh perusahaan AS mungkin sepele mudah bagi perusahaan Cina – atau, setidaknya, satu perusahaan Cina – untuk ditiru dalam beberapa minggu.

(The New York Times telah menggugat Openai dan mitranya, Microsoft, menuduh mereka melakukan pelanggaran hak cipta atas konten berita yang terkait dengan sistem AI. Openai dan Microsoft telah membantah klaim tersebut.)

Hasilnya juga menimbulkan pertanyaan tentang apakah langkah -langkah yang diambil pemerintah AS untuk membatasi penyebaran sistem AI yang kuat untuk musuh kita – yaitu, kontrol ekspor yang digunakan untuk mencegah chip AI yang kuat jatuh ke tangan China – bekerja seperti yang dirancang, atau Apakah peraturan tersebut perlu beradaptasi untuk memperhitungkan cara pelatihan baru yang lebih efisien.

Dan, tentu saja, ada kekhawatiran tentang apa artinya bagi privasi dan sensor jika Cina memimpin dalam membangun sistem AI yang kuat yang digunakan oleh jutaan orang Amerika. Pengguna model Deepseek telah memperhatikan bahwa mereka secara rutin menolak untuk menanggapi pertanyaan tentang topik sensitif di dalam Cina, seperti pembantaian Tiananmen Square dan kamp penahanan Uyghur. Jika pengembang lain dibangun di atas model Deepseek, seperti biasa dengan perangkat lunak open-source, langkah-langkah sensor tersebut mungkin tertanam di seluruh industri.

Pakar privasi juga memiliki menimbulkan kekhawatiran Tentang fakta bahwa data yang dibagikan dengan model Deepseek dapat diakses oleh pemerintah Cina. Jika Anda khawatir tentang Tiktok yang digunakan sebagai instrumen pengawasan dan propaganda, kebangkitan Deepseek juga harus mengkhawatirkan Anda.

Saya masih tidak yakin apa dampak penuh dari terobosan Deepseek, atau apakah kita akan mempertimbangkan pelepasan R1 sebagai “momen sputnik” untuk industri AI, seperti yang dimiliki beberapa orang diklaim.

Tetapi tampaknya bijaksana untuk menganggap serius kemungkinan bahwa kita berada di era baru AI Brinkmanship sekarang – bahwa perusahaan teknologi Amerika terbesar dan terkaya mungkin tidak lagi menang secara default, dan yang berisi penyebaran sistem AI yang semakin kuat mungkin lebih sulit daripada kami pikir.

Paling tidak, Deepseek telah menunjukkan bahwa perlombaan senjata AI benar -benar menyala, dan bahwa setelah beberapa tahun kemajuan memusingkan, masih ada lebih banyak kejutan yang tersisa di toko.

Source link

Gada Saragih January 28, 2025

0 5 minutes read