Mengapa Deekspeek pengubah permainan seperti itu? Para ilmuwan menjelaskan bagaimana model AI bekerja dan mengapa mereka sangat murah untuk dibangun.

Kurang dari dua minggu yang lalu, perusahaan Cina yang hampir tidak dikenal merilis yang terbaru kecerdasan buatan (AI) Model dan mengirim gelombang kejut di seluruh dunia.
Deepseek diklaim dalam makalah teknis yang diunggah Girub bahwa model R1 bobot terbuka dicapai hasil yang sebanding atau lebih baik dari model AI yang dibuat oleh beberapa raksasa Lembah Silikon terkemuka – yaitu Chatgpt Openai, Llama Meta dan Claude Anthropic. Dan yang paling mengejutkan, model mencapai hasil ini sambil dilatih dan dijalankan pada sebagian kecil dari biaya.
Respons pasar terhadap berita pada hari Senin tajam dan brutal: ketika Deepseek naik menjadi Aplikasi GRATIS paling banyak diunduh Di App App Store, $ 1 triliun dihapus dari penilaian perusahaan teknologi AS terkemuka.
Dan Nvidia, sebuah perusahaan yang membuat chip grafis H100 kelas atas dianggap penting untuk pelatihan AI, kehilangan penilaian $ 589 miliar dalam Kehilangan pasar satu hari terbesar dalam sejarah AS. Lagipula Deepseek, mengatakan itu melatih model AI tanpa mereka-meskipun menggunakan chip Nvidia yang kurang kuat. Perusahaan teknologi AS merespons dengan panik dan kemarahan, dengan perwakilan openai bahkan menyarankan Deepseek itu bagian yang dijiplak dari modelnya.
Terkait: AI sekarang dapat meniru dirinya sendiri – tonggak sejarah yang membuat para ahli takut
Pakar AI mengatakan bahwa kemunculan Deepseek telah mengalahkan dogma utama yang menopang pendekatan industri terhadap pertumbuhan – menunjukkan bahwa lebih besar tidak selalu lebih baik.
“Fakta bahwa Deepseek dapat dibangun dengan lebih sedikit uang, lebih sedikit perhitungan dan lebih sedikit waktu dan dapat dijalankan secara lokal di mesin yang lebih murah, berpendapat bahwa ketika semua orang berlomba menuju lebih besar dan lebih besar, kami kehilangan kesempatan untuk membangun lebih pintar dan lebih kecil,” Kristian Hammond, Seorang profesor ilmu komputer di Universitas Northwestern, mengatakan kepada Live Science dalam email.
Tapi apa yang membuat model V3 dan R1 Deepseek begitu mengganggu? Kuncinya, kata para ilmuwan, adalah efisiensi.
Apa yang membuat model Deepseek mencentang?
“Dalam beberapa hal, kemajuan Deepseek lebih evolusi daripada revolusioner,” Ambuj Tewariseorang profesor statistik dan ilmu komputer di University of Michigan, mengatakan kepada Live Science. “Mereka masih beroperasi di bawah paradigma dominan model yang sangat besar (100 -an miliaran parameter) pada dataset yang sangat besar (triliunan token) dengan anggaran yang sangat besar.”
Jika kita mengambil klaim Deepseek pada nilai nominal, kata Tewari, inovasi utama untuk pendekatan perusahaan adalah bagaimana ia menggunakan modelnya yang besar dan kuat untuk berjalan sama baiknya dengan sistem lain sambil menggunakan sumber daya yang lebih sedikit.
Kunci dari ini adalah sistem “campuran-ekspert” yang membagi model Deepseek menjadi submodel masing-masing yang berspesialisasi dalam tugas atau tipe data tertentu. Ini disertai dengan sistem penahan beban yang, alih-alih menerapkan penalti keseluruhan untuk memperlambat sistem yang terbebani seperti model lainnya, secara dinamis menggeser tugas dari submodel yang terlalu banyak bekerja ke submodel yang kurang bekerja.
“[This] berarti bahwa meskipun model V3 memiliki 671 miliar parameter, hanya 37 miliar yang sebenarnya diaktifkan untuk setiap token yang diberikan, “kata Tewari. Token mengacu pada unit pemrosesan dalam model bahasa besar (LLM), setara dengan sepotong teks.
Memajukan keseimbangan beban ini adalah teknik yang dikenal sebagai “penskalaan komputasi waktu inferensi,” sebuah dial dalam model Deepseek yang landai dialokasikan komputasi ke atas atau ke bawah untuk mencocokkan kompleksitas tugas yang ditugaskan.
Efisiensi ini meluas ke pelatihan model Deepseek, yang dikutip oleh para ahli sebagai konsekuensi yang tidak diinginkan dari pembatasan ekspor AS. CinaAkses ke chip H100 yang canggih dari NVIDIA terbatas, sehingga Deepseek mengklaim itu malah membangun modelnya menggunakan chip H800, yang memiliki berkurangnya laju transfer data chip-ke-chip. NVIDIA merancang chip “lebih lemah” ini pada tahun 2023 khususnya untuk menghindari kontrol ekspor.
Jenis model bahasa besar yang lebih efisien
Kebutuhan untuk menggunakan chip yang kurang kuat ini memaksa Deepseek untuk membuat terobosan signifikan lainnya: kerangka presisi campurannya. Alih-alih mewakili semua bobot modelnya (angka-angka yang menetapkan kekuatan hubungan antara neuron buatan model AI) menggunakan angka floating point 32-bit (FP32), ia melatih bagian dari modelnya dengan 8-bit yang kurang sesuai dengan yang kurang sesuai Angka (FP8), beralih hanya ke 32 bit untuk perhitungan yang lebih sulit di mana akurasi penting.
“Ini memungkinkan pelatihan yang lebih cepat dengan sumber daya komputasi yang lebih sedikit,” Thomas Caoseorang profesor kebijakan teknologi di Universitas Tufts, mengatakan kepada Live Science. “Deepseek juga telah menyempurnakan hampir setiap langkah dari pipa pelatihannya – pemuatan data, strategi paralelisasi, dan optimasi memori – sehingga mencapai efisiensi yang sangat tinggi dalam praktiknya.”
Demikian pula, sementara itu umum untuk melatih model AI menggunakan label yang disediakan manusia untuk mencetak keakuratan jawaban dan penalaran, penalaran R1 tidak diawasi. Ini hanya menggunakan kebenaran jawaban akhir dalam tugas -tugas seperti matematika dan pengkodean untuk sinyal hadiahnya, yang membebaskan sumber daya pelatihan untuk digunakan di tempat lain.
Semua ini menambah sepasang model yang sangat efisien. Sementara biaya pelatihan pesaing Deepseek bertemu puluhan juta hingga ratusan juta dolar dan sering memakan waktu beberapa bulan, perwakilan Deepseek mengatakan perusahaan melatih V3 dalam dua bulan hanya dengan $ 5,58 juta. Biaya operasional Deepseek V3 sama rendahnya – 21 kali lebih murah untuk dijalankan dari Antropic's Claude 3.5 sonnet.
CAO berhati-hati untuk dicatat bahwa penelitian dan pengembangan Deepseek, yang mencakup perangkat kerasnya dan sejumlah besar percobaan coba-coba, berarti hampir pasti menghabiskan lebih dari angka $ 5,58 juta ini. Meskipun demikian, masih merupakan penurunan biaya yang cukup signifikan untuk menangkap pesaingnya dengan kaki datar.
Secara keseluruhan, para ahli AI mengatakan bahwa popularitas Deepseek kemungkinan merupakan positif bersih bagi industri, membawa biaya sumber daya selangit turun dan menurunkan hambatan masuk bagi para peneliti dan perusahaan. Ini juga bisa menciptakan ruang bagi lebih banyak pembuat chip daripada Nvidia untuk memasuki balapan. Namun itu juga datang dengan bahaya sendiri.
“Karena metode yang lebih murah, lebih efisien untuk mengembangkan model AI mutakhir menjadi tersedia untuk umum, mereka dapat memungkinkan lebih banyak peneliti di seluruh dunia untuk mengejar pengembangan LLM mutakhir, berpotensi mempercepat kemajuan ilmiah dan penciptaan aplikasi,” kata Cao. “Pada saat yang sama, penghalang yang lebih rendah untuk masuk ini menimbulkan tantangan peraturan baru-di luar hanya persaingan AS-China-tentang penyalahgunaan atau berpotensi mendadak efek AI canggih oleh aktor negara dan non-negara.”