Deepseek “Fantastic” tetapi bukan keajaiban, tidak dibangun dalam $ 5 juta: Laporkan

Karena platform media sosial dan pasar saham penuh dengan popularitas perusahaan AI baru Deepseek, sebuah laporan oleh Bernstein menyatakan bahwa Deepseek terlihat fantastis tetapi bukan keajaiban dan tidak dibangun dalam USD 5 juta.
Laporan ini membahas buzz di sekitar model Deepseek, terutama gagasan bahwa perusahaan membangun sesuatu yang sebanding dengan OpenAi hanya dengan USD 5 juta. Menurut laporan itu, klaim ini menyesatkan dan tidak mencerminkan gambaran lengkapnya.
Dikatakan bahwa “kami percaya bahwa Deepseek tidak” membangun openai untuk USD 5m “; model-modelnya terlihat fantastis tetapi kami tidak berpikir mereka adalah keajaiban; dan kepanikan twitter-verse yang dihasilkan selama akhir pekan tampaknya berlebihan”.
Laporan Bernstein menyatakan bahwa Deepseek telah mengembangkan dua keluarga utama model AI: 'Deepseek-V3' dan 'Deepseek R1'. Model V3 adalah model bahasa besar yang menggunakan arsitektur campuran-ekspert (MOE).
Pendekatan ini menggabungkan beberapa model yang lebih kecil untuk bekerja bersama, menghasilkan kinerja tinggi sambil menggunakan sumber daya komputasi yang secara signifikan lebih sedikit dibandingkan dengan model besar lainnya. Model V3 memiliki total parameter 671 miliar, dengan 37 miliar aktif pada waktu tertentu.
Ini juga menggabungkan teknik inovatif seperti Multi-Head Latent Attention (MHLA), yang mengurangi penggunaan memori, dan pelatihan presisi campuran menggunakan komputasi FP8, yang meningkatkan efisiensi.
Untuk melatih model V3, Deepseek menggunakan sekelompok 2.048 NVIDIA H800 GPU selama sekitar dua bulan, dengan total sekitar 2,7 juta jam GPU untuk pra-pelatihan dan 2,8 juta jam GPU termasuk pasca-pelatihan.
Sementara beberapa telah memperkirakan biaya pelatihan ini di sekitar USD 5 juta berdasarkan USD 2 per tarif sewa jam GPU, laporan tersebut menunjukkan bahwa angka ini tidak memperhitungkan penelitian, eksperimen, dan biaya lain yang luas yang terlibat dalam pengembangan model.
Model kedua, 'Deepseek R1', dibangun di atas Foundation V3 tetapi menggunakan Penguatan Penguatan (RL) dan teknik lain untuk secara signifikan meningkatkan kemampuan penalaran. Model R1 sangat mengesankan, melakukan kompetitif terhadap model Openai dalam tugas penalaran.
Namun, laporan tersebut mencatat bahwa sumber daya tambahan yang diperlukan untuk mengembangkan R1 kemungkinan besar, meskipun tidak dikuantifikasi dalam makalah penelitian perusahaan.
Terlepas dari hype, laporan itu menekankan bahwa model Deepseek memang mengesankan. Model V3, misalnya, berkinerja sebaik atau lebih baik daripada model besar lainnya pada bahasa, pengkodean, dan tolok ukur matematika sambil hanya menggunakan sebagian kecil dari sumber daya komputasi.
Misalnya, pra-pelatihan V3 membutuhkan sekitar 2,7 juta jam GPU, yang hanya 9 persen dari sumber daya komputasi yang diperlukan untuk melatih beberapa model terkemuka lainnya.
Sebagai kesimpulan, laporan tersebut menguraikan bahwa sementara pencapaian Deepseek luar biasa, kepanikan dan klaim berlebihan tentang membangun pesaing openai untuk USD 5 juta adalah berlebihan.
(Kecuali untuk tajuk utama, cerita ini belum diedit oleh staf NDTV dan diterbitkan dari feed sindikasi.)