AI2 mengatakan model AI barunya mengalahkan salah satu yang terbaik

Edward Gunawan January 30, 2025

0 1 minute read

Pindah, Deepseek. Ada juara AI baru di kota – dan mereka orang Amerika.

Pada hari Kamis, AI2, sebuah lembaga penelitian AI nirlaba yang berbasis di Seattle, merilis model yang mengklaim mengungguli Deepseek v3salah satu sistem terkemuka perusahaan AI China Deepseek.

Model AI2, yang disebut tulu3-405b, juga mengalahkan Openai GPT-4O pada tolok ukur AI tertentu, menurut pengujian internal AI2. Selain itu, tidak seperti GPT-4O (dan bahkan Deepseek v3), Tulu3-405b adalah open sourceyang berarti semua komponen yang diperlukan untuk mereplikasi dari awal tersedia secara bebas dan Berlisensi secara permisif.

Seorang juru bicara AI2 mengatakan kepada TechCrunch bahwa lab tersebut percaya Tulu3-405b “Menggarisbawahi Potensi AS untuk memimpin pengembangan global model AI generatif terbaik di kelasnya.”

“Tonggak sejarah ini adalah momen penting bagi masa depan AI terbuka, memperkuat posisi AS sebagai pemimpin dalam model kompetitif dan open-source,” kata juru bicara itu. “Dengan peluncuran ini, AI2 memperkenalkan alternatif yang kuat dan dikembangkan AS untuk model Deepseek-menandai momen penting tidak hanya dalam pengembangan AI, tetapi dalam menampilkan bahwa AS dapat memimpin dengan AI yang kompetitif dan open-source independen dari raksasa teknologi. “

Tulu3-405b adalah model yang agak besar. Berisi 405 miliar parameter, diperlukan 256 GPU yang berjalan secara paralel untuk berlatih, menurut AI2. Parameter secara kasar sesuai dengan keterampilan pemecahan masalah model, dan model dengan lebih banyak parameter umumnya berkinerja lebih baik daripada yang dengan parameter lebih sedikit.

AI2 menguji TULU3-405B pada sejumlah tolok ukur, termasuk tes matematika dan pengetahuan umum. Kredit gambar:Ai2

Menurut AI2, salah satu kunci untuk mencapai kinerja kompetitif dengan TULU3-405B adalah teknik yang disebut pembelajaran penguatan dengan imbalan yang dapat diverifikasi. Pembelajaran penguatan dengan imbalan yang dapat diverifikasi, atau RLVR, melatih model pada tugas dengan hasil yang “dapat diverifikasi”, seperti pemecahan masalah matematika dan instruksi berikut.

AI2 mengklaim bahwa pada patokan Popqa, seperangkat 14.000 pertanyaan pengetahuan khusus yang bersumber dari Wikipedia, Tulu3-405B mengalahkan tidak hanya Deepseek V3 dan GPT-4O, tetapi juga Llama Meta 3.1 405b model. TULU3-405B juga memiliki kinerja tertinggi dari model apa pun di kelasnya di GSM8K, tes yang berisi masalah kata matematika tingkat sekolah dasar.

Tulu3-405B IS tersedia untuk diuji melalui aplikasi web chatbot AI2, dan kode untuk melatih dan menyempurnakan model ada di github. Dapatkan saat panas-sebelum model AI unggulan yang memukuli tolok ukur berikutnya muncul.

Source

Edward Gunawan January 30, 2025

0 1 minute read