Deep Cogito muncul dari stealth dengan model 'penalaran' hybrid AI

Perusahaan baru, Cogito yang dalamtelah muncul dari sembunyi-sembunyi dengan keluarga model AI yang tersedia secara terbuka yang dapat dialihkan antara mode “penalaran” dan tidak masuk akal.
Model penalaran seperti Openai o1 telah menunjukkan janji besar dalam domain seperti matematika dan fisika, berkat kemampuan mereka untuk secara efektif memeriksa diri mereka sendiri dengan bekerja melalui masalah kompleks selangkah demi selangkah. Alasan ini datang dengan biaya, bagaimanapun: komputasi dan latensi yang lebih tinggi. Itu sebabnya Laboratorium seperti antropik sedang mengejar arsitektur model “hibrida” yang menggabungkan komponen penalaran dengan elemen standar dan tidak masuk akal. Model hibrida dapat dengan cepat menjawab pertanyaan sederhana sambil menghabiskan waktu tambahan dengan mempertimbangkan pertanyaan yang lebih menantang.
Semua model Deep Cogito, yang disebut Cogito 1, adalah model hibrida. Cogito mengklaim bahwa mereka mengungguli model terbuka terbaik dengan ukuran yang sama, termasuk model dari meta dan startup AI Cina Deepseek.
“Setiap model dapat menjawab secara langsung […] atau merefleksikan diri sebelum menjawab (seperti model penalaran), ”perusahaan dijelaskan dalam posting blog. “[All] dikembangkan oleh tim kecil dalam waktu sekitar 75 hari. ”
Model Cogito 1 berkisar dari 3 miliar parameter hingga 70 miliar parameter, dan Cogito mengatakan bahwa model berkisar hingga 671 miliar parameter akan bergabung dengan mereka dalam beberapa minggu dan bulan mendatang. Parameter secara kasar sesuai dengan keterampilan pemecahan masalah model, dengan lebih banyak parameter umumnya lebih baik.
Cogito 1 tidak dikembangkan dari awal, agar jelas. Deep Cogito Dibangun di atas Meta Open Llama dan model Qwen Alibaba untuk membuatnya sendiri. Perusahaan mengatakan bahwa mereka menerapkan pendekatan pelatihan baru untuk meningkatkan kinerja model dasar dan memungkinkan penalaran yang dapat dilakukan.
Menurut hasil pembandingan internal Cogito, model Cogito 1 terbesar, Cogito 70B, dengan penalaran mengungguli model penalaran R1 Deepseek pada beberapa evaluasi matematika dan bahasa. Cogito 70b dengan penalaran dinonaktifkan juga Eclipses Meta Meta Llama 4 Scout yang baru-baru ini dirilis pada Livebench, uji AI tujuan umum.
Setiap model Cogito 1 tersedia untuk diunduh atau digunakan melalui API pada penyedia cloud Fireworks AI dan bersama -sama AI.
“Saat ini, kami masih dalam tahap awal [our] Kurva penskalaan, setelah hanya menggunakan sebagian kecil dari komputasi yang biasanya dicadangkan untuk pelatihan model bahasa tradisional besar/lanjutan, “tulis Cogito dalam posting blognya.” Bergerak maju, kami sedang menyelidiki pendekatan pasca pelatihan komplementer untuk perbaikan diri. “
Menurut pengajuan dengan negara bagian CaliforniaDeep Cogito yang berbasis di San Francisco didirikan pada Juni 2024. Perusahaan Halaman LinkedIn Daftar dua pendiri, Drishan Arora dan Dhruv Malhotra. Malhotra sebelumnya adalah manajer produk di Google AI Lab DeepMind, di mana ia bekerja pada teknologi pencarian generatif. Arora adalah insinyur perangkat lunak senior di Google.
Deep Cogito, yang pendukungnya termasuk South Park Commons, Menurut Pitchbookdengan ambisius bertujuan untuk membangun “pengawasan umum.” Pendiri perusahaan memahami frasa untuk berarti AI yang dapat melakukan tugas lebih baik daripada kebanyakan manusia dan “mengungkap kemampuan yang sama sekali baru yang belum kita bayangkan.”