Antropik meluncurkan model AI baru yang 'berpikir' selama yang Anda inginkan

Antropik merilis model AI perbatasan baru yang disebut Claude 3.7 Sonnet, yang dirancang perusahaan untuk “berpikir” tentang pertanyaan selama pengguna menginginkannya.
Antropik menyebut Claude 3.7 soneta “model penalaran AI hibrida” pertama di industri ini, karena ini adalah model tunggal yang dapat memberikan jawaban waktu nyata dan lebih banyak yang dipertimbangkan, jawaban “dipikirkan” untuk pertanyaan. Pengguna dapat memilih apakah akan mengaktifkan kemampuan “penalaran” model AI, yang meminta Claude 3.7 sonnet untuk “berpikir” untuk jangka waktu yang singkat atau lama.
Model ini mewakili upaya antropik yang lebih luas untuk menyederhanakan pengalaman pengguna di sekitar produk AI -nya. Sebagian besar chatbots AI saat ini memiliki pemetik model yang menakutkan yang memaksa pengguna untuk memilih dari beberapa opsi berbeda yang bervariasi dalam biaya dan kemampuan. Laboratorium seperti antropik lebih suka Anda tidak perlu memikirkannya – idealnya, satu model melakukan semua pekerjaan.
Claude 3.7 Sonnet diluncurkan ke semua pengguna dan pengembang pada hari Senin, kata Anthropic, tetapi hanya orang yang membayar paket chatbot Claude Premium Anthropic akan mendapatkan akses ke fitur penalaran model. Pengguna Claude Gratis akan mendapatkan versi standar dan non-reason dari Claude 3.7 Sonnet, yang klaim antropik mengungguli model AI perbatasan sebelumnya, Claude 3.5 Sonnet. (Ya, perusahaan melewatkan nomor.)
Claude 3.7 sonnet berharga $ 3 per juta input token (artinya Anda bisa memasukkan sekitar 750.000 kata, lebih banyak kata daripada seluruh seri “Lord of the Rings”, ke dalam Claude seharga $ 3) dan $ 15 per juta token output. Itu membuatnya lebih mahal daripada Openai O3-Mini ($ 1,10 per 1 juta token input/$ 4,40 per 1 juta token output) dan Deepseek's R1 (55 sen per 1 juta token input/$ 2,19 per 1 juta token output), tetapi perlu diingat bahwa itu O3-Mini dan R1 adalah model penalaran yang ketat-bukan hibrida seperti Claude 3.7 sonnet.
Claude 3.7 Sonnet adalah model AI pertama Anthropic yang dapat “beralasan,” sebuah teknik Banyak laboratorium AI telah beralih sebagai metode tradisional untuk meningkatkan kinerja lancip AI.
Model penalaran seperti O3-Mini, R1, Google's Gemini 2.0 Flash Thinking, dan Xai's Grok 3 (Think) menggunakan lebih banyak waktu dan daya komputasi sebelum menjawab pertanyaan. Model memecah masalah menjadi langkah -langkah yang lebih kecil, yang cenderung meningkatkan keakuratan jawaban akhir. Model penalaran tidak berpikir atau beralasan seperti manusia akan, tetapi proses mereka dimodelkan setelah dikurangi.
Akhirnya, antropik ingin Claude mencari tahu berapa lama itu harus “berpikir” tentang pertanyaan sendiri, tanpa membutuhkan pengguna untuk memilih kontrol terlebih dahulu, produk antropik dan pemimpin penelitian, Dianne Penn, mengatakan kepada TechCrunch dalam sebuah wawancara.
“Mirip dengan bagaimana manusia tidak memiliki dua otak terpisah untuk pertanyaan yang dapat dijawab segera versus yang membutuhkan pemikiran,” tulis Anthropic dalam a Posting Blog Dibagikan dengan TechCrunch, “Kami menganggap penalaran sebagai salah satu kemampuan yang seharusnya dimiliki oleh model perbatasan, agar terintegrasi dengan lancar dengan kemampuan lain, daripada sesuatu yang disediakan dalam model terpisah.”
Antropik mengatakan itu memungkinkan Claude 3.7 soneta untuk menunjukkan fase perencanaan internal melalui “bantalan goresan yang terlihat.” Penn mengatakan kepada pengguna TechCrunch akan melihat proses berpikir penuh Claude untuk sebagian besar petunjuk, tetapi beberapa porsi dapat dihapus untuk tujuan kepercayaan dan keselamatan.

Antropik mengatakan itu mengoptimalkan mode pemikiran Claude untuk tugas-tugas dunia nyata, seperti masalah pengkodean yang sulit atau tugas agen. Pengembang yang mengetuk API Anthropic dapat mengendalikan “anggaran” untuk berpikir, kecepatan perdagangan, dan biaya untuk kualitas jawaban.
Pada satu tes untuk mengukur tugas pengkodean kata nyata, swe-bench, claude 3,7 sonnet adalah 62,3% akurat, dibandingkan dengan model O3-mini Openai yang mencetak 49,3%. Pada tes lain untuk mengukur kemampuan model AI untuk berinteraksi dengan pengguna yang disimulasikan dan API eksternal dalam pengaturan ritel, tau-bench, Claude 3.7 sonnet mencetak 81,2%, dibandingkan dengan model O1 Openai yang mencetak 73,5%.
Antropik juga mengatakan Claude 3.7 Sonnet akan menolak untuk menjawab pertanyaan lebih jarang daripada model sebelumnya, mengklaim model tersebut mampu membuat perbedaan yang lebih bernuansa antara petunjuk berbahaya dan jinak. Antropik mengatakan mengurangi penolakan yang tidak perlu sebesar 45% dibandingkan dengan Claude 3,5 sonnet. Ini datang pada saat ketika Beberapa laboratorium AI lainnya memikirkan kembali pendekatan mereka untuk membatasi jawaban ai chatbot mereka.
Selain Claude 3.7 Sonnet, antropik juga merilis alat pengkodean agen yang disebut kode Claude. Meluncurkan sebagai pratinjau penelitian, alat ini memungkinkan pengembang menjalankan tugas -tugas tertentu melalui Claude langsung dari terminal mereka.
Dalam sebuah demo, karyawan antropik menunjukkan bagaimana kode Claude dapat menganalisis proyek pengkodean dengan perintah sederhana seperti, “Jelaskan struktur proyek ini. ” Menggunakan bahasa Inggris biasa di baris perintah, pengembang dapat memodifikasi basis kode. Kode Claude akan menjelaskan pengeditannya karena membuat perubahan, dan bahkan menguji proyek untuk kesalahan atau mendorongnya ke repositori GitHub.
Kode Claude pada awalnya akan tersedia untuk sejumlah besar pengguna berdasarkan “First Come, First Serve”, kata juru bicara antropik kepada TechCrunch.
Antropik melepaskan Claude 3.7 soneta pada saat AI Labs mengirimkan model AI baru dengan kecepatan tinggi. Antropik secara historis mengambil pendekatan yang lebih metodis dan berfokus pada keselamatan. Tapi kali ini, perusahaan ingin memimpin paket.
Untuk berapa lama, adalah pertanyaannya. Openai mungkin hampir merilis model AI hibrida sendiri; CEO perusahaan, Sam Altman, mengatakan akan tiba dalam “bulan.”