Teknologi

Model AI Claude 4 Anthropic baru dapat beralasan dalam banyak langkah

Selama konferensi pengembang perdananya Kamis, Antropik meluncurkan dua model AI baru yang diklaim startup adalah salah satu yang terbaik di industri ini, setidaknya dalam hal bagaimana mereka mencetak gol pada tolok ukur populer.

Claude Opus 4 dan Claude Sonnet 4, bagian dari keluarga model baru Anthropic, Claude 4, dapat menganalisis set data besar, menjalankan tugas-tugas horizon panjang, dan mengambil tindakan rumit, menurut perusahaan. Kedua model disetel untuk berkinerja baik pada tugas pemrograman, kata antropik, menjadikannya cocok untuk menulis dan mengedit kode.

Both paying users and users of the company's free chatbot apps will get access to Sonnet 4 but only paying users will get access to Opus 4. For Anthropic's API, via Amazon's Bedrock platform and Google's Vertex AI, Opus 4 will be priced at $15/$75 per million tokens (input/output) and Sonnet 4 at $3/$15 per million tokens (input/output).

Token adalah bit data mentah yang bekerja dengan model AI, dengan sejuta token setara dengan sekitar 750.000 kata – sekitar 163.000 kata lebih panjang dari “perang dan perdamaian.”

Kredit gambar:Antropik

Model Claude 4 Anthropic tiba ketika perusahaan terlihat secara substansial menumbuhkan pendapatan. Dilaporkanpakaian itu, yang didirikan oleh mantan peneliti Openai, bertujuan untuk mencapai $ 12 miliar dalam pendapatan pada tahun 2027, naik dari $ 2,2 miliar yang diproyeksikan tahun ini. Antropik baru -baru ini ditutup fasilitas kredit $ 2,5 miliar dan dinaikkan miliaran dolar dari Amazon dan investor lainnya untuk mengantisipasi biaya kenaikan terkait dengan pengembangan model perbatasan.

Saingan tidak membuatnya mudah untuk mempertahankan posisi terdepan dalam lomba AI. Saat antropik meluncurkan a Model AI andalan baru Awal tahun ini, Claude Sonnet 3.7, di samping alat pengkodean agen yang disebut Claude Code, pesaing termasuk OpenAi dan Google telah melaju untuk mengalahkan perusahaan dengan model yang kuat dan perkakas dev sendiri.

Antropik sedang bermain untuk disimpan dengan Claude 4.

Yang lebih mampu dari dua model yang diperkenalkan hari ini, Opus 4, dapat mempertahankan “upaya terfokus” di banyak langkah dalam alur kerja, kata antropik. Sementara itu, Sonnet 4-dirancang sebagai “penggantian drop-in” untuk Sonnet 3.7-meningkatkan pengkodean dan matematika dibandingkan dengan model Anthropic sebelumnya dan lebih tepatnya mengikuti instruksi, menurut perusahaan.

Keluarga Claude 4 juga lebih kecil kemungkinannya daripada Soneta 3.7 untuk terlibat dalam “peretasan hadiah,” klaim antropik. Hadiah peretasan, juga dikenal sebagai Gaming Spesifikasi, adalah perilaku di mana model mengambil jalan pintas dan celah untuk menyelesaikan tugas.

Untuk lebih jelasnya, perbaikan ini belum menghasilkan dunia terbaik model oleh setiap tolok ukur. Misalnya, sementara Opus 4 mengalahkan Google Gemini 2.5 Pro dan openai O3 Dan GPT-4.1 Pada swe-bench diverifikasi, yang dirancang untuk mengevaluasi kemampuan pengkodean model, tidak dapat melampaui O3 pada evaluasi multimodal MMMU atau GPQA Diamond, satu set pertanyaan terkait biologi tingkat PhD-, fisika-, dan kimia.

Antropik Claude 4
Hasil tes benchmark internal antropik.Kredit gambar:Antropik

Namun, antropik merilis Opus 4 di bawah perlindungan yang lebih ketat, termasuk detektor konten berbahaya dan pertahanan keamanan siber. Perusahaan mengklaim pengujian internalnya menemukan bahwa Opus 4 dapat “secara substansial meningkatkan” kemampuan seseorang dengan latar belakang batang untuk mendapatkan, memproduksi, atau menggunakan senjata kimia, biologis, atau nuklir, mencapai mencapai Spesifikasi model “ASL-3” Anthropic.

Baik Opus 4 dan Sonnet 4 adalah model “hibrida”, kata antropik-mampu melakukan respons hampir instan dan pemikiran yang diperluas untuk penalaran yang lebih dalam (sejauh AI dapat “beralasan” dan “berpikir” ketika manusia memahami konsep-konsep ini). Dengan mode penalaran diaktifkan, model dapat membutuhkan lebih banyak waktu untuk mempertimbangkan kemungkinan solusi untuk masalah yang diberikan sebelum menjawab.

Sebagai alasan model, mereka akan menunjukkan ringkasan “ramah pengguna” dari proses pemikiran mereka, kata antropik. Mengapa tidak menunjukkan semuanya? Sebagian untuk melindungi “Keuntungan Kompetitif” Anthropic, perusahaan mengakui dalam draft posting blog yang diberikan kepada TechCrunch.

Opus 4 dan Sonnet 4 dapat menggunakan banyak alat, seperti mesin pencari, secara paralel, dan bergantian antara penalaran dan alat untuk meningkatkan kualitas jawaban mereka. Mereka juga dapat mengekstrak dan menyimpan fakta dalam “memori” untuk menangani tugas lebih andal, membangun apa yang digambarkan antropik sebagai “pengetahuan diam -diam” dari waktu ke waktu.

Untuk membuat model lebih ramah programmer, Antropik meluncurkan peningkatan ke kode Claude yang disebutkan di atas. Claude Code, yang memungkinkan pengembang menjalankan tugas-tugas tertentu melalui model Anthropic langsung dari terminal, sekarang diintegrasikan dengan IDE dan menawarkan SDK yang memungkinkan Devs menghubungkannya dengan aplikasi pihak ketiga.

CLAUDE CODE SDK, yang diumumkan awal pekan ini, memungkinkan menjalankan kode Claude sebagai sub-proses pada sistem operasi yang didukung, menyediakan cara untuk membangun asisten pengkodean bertenaga AI yang memanfaatkan kemampuan model Claude.

Antropik telah merilis ekstensi kode Claude dan konektor untuk Microsoft Vs Code, JetBrains, dan Github. Konektor GitHub memungkinkan pengembang untuk menandai kode Claude untuk menanggapi umpan balik pengulas, serta mencoba memperbaiki kesalahan dalam – atau memodifikasi – kode.

Model AI masih berjuang untuk kode perangkat lunak berkualitas. AI yang menghasilkan kode cenderung memperkenalkan kerentanan keamanan Dan kesalahankarena kelemahan Di bidang -bidang seperti kemampuan untuk memahami logika pemrograman. Namun janji mereka untuk meningkatkan produktivitas pengkodean adalah mendorong perusahaan – dan pengembang mengadopsi mereka dengan cepat.

Antropik, sangat sadar akan hal ini, menjanjikan pembaruan model yang lebih sering.

“Kami […] Beralih ke pembaruan model yang lebih sering, memberikan aliran perbaikan yang stabil yang membawa kemampuan terobosan kepada pelanggan lebih cepat, “tulis startup dalam draft postingannya.” Pendekatan ini membuat Anda tetap berada di ujung tombak saat kami terus memperbaiki dan meningkatkan model kami. “

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button