Minggu ini di AI: Mungkin kita harus mengabaikan tolok ukur AI untuk saat ini

Selamat datang di buletin AI reguler TechCrunch! Kami akan jeda sebentar, tetapi Anda dapat menemukan semua liputan AI kami, termasuk kolom saya, analisis harian kami, dan berita terbaru, di TechCrunch. Jika Anda menginginkan cerita -cerita itu dan lebih banyak lagi di kotak masuk Anda setiap hari, daftar untuk buletin harian kami Di Sini.
Minggu ini, startup AI Miliarder Elon Musk, XAI, merilis model AI andalan terbarunya, Grok 3yang mendukung aplikasi Grok Chatbot perusahaan. Dilatih sekitar 200.000 GPU, model ini mengalahkan sejumlah model terkemuka lainnya, termasuk dari Openai, pada tolok ukur untuk matematika, pemrograman, dan banyak lagi.
Tapi apa yang sebenarnya dikatakan tolok ukur ini kepada kita?
Di sini, di TC, kami sering dengan enggan melaporkan angka benchmark karena mereka adalah salah satu dari sedikit (relatif) cara standar industri AI mengukur peningkatan model. Tolok ukur AI populer cenderung menguji pengetahuan esoteris, dan memberikan skor agregat yang berkorelasi buruk dengan kecakapan pada tugas yang sebagian besar orang pedulikan.
Seperti yang ditunjukkan oleh Profesor Wharton Ethan Mollick serangkaian posting di x Setelah pembukaan Grok 3 pada hari Senin, ada “kebutuhan mendesak untuk baterai tes yang lebih baik dan otoritas pengujian independen.” Perusahaan AI melaporkan hasil benchmark lebih sering daripada tidak, seperti yang disinggung oleh mollick, membuat hasil itu bahkan lebih keras untuk menerima pada nilai nominal.
“Tolok ukur publik sama -sama 'meh' dan jenuh, meninggalkan banyak tes AI untuk menjadi seperti ulasan makanan, berdasarkan rasa,” tulis Mollick. “Jika AI sangat penting untuk bekerja, kita membutuhkan lebih banyak.”
Tidak ada kekurangan mandiri tes Dan organisasi Mengusulkan tolok ukur baru untuk AI, tetapi jasa relatif mereka jauh dari masalah yang diselesaikan dalam industri. Beberapa komentator dan ahli AI mengusulkan Menyelaraskan tolok ukur dengan dampak ekonomi untuk memastikan kegunaannya, sementara orang lain berpendapat bahwa adopsi dan utilitas adalah tolok ukur utama.
Debat ini mungkin mengamuk sampai akhir zaman. Mungkin kita harus, sebaliknya, Seperti yang ditentukan oleh X USER ROONcukup kurang memperhatikan model baru dan tolok ukur melarang terobosan teknis utama AI. Untuk kewarasan kolektif kita, itu mungkin bukan ide terburuk, bahkan jika itu memang menginduksi beberapa tingkat AI FOMO.
Seperti disebutkan di atas, minggu ini di AI akan hiatus. Terima kasih telah bertahan bersama kami, pembaca, melalui roller coaster dari sebuah perjalanan ini. Sampai waktu berikutnya.
Berita
Openai mencoba untuk “uncensor” chatgpt: Max menulis tentang bagaimana Openai mengubah pendekatan pengembangan AI untuk secara eksplisit merangkul “kebebasan intelektual,” tidak peduli seberapa menantang atau kontroversial suatu topik suatu topik.
Startup baru Mira: Startup baru mantan Openai CTO Mira Murati, Laboratorium Mesin Berpikirbermaksud membangun alat untuk “membuat AI bekerja [people’s] kebutuhan dan tujuan yang unik. “
Grok 3 Cometh: Startup AI Elon Musk, XAI, telah merilis model AI andalan terbarunya, Grok 3, dan meluncurkan kemampuan baru untuk Aplikasi Grok untuk iOS dan Web.
Konferensi Llama: Meta akan menjadi tuan rumah konferensi pengembang pertamanya yang didedikasikan untuk AI generatif musim semi ini. Disebut Lamancon setelah keluarga Meta model AI generatif, konferensi ini dijadwalkan untuk 29 April.
Kedaulatan digital AI dan Eropa: Paul membuat profil Openeurollm, sebuah kolaborasi antara sekitar 20 organisasi untuk membangun “serangkaian model fondasi untuk AI transparan di Eropa” yang melestarikan “keragaman linguistik dan budaya” dari semua bahasa UE.
Makalah Penelitian Minggu Ini
Peneliti Openai telah membuat tolok ukur AI baru, Swe-lanceritu bertujuan untuk mengevaluasi kecakapan pengkodean sistem AI yang kuat. Benchmark terdiri dari lebih dari 1.400 tugas rekayasa perangkat lunak lepas yang berkisar dari perbaikan bug dan penyebaran fitur hingga proposal implementasi teknis “tingkat manajer”.
Menurut Openai, model AI berkinerja terbaik, Claude 3.5 sonnet Anthropic, skor 40,3% pada patokan SWE-Lancer lengkap-menunjukkan bahwa AI memiliki cukup banyak cara untuk pergi. Perlu dicatat bahwa para peneliti tidak membandingkan model yang lebih baru seperti Openai O3-Mini atau perusahaan AI Cina Deepseek's R1.
Model minggu ini
Perusahaan AI Cina bernama StepFun telah merilis model AI “terbuka”, Audio langkahItu dapat memahami dan menghasilkan pidato dalam beberapa bahasa. Step-Audio mendukung bahasa Cina, Inggris, dan Jepang dan memungkinkan pengguna menyesuaikan emosi dan bahkan dialek audio sintetis yang diciptakannya, termasuk bernyanyi.
StepFun adalah salah satu dari beberapa startup AI yang didanai dengan baik, Releasing Models di bawah lisensi permisif. Didirikan pada tahun 2023, Stepfun Dilaporkan baru -baru ini ditutup Putaran pendanaan senilai beberapa ratus juta dolar dari sejumlah investor yang mencakup perusahaan ekuitas swasta milik negara Cina.
Ambil tas
Nous Research, sebuah kelompok penelitian AI, memiliki dilepaskan Apa yang diklaimnya adalah salah satu model AI pertama yang menyatukan penalaran dan “kemampuan model bahasa intuitif.”
Model, pratinjau Deephermes-3, dapat mengaktifkan dan mematikan “rantai pemikiran” yang panjang untuk meningkatkan akurasi dengan biaya beberapa bobot komputasi. Dalam mode “penalaran”, pratinjau Deephermes-3, mirip dengan model AI penalaran lainnya, “berpikir” lebih lama untuk masalah yang lebih sulit dan menunjukkan proses pemikirannya sampai pada jawabannya.
Antropik dilaporkan berencana untuk segera merilis model yang serupa secara arsitekturdan Openai mengatakan model seperti itu di peta jalan jangka pendek.