Cohere mengklaim model AI Visi AI baru-baru ini adalah yang terbaik di kelasnya

Cohere untuk aiLab Penelitian Nirlaba AI Startup Cohere, minggu ini merilis model AI “terbuka” multimodal, AYA Vision, laboratorium yang diklaim adalah terbaik di kelasnya.
Aya Vision dapat melakukan tugas -tugas seperti menulis teks gambar, menjawab pertanyaan tentang foto, menerjemahkan teks, dan menghasilkan ringkasan dalam 23 bahasa utama. Cohere, yang juga membuat visi Aya tersedia secara gratis melalui WhatsApp, menyebutnya “langkah signifikan menuju membuat terobosan teknis dapat diakses oleh para peneliti di seluruh dunia.”
“Sementara AI telah membuat kemajuan yang signifikan, masih ada celah besar dalam seberapa baik model kinerja di berbagai bahasa – yang menjadi lebih terlihat dalam tugas multimodal yang melibatkan teks dan gambar,” tulis Cohere dalam a Posting Blog. “Aya Vision bertujuan untuk secara eksplisit membantu menutup celah itu.”
Aya Vision hadir dalam beberapa rasa: Aya Vision 32b dan Aya Vision 8B. Yang lebih canggih dari keduanya, Aya Vision 32B, menetapkan “perbatasan baru,” kata Cohere, mengungguli model 2x ukurannya termasuk Visi Meta Llama-3.2 90b pada tolok ukur pemahaman visual tertentu. Sementara itu, skor AYA Vision 8B lebih baik pada beberapa evaluasi daripada model 10x ukurannya, menurut Cohere.
Kedua model itu tersedia Dari platform AI dev memeluk wajah di bawah lisensi Creative Commons 4.0 Addendum penggunaan yang dapat diterima cohere. Mereka tidak dapat digunakan untuk aplikasi komersial.
Cohere mengatakan bahwa AYA Vision dilatih menggunakan “kumpulan beragam” kumpulan data bahasa Inggris, yang diterjemahkan dan digunakan laboratorium untuk membuat anotasi sintetis. Anotasi, juga dikenal sebagai tag atau label, membantu model memahami dan menafsirkan data selama proses pelatihan. Misalnya, anotasi untuk melatih model pengenalan gambar mungkin mengambil bentuk tanda di sekitar objek atau teks yang mengacu pada setiap orang, tempat, atau objek yang digambarkan dalam suatu gambar.
Penggunaan anotasi sintetis – yaitu anotasi yang dihasilkan oleh AI – sedang dalam tren. Meskipun potensi kerugiannyasaingan termasuk openai semakin memanfaatkan data sintetis untuk melatih model sebagai Data sumur dunia nyata mengering. Firma Penelitian Gartner perkiraan 60% data yang digunakan untuk proyek AI dan analitik tahun lalu dibuat secara sintetis.
Menurut Cohere, pelatihan visi AYA tentang anotasi sintetis memungkinkan lab untuk menggunakan sumber daya yang lebih sedikit sambil mencapai kinerja kompetitif.
“Ini menampilkan fokus kritis kami pada efisiensi dan [doing] Lebih banyak menggunakan lebih sedikit komputasi, ”tulis Cohere di blognya. “Ini juga memungkinkan dukungan yang lebih besar untuk komunitas penelitian, yang sering memiliki akses yang lebih terbatas untuk menghitung sumber daya.”
Bersama dengan AYA Vision, Cohere juga merilis rangkaian patokan baru, AyavisionBench, yang dirancang untuk menyelidiki keterampilan model dalam tugas “visi-bahasa” seperti mengidentifikasi perbedaan antara dua gambar dan mengubah tangkapan layar menjadi kode.
Industri AI berada di tengah -tengah apa yang oleh beberapa orang disebut sebagai “krisis evaluasi,” sebagai konsekuensi dari mempopulerkan tolok ukur bahwa Berikan skor agregat yang berkorelasi buruk dengan kemahiran Pada tugas yang paling diperhatikan oleh pengguna AI. Cohere menegaskan bahwa AyavisionBench adalah langkah menuju perbaikan ini, memberikan kerangka kerja yang “luas dan menantang” untuk menilai pemahaman lintas-bahasa dan multimoda model.
Dengan sedikit keberuntungan, memang demikian.
“[T]Dataset HE berfungsi sebagai tolok ukur yang kuat untuk mengevaluasi model bahasa penglihatan dalam pengaturan multibahasa dan dunia nyata, ”cohere peneliti menulis dalam sebuah posting di wajah memeluk. “Kami membuat set evaluasi ini tersedia untuk komunitas penelitian untuk mendorong evaluasi multimoda multibahasa.”