ElevenLabs meluncurkan model ucapan-ke-teksnya sendiri

Edward Gunawan February 26, 2025

0 2 minutes read

ElevenLabs meluncurkan model ucapan-ke-teksnya sendiri

Elevenlabsstartup AI yang baru saja mengumpulkan a Putaran Pendanaan Mega $ 180 jutatelah dikenal karena kecakapan generasi audio. Perusahaan mengambil langkah ke arah teknologi lain dengan meluncurkan model ucapan-ke-teks mandiri pertama yang disebut Scribe.

Startup, senilai $ 3,3 miliartelah membantu banyak perusahaan lain dalam menyediakan layanan pidato-ke-teks melalui perpustakaan suara yang luas. Namun, perusahaan sekarang ingin masuk ke deteksi bicara dan bersaing dengan orang -orang seperti Pedang, Pidato, Assemblyai, Deepgramdan model bisikan Openai.

Model juru tulis ElevenLabs mendukung lebih dari 99 bahasa saat peluncuran. Perusahaan mengkategorikan lebih dari 25 bahasa dalam kategori akurasi yang sangat baik untuk model di mana tingkat kesalahan kata kurang dari 5%. Daftar ini termasuk bahasa Inggris (tingkat akurasi yang diklaim sebesar 97%), Prancis, Jerman, Hindi, Indonesia, Jepang, Kannada, Malayalam, Polandia, Portugis, Spanyol, dan Vietnam. Bahasa lain peringkat dalam kategori yang berbeda dengan tingkat kesalahan kata tinggi (5-10%), baik (10 hingga 20% tingkat kesalahan kata), dan tingkat kesalahan kata sedang (25 hingga 50%).

Perusahaan mengatakan bahwa model tersebut mengungguli Google Gemini 2.0 Flash dan membisikkan V3 besar di berbagai bahasa dalam tes Benchmark Fleurs & Common Voice.

ElevenLabs telah mengembangkan komponen ucapan-ke-teks untuk platform agen percakapan AI-nya, yang dirilis tahun lalu. Namun, ini adalah pertama kalinya Perusahaan ini merilis model deteksi ucapan mandiri. Dalam percakapan dengan TechCrunch bulan lalu, CEO Mati Staniszewski berbicara tentang peningkatan model deteksi wicara.

“Kami ingin memahami apa yang dikatakan oleh Anda dalam percakapan dengan lebih baik. Kami sedang mengerjakan cara untuk menjauh dari hanya menghasilkan konten dan pemahaman dan menyalin pidato, ”kata Staniszewski pada waktu itu. “Banyak orang mengatakan bahwa ucapan-ke-teks adalah masalah yang terpecahkan. Tetapi untuk banyak bahasa, itu sangat buruk. Kami pikir kami dapat membangun model deteksi wicara yang lebih baik karena kami memiliki tim in-house untuk memberi anotasi data dan memberi kami umpan balik cepat. ”

Model ini juga memiliki Diarization Speaker yang cerdas untuk memberi tahu Anda siapa yang berbicara, cap waktu di tingkat kata untuk subtitle yang akurat, dan acara suara yang menandai secara otomatis seperti penonton. Startup ini menyediakan cara bagi pelanggan untuk secara langsung menuliskan konten video untuk menambahkan subtitle atau teks di studionya.

Scribe saat ini hanya bekerja dengan format audio yang sudah direkam sebelumnya. Perusahaan mengatakan akan segera merilis versi real-time latensi rendah dari model tersebut. Itu berarti belum efektif untuk memenuhi transkripsi atau pengambilan catatan suara.

ElevenLabs adalah Penjahat Harga di $ 0,40 untuk satu jam audio yang ditranskripsikan. Sementara tarifnya kompetitif, beberapa saingannya Tawarkan harga yang lebih rendah untuk transkripsi audio saat ini dengan beberapa diferensiasi fitur.

Source

Edward Gunawan February 26, 2025

0 2 minutes read