Saya memperhatikan perkembangan menarik di bidang pengenalan suara. Sierra merilis secara terbuka μ-Bench — dataset multibahasa untuk evaluasi sistem ASR, dan ini tampak sebagai langkah yang cukup serius.



Intinya: kumpulan data ini mencakup 250 rekaman nyata dari layanan pelanggan dan 4270 klip audio yang diberi anotasi. Perbedaan utama dari benchmark yang ada adalah bahwa di sini tidak hanya bahasa Inggris. Mendukung lima bahasa — Inggris, Spanyol, Turki, Vietnam, dan Mandarin.

Yang sangat menarik adalah metrik baru UER (Tingkat Kesalahan Ucap). Metrik ini membedakan kesalahan yang mengubah makna pernyataan dari yang tidak merusak makna. Ini jauh lebih halus daripada metrik WER klasik, di mana semua kesalahan dihitung sama.

Berdasarkan hasil pengujian: Google Chirp-3 memimpin dalam akurasi, Deepgram Nova-3 paling cepat, tetapi tertinggal dalam multibahasa. Menarik untuk melihat bagaimana ini akan berkembang ke depannya.

Dataset dan tabel hasilnya sudah tersedia di Hugging Face, sehingga pengembang lain dapat bergabung dalam evaluasi. Tampaknya, μ-Bench menjadi standar baru untuk penilaian serius sistem ASR di lingkungan layanan pelanggan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan