Nasional Mondial Ekonomi Megapolitan Olahraga Rona The Alun-Alun Kupas Splash Wisata Perspektif Wawancara Edisi Weekend Foto Video Infografis

Microsoft Kembangkan Generator Ucapan AI yang Sangat Mirip Suara Manusia hingga Tidak Berani Merilisnya

Foto : Istimewa

VALL-E 2 adalah generator text-to-speech (TTS) yang dapat mereproduksi suara pembicara manusia hanya dengan beberapa detik audio.

A   A   A   Pengaturan Font

Para peneliti menggunakan sampel audio dari perpustakaan ucapan LibriSpeech dan VCTK untuk menilai seberapa cocok VALL-E 2 dengan rekaman pembicara manusia. Mereka juga menggunakan ELLA-V kerangka evaluasi yang dirancang untuk mengukur keakuratan dan kualitas ucapan yang dihasilkan untuk menentukan seberapa efektif VALL-E 2 menangani tugas-tugas pembuatan ucapan yang lebih kompleks.

"Percobaan kami, yang dilakukan pada kumpulan data LibriSpeech dan VCTK, telah menunjukkan bahwa VALL-E 2 melampaui sistem TTS zero-shot sebelumnya dalam ketahanan ucapan, kealamian, dan kesamaan pembicara," tulis para peneliti.

"Ini adalah yang pertama mencapai kesetaraan manusia berdasarkan tolok ukur ini."

Para peneliti menunjukkan dalam makalahnya bahwa kualitas keluaran VALL-E 2 bergantung pada panjang dan kualitas perintah bicara, serta faktor lingkungan seperti kebisingan latar belakang.

Murni proyek penelitian
Halaman Selanjutnya....


Redaktur : Selocahyo Basoeki Utomo S
Penulis : Selocahyo Basoeki Utomo S

Komentar

Komentar
()

Top