Nasional Mondial Ekonomi Megapolitan Olahraga Rona The Alun-Alun Kupas Splash Wisata Perspektif Wawancara Edisi Weekend Foto Video Infografis

Microsoft Kembangkan Generator Ucapan AI yang Sangat Mirip Suara Manusia hingga Tidak Berani Merilisnya

Foto : Istimewa

VALL-E 2 adalah generator text-to-speech (TTS) yang dapat mereproduksi suara pembicara manusia hanya dengan beberapa detik audio.

A   A   A   Pengaturan Font

"Selain itu, VALL-E 2 secara konsisten
menyintesis ucapan berkualitas tinggi, bahkan untuk kalimat-kalimat yang biasanya menantang karena kerumitannya atau frasa yang berulang."

Paritas manusia dalam konteks ini berarti bahwa ucapan yang dihasilkan oleh VALL-E 2 cocok atau melampaui kualitas ucapan manusia dalam tolok ukur yang digunakan oleh Microsoft.

Mesin AI mampu melakukan hal ini dengan disertakannya dua fitur utama: "Pengambilan Sampel Sadar Pengulangan" dan "Pemodelan Kode yang Dikelompokkan".

Pengambilan Sampel Sadar Pengulangan meningkatkan cara AI mengubah teks menjadi ucapan dengan mengatasi pengulangan "token" unit kecil bahasa, seperti kata atau bagian kata, mencegah pengulangan suara atau frasa tanpa batas selama proses penguraian kode. Dengan kata lain, fitur ini membantu memvariasikan pola bicara VALL-E 2, sehingga terdengar lebih lancar dan alami.

Sementara itu, Pemodelan Kode yang Dikelompokkan meningkatkan efisiensi dengan mengurangi panjang urutan, atau jumlah token individual yang diproses model dalam satu urutan masukan. Hal ini mempercepat seberapa cepat VALL-E 2 menghasilkan ucapan dan membantu mengatasi kesulitan yang timbul saat memproses rangkaian suara yang panjang.
Halaman Selanjutnya....


Redaktur : Selocahyo Basoeki Utomo S
Penulis : Selocahyo Basoeki Utomo S

Komentar

Komentar
()

Top