Nasional Mondial Ekonomi Megapolitan Olahraga Rona The Alun-Alun Kupas Splash Wisata Perspektif Wawancara Edisi Weekend Foto Video Infografis

Microsoft Kembangkan Generator Ucapan AI yang Sangat Mirip Suara Manusia hingga Tidak Berani Merilisnya

Foto : Istimewa

VALL-E 2 adalah generator text-to-speech (TTS) yang dapat mereproduksi suara pembicara manusia hanya dengan beberapa detik audio.

A   A   A   Pengaturan Font

REDMOND - Perusahaan teknologi dari Amerika Serikat, Microsoft, baru-baru ini mengembangkan generator ucapan kecerdasan buatan atau artificial intelligence
(AI) baru, yang sangat canggih sehingga belum dapat dirilis ke publik.

Dikutip dari Live Science, VALL-E 2 adalah generator text-to-speech (TTS) yang dapat mereproduksi suara pembicara manusia hanya dengan beberapa detik audio.

"VALL-E 2 mampu menghasilkan "ucapan yang akurat dan alami dengan suara yang sama persis dengan suara pembicara aslinya, sebanding dengan kinerja manusia," kata eneliti Microsoft dalam sebuah makalah yang muncul pada 17 Juni di server pra-cetak arXiv.

Dengan kata lain, generator suara AI yang baru cukup meyakinkan untuk disalahartikan sebagai orang sungguhan, setidaknya menurut penciptanya.

"VALL-E 2 adalah kemajuan terbaru dalam model bahasa codec saraf yang menandai tonggak sejarah dalam sintesis text-to-speech (TTS) zero-shot, yang mencapai paritas manusia untuk pertama kalinya," tulis para peneliti dalam makalah tersebut.

"Selain itu, VALL-E 2 secara konsisten
menyintesis ucapan berkualitas tinggi, bahkan untuk kalimat-kalimat yang biasanya menantang karena kerumitannya atau frasa yang berulang."

Paritas manusia dalam konteks ini berarti bahwa ucapan yang dihasilkan oleh VALL-E 2 cocok atau melampaui kualitas ucapan manusia dalam tolok ukur yang digunakan oleh Microsoft.

Mesin AI mampu melakukan hal ini dengan disertakannya dua fitur utama: "Pengambilan Sampel Sadar Pengulangan" dan "Pemodelan Kode yang Dikelompokkan".

Pengambilan Sampel Sadar Pengulangan meningkatkan cara AI mengubah teks menjadi ucapan dengan mengatasi pengulangan "token" unit kecil bahasa, seperti kata atau bagian kata, mencegah pengulangan suara atau frasa tanpa batas selama proses penguraian kode. Dengan kata lain, fitur ini membantu memvariasikan pola bicara VALL-E 2, sehingga terdengar lebih lancar dan alami.

Sementara itu, Pemodelan Kode yang Dikelompokkan meningkatkan efisiensi dengan mengurangi panjang urutan, atau jumlah token individual yang diproses model dalam satu urutan masukan. Hal ini mempercepat seberapa cepat VALL-E 2 menghasilkan ucapan dan membantu mengatasi kesulitan yang timbul saat memproses rangkaian suara yang panjang.

Para peneliti menggunakan sampel audio dari perpustakaan ucapan LibriSpeech dan VCTK untuk menilai seberapa cocok VALL-E 2 dengan rekaman pembicara manusia. Mereka juga menggunakan ELLA-V kerangka evaluasi yang dirancang untuk mengukur keakuratan dan kualitas ucapan yang dihasilkan untuk menentukan seberapa efektif VALL-E 2 menangani tugas-tugas pembuatan ucapan yang lebih kompleks.

"Percobaan kami, yang dilakukan pada kumpulan data LibriSpeech dan VCTK, telah menunjukkan bahwa VALL-E 2 melampaui sistem TTS zero-shot sebelumnya dalam ketahanan ucapan, kealamian, dan kesamaan pembicara," tulis para peneliti.

"Ini adalah yang pertama mencapai kesetaraan manusia berdasarkan tolok ukur ini."

Para peneliti menunjukkan dalam makalahnya bahwa kualitas keluaran VALL-E 2 bergantung pada panjang dan kualitas perintah bicara, serta faktor lingkungan seperti kebisingan latar belakang.

Murni proyek penelitian

Terlepas dari kemampuannya, Microsoft tidak akan merilis VALL-E 2 ke publik karena potensi risiko penyalahgunaan. Hal ini bertepatan dengan meningkatnya kekhawatiran seputar kloning suara dan teknologi deepfake. Perusahaan AI lain seperti OpenAI telah menerapkan batasan serupa pada teknologi suara mereka.

"VALL-E 2 murni proyek penelitian. Saat ini, kami tidak memiliki rencana untuk memasukkan VALL-E 2 ke dalam produk atau memperluas akses ke publik," tulis para peneliti dalam postingan blog. "

Ini mungkin membawa risiko potensial dalam penyalahgunaan model, seperti memalsukan identifikasi suara atau meniru identitas pembicara tertentu."

Meskipun demikian, mereka berpendapat bahwa teknologi ucapan AI dapat diterapkan secara praktis di masa depan. "VALL-E 2 dapat mensintesis ucapan yang mempertahankan identitas pembicara dan dapat digunakan untuk pembelajaran pendidikan, hiburan, jurnalistik, konten yang ditulis sendiri, fitur aksesibilitas, sistem respons suara interaktif, terjemahan, chatbot, dan sebagainya," tambah para peneliti.

"Jika model tersebut digeneralisasikan ke pembicara yang tidak terlihat di dunia nyata, model tersebut harus menyertakan protokol untuk memastikan bahwa pembicara menyetujui penggunaan suaranya dan model deteksi ucapan yang disintesis."


Redaktur : Selocahyo Basoeki Utomo S
Penulis : Selocahyo Basoeki Utomo S

Komentar

Komentar
()

Top