Iklan — Scroll ke bawah untuk melanjutkan

Microsoft Kembangkan Generator Ucapan AI yang Sangat Mirip Suara Manusia hingga Tidak Berani Merilisnya

📅 Rabu, 10 Jul 2024, 20:56 WIB | Oleh:
Microsoft Kembangkan Generator Ucapan AI yang Sangat Mirip Suara Manusia hingga Tidak Berani Merilisnya Doc: Istimewa
Ket. VALL-E 2 adalah generator text-to-speech (TTS) yang dapat mereproduksi suara pembicara manusia hanya dengan beberapa detik audio.

REDMOND - Perusahaan teknologi dari Amerika Serikat, Microsoft, baru-baru ini mengembangkan generator ucapan kecerdasan buatan atau artificial intelligence
(AI) baru, yang sangat canggih sehingga belum dapat dirilis ke publik.

Dikutip dari Live Science, VALL-E 2 adalah generator text-to-speech (TTS) yang dapat mereproduksi suara pembicara manusia hanya dengan beberapa detik audio.

"VALL-E 2 mampu menghasilkan "ucapan yang akurat dan alami dengan suara yang sama persis dengan suara pembicara aslinya, sebanding dengan kinerja manusia," kata eneliti Microsoft dalam sebuah makalah yang muncul pada 17 Juni di server pra-cetak arXiv.

Dengan kata lain, generator suara AI yang baru cukup meyakinkan untuk disalahartikan sebagai orang sungguhan, setidaknya menurut penciptanya.

"VALL-E 2 adalah kemajuan terbaru dalam model bahasa codec saraf yang menandai tonggak sejarah dalam sintesis text-to-speech (TTS) zero-shot, yang mencapai paritas manusia untuk pertama kalinya," tulis para peneliti dalam makalah tersebut.

"Selain itu, VALL-E 2 secara konsisten
menyintesis ucapan berkualitas tinggi, bahkan untuk kalimat-kalimat yang biasanya menantang karena kerumitannya atau frasa yang berulang."

Paritas manusia dalam konteks ini berarti bahwa ucapan yang dihasilkan oleh VALL-E 2 cocok atau melampaui kualitas ucapan manusia dalam tolok ukur yang digunakan oleh Microsoft.

Mesin AI mampu melakukan hal ini dengan disertakannya dua fitur utama: "Pengambilan Sampel Sadar Pengulangan" dan "Pemodelan Kode yang Dikelompokkan".

Pengambilan Sampel Sadar Pengulangan meningkatkan cara AI mengubah teks menjadi ucapan dengan mengatasi pengulangan "token" unit kecil bahasa, seperti kata atau bagian kata, mencegah pengulangan suara atau frasa tanpa batas selama proses penguraian kode. Dengan kata lain, fitur ini membantu memvariasikan pola bicara VALL-E 2, sehingga terdengar lebih lancar dan alami.

Sementara itu, Pemodelan Kode yang Dikelompokkan meningkatkan efisiensi dengan mengurangi panjang urutan, atau jumlah token individual yang diproses model dalam satu urutan masukan. Hal ini mempercepat seberapa cepat VALL-E 2 menghasilkan ucapan dan membantu mengatasi kesulitan yang timbul saat memproses rangkaian suara yang panjang.

Para peneliti menggunakan sampel audio dari perpustakaan ucapan LibriSpeech dan VCTK untuk menilai seberapa cocok VALL-E 2 dengan rekaman pembicara manusia. Mereka juga menggunakan ELLA-V kerangka evaluasi yang dirancang untuk mengukur keakuratan dan kualitas ucapan yang dihasilkan untuk menentukan seberapa efektif VALL-E 2 menangani tugas-tugas pembuatan ucapan yang lebih kompleks.

"Percobaan kami, yang dilakukan pada kumpulan data LibriSpeech dan VCTK, telah menunjukkan bahwa VALL-E 2 melampaui sistem TTS zero-shot sebelumnya dalam ketahanan ucapan, kealamian, dan kesamaan pembicara," tulis para peneliti.

"Ini adalah yang pertama mencapai kesetaraan manusia berdasarkan tolok ukur ini."

Para peneliti menunjukkan dalam makalahnya bahwa kualitas keluaran VALL-E 2 bergantung pada panjang dan kualitas perintah bicara, serta faktor lingkungan seperti kebisingan latar belakang.

Like, Share, Comment:

Komentar (0)

Belum ada komentar.

Kirim

Silakan login via Google untuk dapat memberi komentar!

Google Login dengan Google

Operasi uji emisi kendaraan di Tangerang

24 menit yang lalu | Wahyu AP

Megapolitan
Operasi uji emisi kendaraan...
Megapolitan
Pemkot Jakut Vaksinasi Ribu...
Ekonomi
Industri sepatu rumahan kua...

Pelaksanaan program penghapusan bentor

29 menit yang lalu | Wahyu AP

Nasional
Pelaksanaan program penghap...
Megapolitan
Pemprov DKI gelar program o...
Megapolitan
Jelang Pertunjukkan Teater ...
  • Hunian Tamiang 4 Ditarget Rampung Juni 2026, Menteri PU Pastikan Tepat Waktu
    Preview komentar:
    Di bukit tempurung,kota kualasimpang,Dana perabot,ekonomi dan jadub aja ...
  • 39,7 Ton Sampah Diangkat dari Kali Sabi Tangerang
    Preview komentar:
    Bukan hanya di C2, C3 juga banyak yg ...
  • Jangan Asal Upload KTP dan NIK! Diskominfo Tangerang Peringatkan Risiko Penyalahgunaan Data.
    Preview komentar:
    Jika Pak RT meminta photovopy KK, guna pendataan, ...
Rupiah Tembus Rp18.000 per Dollar Pagi Ini, Dibayangi Tekanan Global dan Domestik

Rupiah Tembus Rp18.000 per Dollar Pagi Ini, Dibayangi Tekanan Global dan Domestik

04 Jun 2026
Pilihan Pembaca
Indeks Berita Populer +
Advertisement
logo kj
Kami mendeteksi AdBlocker di browser anda


Website kami bergantung pada iklan untuk terus dapat menghadirkan jurnalisme berkualitas. Dukung kami dengan mengijinkan iklan tampil di browser anda.

Silakan non-aktifkan AdBlocker dengan cara:
- Klik ikon AdBlock pada area ekstensi browser (di bagian pojok kanan atas).
- Lalu klik pilihan untuk menonaktifkan atau pilihan "Don't run on this website / on this page".

Setelah itu Refresh / Muat Ulang halaman ini.