Iklan — Scroll ke bawah untuk melanjutkan

DATA PRIBADI

AI Mengikis Privasi: Bagaimana Perusahaan Kumpulkan Data Latihan Secara Tersembunyi

📅 Senin, 30 Jun 2025, 20:45 WIB | Oleh: Paundra Zakirulloh

Doc: Getty Images

JAKARTA - Perusahaan-perusahaan AI menyematkan crawler web untuk mengumpulkan data dalam jumlah besar dari internet tanpa izin eksplisit, sehingga menciptakan risiko kebocoran data dan pelanggaran terhadap ketentuan penggunaan sumber yang diambil. Praktik ini dipilih karena model generatif besar memerlukan dataset yang sangat luas untuk pelatihan, meski sering melanggar ketentuan layanan (ToS) dan mengganggu operasional situs web.

Contohnya, startup Anthropic disebut sebagai “the most aggressive scraper by far” yang memicu lalu lintas tinggi pada situs seperti Freelancer.com dan iFixit.com, menyebabkan gangguan layanan sekaligus biaya bandwidth besar. Pengelola situs memutuskan memblokir crawler tersebut setelah upaya mencegah akses lewat robots.txt gagal menghentikannya.

Praktik scraping massal ini menimbulkan kekhawatiran serius terhadap privasi, karena model mungkin tanpa sengaja memasukkan informasi pribadi dalam output mereka. Studi audit menemukan bahwa dataset AI bisa jadi masih menyimpan data identitas yang seharusnya dihapus menunjukkan bahwa anggapan “publik berarti boleh dipakai” tidak cukup menjamin perlindungan privasi.

Permasalahan ini diperparah dengan minimnya transparansi dan kontrol pengguna atas data mereka. Walaupun ketentuan seperti GDPR di Eropa mengatur penggunaan data, di banyak jurisdiction crawler AI tetap dapat mengambil konten yang tersedia publik secara massal tanpa persetujuan, menciptakan praktik yang tidak etis meskipun legal secara teknis.

Beberapa perusahaan berusaha menanggapi kekhawatiran ini dengan mematuhi protokol teknis, misalnya mengikuti robots.txt, menghindari dampak besar, atau membatasi penarikan data. Namun, efektivitas langkah ini masih dipertanyakan karena sebagian pengelola situs tetap melaporkan kerugian operasional besar akibat crawler yang tidak memperhatikan batasan akses.

Sebaiknya Anda baca juga:

Kritikus menuntut pembuatan regulasi baru yang membatasi scraping tanpa izin, serta transparansi dalam bentuk laporan penggunaan data latihan dan opsi opt-out yang jelas. Audit dataset secara berkala juga diusulkan agar data pribadi tidak terekam dalam model, sementara penggunaan data publik harus diredefinisi untuk melindungi privasi pengguna.

Intinya, peningkatan regulasi diperlukan untuk mengimbangi laju pertumbuhan teknologi AI. Tanpa intervensi hukum dan standar teknologi yang jelas, risiko penyalahgunaan data akan terus meningkat, merusak kepercayaan publik serta mendorong tuntutan hukum dan pengawasan lebih ketat dari pemerintah internasional.

AI Mengikis Privasi: Bagaimana Perusahaan Kumpulkan Data Latihan Secara Tersembunyi

Tim Redaksi:

Paundra Zakirulloh

Penulis

Redaksi Koran Jakarta

Redaktur

Komentar (0)

Belum ada komentar.

Kirim

Silakan login via Google untuk dapat memberi komentar!

Berita Foto

Foto Lainnya +

PIALA DUNIA 2026

Spanyol ke Final Piala Dunia 2026, Pedro Porro: Mimpi Jadi Kenyataan

18 menit yang lalu | Sriyono

Olahraga

PIALA DUNIA 2026

Argentina Vs Inggris: Tim Tango Sesumbar Tak Rasakan Tekanan, tapi Akui Bakal Hadapi Laga Sulit

41 menit yang lalu | Sriyono

Olahraga

PIALA DUNIA 2026

Indeks Berita +

Norwegia Lolos Dramatis ke 16 Besar Piala Dunia usai Kalahkan Pantai Gading 2-1
Preview komentar:

Luar biasa. Tetap semangat dan terus bertahan Fervoma ...

Baca komentar selengkapnya →
Shell dan Pertamina Kompak Pangkas Harga BBM Per 1 Juli 2026, Intip Siapa Paling Murah!
Preview komentar:

Baca komentar selengkapnya →
Disnakertrans Cianjur: 42 PMI Alami Masalah di Negara Tujuan
Preview komentar:

Baca komentar selengkapnya →