AI Mengikis Privasi: Bagaimana Perusahaan Kumpulkan Data Latihan Secara Tersembunyi
📅 Senin, 30 Jun 2025, 20:45 WIB | Oleh: Paundra Zakirulloh
Doc: Getty Images
JAKARTA - Perusahaan-perusahaan AI menyematkan crawler web untuk mengumpulkan data dalam jumlah besar dari internet tanpa izin eksplisit, sehingga menciptakan risiko kebocoran data dan pelanggaran terhadap ketentuan penggunaan sumber yang diambil. Praktik ini dipilih karena model generatif besar memerlukan dataset yang sangat luas untuk pelatihan, meski sering melanggar ketentuan layanan (ToS) dan mengganggu operasional situs web.
Contohnya, startup Anthropic disebut sebagai “the most aggressive scraper by far” yang memicu lalu lintas tinggi pada situs seperti Freelancer.com dan iFixit.com, menyebabkan gangguan layanan sekaligus biaya bandwidth besar. Pengelola situs memutuskan memblokir crawler tersebut setelah upaya mencegah akses lewat robots.txt gagal menghentikannya.
Praktik scraping massal ini menimbulkan kekhawatiran serius terhadap privasi, karena model mungkin tanpa sengaja memasukkan informasi pribadi dalam output mereka. Studi audit menemukan bahwa dataset AI bisa jadi masih menyimpan data identitas yang seharusnya dihapus menunjukkan bahwa anggapan “publik berarti boleh dipakai” tidak cukup menjamin perlindungan privasi.
Permasalahan ini diperparah dengan minimnya transparansi dan kontrol pengguna atas data mereka. Walaupun ketentuan seperti GDPR di Eropa mengatur penggunaan data, di banyak jurisdiction crawler AI tetap dapat mengambil konten yang tersedia publik secara massal tanpa persetujuan, menciptakan praktik yang tidak etis meskipun legal secara teknis.
Beberapa perusahaan berusaha menanggapi kekhawatiran ini dengan mematuhi protokol teknis, misalnya mengikuti robots.txt, menghindari dampak besar, atau membatasi penarikan data. Namun, efektivitas langkah ini masih dipertanyakan karena sebagian pengelola situs tetap melaporkan kerugian operasional besar akibat crawler yang tidak memperhatikan batasan akses.
Sebaiknya Anda baca juga:
Kritikus menuntut pembuatan regulasi baru yang membatasi scraping tanpa izin, serta transparansi dalam bentuk laporan penggunaan data latihan dan opsi opt-out yang jelas. Audit dataset secara berkala juga diusulkan agar data pribadi tidak terekam dalam model, sementara penggunaan data publik harus diredefinisi untuk melindungi privasi pengguna.
Intinya, peningkatan regulasi diperlukan untuk mengimbangi laju pertumbuhan teknologi AI. Tanpa intervensi hukum dan standar teknologi yang jelas, risiko penyalahgunaan data akan terus meningkat, merusak kepercayaan publik serta mendorong tuntutan hukum dan pengawasan lebih ketat dari pemerintah internasional.
Website kami bergantung pada iklan untuk terus dapat menghadirkan jurnalisme berkualitas.
Dukung kami dengan mengijinkan iklan tampil di browser anda.
- Klik ikon AdBlock pada area ekstensi browser (di bagian pojok kanan atas).
- Lalu klik pilihan untuk menonaktifkan atau pilihan "Don't run on this website / on this page".
Setelah itu Refresh / Muat Ulang halaman ini.
Komentar (0)
Belum ada komentar.
Silakan login via Google untuk dapat memberi komentar!