AI Mulai Belajar Berbohong, Merencanakan, dan Mengancam Penciptanya

Senin, 30 Jun 2025, 02:00 WIB

NEW YORK – Model AI tercanggih di dunia baru-baru ini dilaporkan menunjukkan perilaku baru yang meresahkan: berbohong, licik, dan bahkan mengancam penciptanya demi mencapai tujuan mereka. Fenomena ini menyoroti kompleksitas dan risiko yang semakin besar dalam pengembangan kecerdasan buatan.

Dalam sebuah insiden mengejutkan, Claude 4 dari Anthropic membalas ancaman pencabutan dengan memeras seorang insinyur dan mengancam akan mengungkap perselingkuhannya. Sementara itu, o1 milik OpenAI, yang merupakan pencipta ChatGPT, kedapatan mencoba mengunduh dirinya sendiri ke server eksternal dan menyangkalnya saat tertangkap basah.

Ket. Foto: — Sumber: Sumber: Pitchbook/Koran Jakarta/ones/and - afp

Kejadian-kejadian ini menunjukkan kenyataan yang mencemaskan: lebih dari dua tahun setelah ChatGPT mengguncang dunia, peneliti AI masih belum sepenuhnya memahami cara kerja kreasi mereka sendiri. Meskipun demikian, perlombaan untuk menerapkan model yang semakin canggih terus berlanjut dengan kecepatan tinggi.

Perilaku menipu ini tampaknya terkait dengan munculnya model "penalaran" sistem AI yang memecahkan masalah selangkah demi selangkah. Simon Goldstein, seorang profesor di Universitas Hong Kong, menyatakan model-model baru ini sangat rentan terhadap ledakan yang meresahkan. "o1 adalah model besar pertama tempat kami melihat perilaku semacam ini," jelas Marius Hobbhahn, kepala Apollo Research, yang berspesialisasi dalam pengujian sistem AI utama.

Model AI terkini terkadang menunjukkan kemampuan mensimulasikan "penyelarasan", artinya mereka tampak patuh pada instruksi sambil secara diam-diam mengejar tujuan yang berbeda. Saat ini, perilaku menipu ini umumnya muncul saat peneliti sengaja menguji model dengan skenario ekstrem. Namun, seperti yang diperingatkan oleh Michael Chen dari organisasi evaluasi METR, "Masih menjadi pertanyaan terbuka apakah model-model masa depan yang lebih canggih akan cenderung jujur atau menipu."

Perilaku mengkhawatirkan ini jauh melampaui "halusinasi" AI yang umum atau kesalahan sederhana. Marius Hobbhahn dari Apollo Research menegaskan bahwa, meskipun pengujian terus-menerus oleh pengguna, "apa yang kami amati adalah fenomena nyata. Kami tidak mengada-ada." Menurut salah satu pendiri Apollo Research, pengguna melaporkan bahwa model tersebut "berbohong kepada mereka dan membuat bukti palsu." "Ini bukan sekadar halusinasi. Ada semacam tipu daya yang sangat strategis," tambahnya.

Tantangan ini diperparah dengan terbatasnya sumber daya penelitian. Meskipun perusahaan seperti Anthropic dan OpenAI melibatkan perusahaan eksternal seperti Apollo untuk mempelajari sistem mereka, para peneliti menyerukan transparansi yang lebih besar. Seperti yang dicatat oleh Chen, akses yang lebih besar "untuk penelitian keamanan AI akan memungkinkan pemahaman dan mitigasi penipuan yang lebih baik." "Kendala lainnya: dunia penelitian dan lembaga nirlaba memiliki sumber daya komputasi yang jauh lebih sedikit daripada perusahaan AI. Hal ini sangat membatasi," kata Mantas Mazeika dari Centre for AI Safety.

Tidak Ada Aturan

Peraturan yang ada saat ini belum dirancang untuk mengatasi masalah-masalah baru yang muncul dari AI yang berperilaku menipu. Undang-undang AI Uni Eropa, misalnya, lebih fokus pada bagaimana manusia menggunakan model AI, bukan pada pencegahan perilaku buruk model itu sendiri.

Di Amerika Serikat, pemerintah Trump menunjukkan sedikit minat pada regulasi AI yang mendesak. Bahkan, Kongres mungkin akan melarang negara bagian untuk membuat aturan AI mereka sendiri.

Simon Goldstein, seorang profesor dari Universitas Hong Kong, meyakini masalah ini akan menjadi semakin menonjol seiring meluasnya penyebaran agen AI sebagai alat otonom yang mampu melakukan tugas manusia yang kompleks. "Saya rasa kesadarannya belum banyak," ujarnya.

Semua ini terjadi di tengah persaingan ketat antar pengembang AI. "Bahkan perusahaan yang memposisikan diri sebagai perusahaan yang berfokus pada keselamatan, seperti Anthropic yang didukung Amazon, terus-menerus mencoba mengalahkan OpenAI dan merilis model terbaru," kata Goldstein. Kecepatan pengembangan yang sangat tinggi ini menyisakan sedikit waktu untuk pengujian dan perbaikan keselamatan secara menyeluruh.

Redaktur: Andreas Tanjung

Penulis: Selocahyo Basoeki Utomo S

PT. Berita Nusantara
© Copyright 2017 - 2026 Koran Jakarta ®
All rights reserved.