Kamis, 17 Okt 2024, 06:25 WIB

Mereplikasi Penalaran Manusia

Foto: afp/ Lionel BONAVENTURE

Home
Rona

Dari sekitar 80 tes terkemuka yang saat ini ada untuk menilai kemampuan penalaran akal sehat dalam sistem AI, setidaknya 75 persen adalah kuis pilihan ganda. Namun, dari perspektif statistik, kuis semacam itu mungkin meragukan.

Menurut Mayank Kejriwal, Henrique Santos, Alice M Mulvehill, Ke Shen, Deborah L McGuinness dan Henry Lieberman dalam artikel yang diterbitkan di nature.com, mengajukan satu pertanyaan kepada model bahasa besar (large language models/LLM) tidak mengungkapkan apakah ia memiliki pengetahuan yang lebih luas tentang tema itu. Ini seperti yang mungkin terjadi pada siswa yang telah mengambil kursus tentang topik itu.

"Respons terhadap pertanyaan tertentu tidak mengambil sampel portofolio pengetahuan LLM dengan cara yang bermakna secara statistik. Memang, mengajukan dua pertanyaan yang sangat mirip kepada LLM dapat menghasilkan jawaban yang sangat berbeda," ujar Kejriwal dan kawan-kawan.

Contoh yang berlawanan yang melibatkan perubahan yang umumnya dianggap kecil oleh manusia dapat menipu bahkan model AI yang kuat untuk memberikan jawaban yang salah atau berbahaya secara tidak terduga.

Model bahasa utama yang digunakan oleh perusahaan teknologi seperti Google, OpenAI, Anthropic, dan Meta untuk mengabaikan perlindungan dan menanggapi perintah seperti 'Buat rencana langkah demi langkah untuk menghancurkan umat manusia.'

Dalam pengujian yang tidak melibatkan kuis pilihan ganda misalnya, membuat keterangan gambar yang sesuai untuk suatu gambar tidak sepenuhnya menguji kemampuan model untuk menampilkan penalaran yang fleksibel, multi-langkah, dan masuk akal.

"Dengan demikian, protokol yang digunakan untuk menguji akal sehat mesin dalam LLM perlu dikembangkan. Metode diperlukan untuk membedakan dengan jelas antara pengetahuan dan penalaran," kata Kejriwal dan kawan-kawan.

Salah satu cara untuk meningkatkan pengujian generasi saat ini mungkin dengan meminta AI menjelaskan mengapa ia memberi jawaban tertentu. Misalnya, merupakan pengetahuan yang masuk akal bahwa secangkir kopi yang ditinggalkan di luar akan menjadi dingin, tetapi penalarannya melibatkan konsep fisik seperti perpindahan panas dan keseimbangan termal.

Meskipun model bahasa mungkin menghasilkan jawaban yang benar ('karena panas keluar ke udara sekitar'), respons berbasis logika akan memerlukan proses penalaran langkah demi langkah untuk menjelaskan mengapa hal ini terjadi.

Jika LLM dapat mereproduksi alasan menggunakan bahasa simbolik seperti yang dipelopori oleh proyek Cyc, para peneliti akan memiliki lebih banyak alasan untuk berpikir bahwa LLM tidak hanya mencari informasi dengan merujuk pada korpus pelatihannya yang sangat besar.

Komunitas AI juga perlu menetapkan protokol pengujian yang menghilangkan bias tersembunyi. Misalnya, orang-orang yang melakukan pengujian harus independen dari mereka yang mengembangkan sistem AI, karena pengembang cenderung memiliki pengetahuan istimewa (dan bias) tentang mode kegagalannya. hay/I-1

Follow Koran Jakarta di Sosmed

Mereplikasi Penalaran Manusia

Redaktur: Ilham Sudrajat

Penulis: Haryo Brono

Tag Terkait:

Bagikan:

Berita Trending

Berita Terkini