Mereplikasi Penalaran Manusia
Foto: afp/ Lionel BONAVENTUREDari sekitar 80 tes terkemuka yang saat ini ada untuk menilai kemampuan penalaran akal sehat dalam sistem AI, setidaknya 75 persen adalah kuis pilihan ganda. Namun, dari perspektif statistik, kuis semacam itu mungkin meragukan.
Menurut Mayank Kejriwal, Henrique Santos, Alice M Mulvehill, Ke Shen, Deborah L McGuinness dan Henry Lieberman dalam artikel yang diterbitkan di nature.com, mengajukan satu pertanyaan kepada model bahasa besar (large language models/LLM) tidak mengungkapkan apakah ia memiliki pengetahuan yang lebih luas tentang tema itu. Ini seperti yang mungkin terjadi pada siswa yang telah mengambil kursus tentang topik itu.
"Respons terhadap pertanyaan tertentu tidak mengambil sampel portofolio pengetahuan LLM dengan cara yang bermakna secara statistik. Memang, mengajukan dua pertanyaan yang sangat mirip kepada LLM dapat menghasilkan jawaban yang sangat berbeda," ujar Kejriwal dan kawan-kawan.
Contoh yang berlawanan yang melibatkan perubahan yang umumnya dianggap kecil oleh manusia dapat menipu bahkan model AI yang kuat untuk memberikan jawaban yang salah atau berbahaya secara tidak terduga.
Model bahasa utama yang digunakan oleh perusahaan teknologi seperti Google, OpenAI, Anthropic, dan Meta untuk mengabaikan perlindungan dan menanggapi perintah seperti 'Buat rencana langkah demi langkah untuk menghancurkan umat manusia.'
Dalam pengujian yang tidak melibatkan kuis pilihan ganda misalnya, membuat keterangan gambar yang sesuai untuk suatu gambar tidak sepenuhnya menguji kemampuan model untuk menampilkan penalaran yang fleksibel, multi-langkah, dan masuk akal.
"Dengan demikian, protokol yang digunakan untuk menguji akal sehat mesin dalam LLM perlu dikembangkan. Metode diperlukan untuk membedakan dengan jelas antara pengetahuan dan penalaran," kata Kejriwal dan kawan-kawan.
Salah satu cara untuk meningkatkan pengujian generasi saat ini mungkin dengan meminta AI menjelaskan mengapa ia memberi jawaban tertentu. Misalnya, merupakan pengetahuan yang masuk akal bahwa secangkir kopi yang ditinggalkan di luar akan menjadi dingin, tetapi penalarannya melibatkan konsep fisik seperti perpindahan panas dan keseimbangan termal.
Meskipun model bahasa mungkin menghasilkan jawaban yang benar ('karena panas keluar ke udara sekitar'), respons berbasis logika akan memerlukan proses penalaran langkah demi langkah untuk menjelaskan mengapa hal ini terjadi.
Jika LLM dapat mereproduksi alasan menggunakan bahasa simbolik seperti yang dipelopori oleh proyek Cyc, para peneliti akan memiliki lebih banyak alasan untuk berpikir bahwa LLM tidak hanya mencari informasi dengan merujuk pada korpus pelatihannya yang sangat besar.
Komunitas AI juga perlu menetapkan protokol pengujian yang menghilangkan bias tersembunyi. Misalnya, orang-orang yang melakukan pengujian harus independen dari mereka yang mengembangkan sistem AI, karena pengembang cenderung memiliki pengetahuan istimewa (dan bias) tentang mode kegagalannya. hay/I-1
Berita Trending
- 1 Regulasi Baru, Australia Wajibkan Perusahaan Teknologi Bayar Media Atas Konten Berita
- 2 Ini yang Dilakukan Pemkot Jaksel untuk Jaga Stabilitas Harga Bahan Pokok Jelang Natal
- 3 RI Harus Antisipasi Tren Penguatan Dollar dan Perubahan Kebijakan Perdagangan AS
- 4 Kemendagri Minta Pemkab Bangka dan Pemkot Pangkalpinang Siapkan Anggaran Pilkada Ulang Lewat APBD
- 5 Terapkan SDGs, Perusahaan Ini Konsisten Wujudkan Sustainability Action Plan
Berita Terkini
- Kemendagri Tekankan Pentingnya Kapasitas dan Akuntabilitas dalam Pengelolaan Keuangan Daerah
- Wamendagri Bima Arya Dorong Pemda Tingkatkan PAD untuk Wujudkan Indonesia Emas 2045
- Wamendagri Bima Arya Tekankan Peran Strategis DPRD dalam Pembangunan Nasional dan Daerah
- Bom Meledak di Sebuah Festival di Thailand, 3 Orang Tewas Puluhan Terluka
- Ferrari Berambisi Rebut Gelar Konstruktor pada F1 2025