Model Dunia 4D dan Upaya Membuat AI Lebih Masuk Akal
Rabu, 21 Jan 2026, 06:57 WIBMODEL kecerdasan buatan (artificial intelligence/AI) saat ini masih sering jauh dari harapan. Saat meminta video seekor anjing, dan saat anjing itu berlari di belakang sofa, kalungnya menghilang. Kemudian, saat kamera bergeser kembali, sofa tersebut menjadi sofa biasa.
Sebagian masalah terletak pada sifat prediktif dari banyak model AI. Seperti model yang mendukung ChatGPT, yang dilatih untuk memprediksi teks, model pembuatan video memprediksi apa yang secara statistik paling mungkin terlihat benar selanjutnya.
âDalam kedua kasus tersebut, AI tidak memiliki model dunia (world model) yang jelas yang terus diperbarui untuk membuat keputusan yang lebih tepat,â tulis Scientific American.
Namun hal itu mulai berubah seiring para peneliti di berbagai bidang AI berupaya menciptakan âmodel dunia,â dengan implikasi yang meluas melampaui pembuatan video dan penggunaan chatbot hingga realitas tertambah (augmented reality/AR), robotika, kendaraan otonom, dan bahkan kecerdasan mirip manusia (humanlike intelligence), atau kecerdasan umum buatan (artificial general intelligence/AGI).
Cara sederhana untuk memahami pemodelan dunia adalah melalui model empat dimensi, atau 4D (tiga dimensi ditambah waktu). Untuk melakukan ini, mari mengingat kembali ke tahun 2012, ketika Titanic, 15 tahun setelah rilis teatrikalnya, dengan susah payah diubah menjadi 3D stereoskopik.
Jika membekukan bingkai apa pun, seseorang akan mendapatkan kesan jarak antara karakter dan objek di kapal. Tetapi jika Leonardo DiCaprio membelakangi kamera, penonton tidak akan dapat berjalan mengelilinginya untuk melihat wajahnya.
Ilusi 3D dalam sinema dibuat menggunakan stereoskopi dua gambar yang sedikit berbeda yang sering diproyeksikan secara bergantian dengan cepat, satu untuk mata kiri dan satu untuk mata kanan. Semua orang di bioskop melihat pasangan gambar yang sama dan dengan demikian perspektif yang serupa.
Namun, berkat penelitian dekade terakhir, berbagai perspektif semakin dimungkinkan. Bayangkan seseorang menyadari seharusnya mengambil foto dari sudut yang berbeda, lalu AI melakukan penyesuaian tersebut, memberikan pemandangan yang sama dengan perspektif baru.
Mulai tahun 2020, algoritma NeRF (neural radiance field) menawarkan jalan untuk menciptakan âtampilan baru fotorealistikâ tetapi membutuhkan penggabungan banyak foto sehingga sistem AI dapat menghasilkan representasi 3D. Pendekatan 3D lainnya menggunakan AI untuk mengisi informasi yang hilang secara prediktif, yang lebih menyimpang dari kenyataan.
Sekarang, bayangkan setiap bingkai dalam film Titanic direpresentasikan dalam 3D sehingga film tersebut ada dalam 4D. Penonton dapat menelusuri waktu untuk melihat momen yang berbeda atau menelusuri ruang untuk menontonnya dari perspektif yang berbeda.
Penonton juga dapat menghasilkan versi baru darinya. Misalnya, sebuah pratinjau terbaru, âNeoVerse: Meningkatkan Model Dunia 4D (4D World Model) dengan Video Monokuler di Alam Liar,â menjelaskan salah satu cara mengubah video menjadi model 4D untuk menghasilkan video baru dari perspektif yang berbeda.
Namun, teknik 4D juga dapat membantu menghasilkan konten video baru. Sebuah makalah pracetak terbaru, âTeleWorld: Menuju Sintesis Multimodal Dinamis dengan Model Dunia 4D,â berlaku untuk skenario yang dibahas di awal tulisan ini yaitu anjing yang berlari di belakang sofa.
Para penulis berpendapat bahwa stabilitas sistem video AI meningkat ketika model dunia 4D yang terus diperbarui memandu proses pembuatan. Model 4D sistem tersebut akan membantu mencegah sofa berubah menjadi tempat tidur dan anjing kehilangan kalungnya.
Ini adalah hasil awal, tetapi mengisyaratkan tren yang lebih luas: model yang memperbarui peta adegan internal saat proses pembuatan berlangsung. Namun, pemodelan 4D memiliki aplikasi yang jauh melampaui pembuatan video. Untuk augmented reality (AR), bayangkan kacamata prototipe Orion dari Meta model dunia 4D adalah peta dunia pengguna yang terus berkembang dari waktu ke waktu.
Hal ini memungkinkan sistem AR untuk menjaga objek virtual tetap stabil, membuat pencahayaan dan perspektif tampak realistis, dan memiliki memori spasial tentang apa yang baru saja terjadi. Ini juga memungkinkan oklusi, ketika objek digital menghilang di balik objek nyata.
Sebuah makalah tahun 2023 menyatakan persyaratan tersebut secara blak-blakan: âUntuk mencapai oklusi, diperlukan model 3D dari lingkungan fisik.â Kemampuan untuk dengan cepat mengkonversi video menjadi 4D juga menyediakan data yang kaya untuk melatih robot dan kendaraan otonom tentang bagaimana dunia nyata bekerja. Dengan menghasilkan model 4D dari ruang tempat mereka berada, robot dapat menavigasinya dengan lebih baik dan memprediksi apa yang mungkin terjadi selanjutnya.
Model AI bahasa-visi tujuan umum saat ini yang memahami gambar dan teks tetapi tidak menghasilkan model dunia yang didefinisikan dengan jelas sering membuat kesalahan; sebuah makalah benchmark yang dipresentasikan pada konferensi tahun 2025 melaporkan âketerbatasan yang mencolokâ dalam kemampuan pemodelan dunia dasar mereka, termasuk âakurasi yang hampir acak ketika membedakan lintasan gerakan.â
Inilah masalahnya: âmodel duniaâ memiliki makna yang jauh lebih dalam bagi mereka yang mengejar Artificial General Intelligence (AGI). Misalnya, model bahasa besar (large language models/LLM) terkemuka saat ini, seperti yang mendukung ChatGPT, memiliki pemahaman implisit tentang dunia dari data pelatihannya.
âDalam arti tertentu, saya akan mengatakan bahwa LLM sudah memiliki model dunia yang sangat baik; hanya saja kita tidak benar-benar memahami bagaimana cara kerjanya,â kata Angjoo Kanazawa, asisten profesor teknik elektro dan ilmu komputer di Universitas California, Berkeley.
Namun, model konseptual ini bukanlah pemahaman fisik dunia secara seketika (real-time) karena LLM tidak dapat memperbarui data pelatihannya secara real-time. Bahkan laporan teknis OpenAI mencatat bahwa, setelah diterapkan, model GPT-4 mereka âtidak belajar dari pengalaman.â
âBagaimana Anda mengembangkan sistem visi LLM cerdas yang benar-benar dapat memiliki input streaming dan memperbarui pemahamannya tentang dunia dan bertindak sesuai dengan itu?â kata Kanazawa setengah bertanya. âItu adalah masalah terbuka yang besar. Saya pikir AGI tidak mungkin tanpa benar-benar menyelesaikan masalah ini,â tambahnya.
Meskipun para peneliti memperdebatkan apakah LLM dapat mencapai AGI, banyak yang melihat LLM sebagai komponen dari sistem AI masa depan. LLM akan bertindak sebagai lapisan bagi âbahasa dan akal sehat untuk berkomunikasi,â kata Kanazawa; ia akan berfungsi sebagai âantarmuka,â sedangkan model dunia yang mendasarinya yang lebih jelas akan menyediakan âmemori spasial temporalâ yang diperlukan yang tidak dimiliki LLM saat ini.
Dalam beberapa tahun terakhir, sejumlah peneliti AI terkemuka telah beralih ke model dunia. Pada tahun 2024, Fei Fei Li mendirikan World Labs, yang baru-baru ini meluncurkan perangkat lunak Marble untuk membuat dunia 3D dari âteks, gambar, video, atau tata letak 3D kasar,â menurut materi promosi perusahaan rintisan tersebut.
Jadi, sementara dalam konteks AGI, âmodel duniaâ lebih mengacu pada model internal tentang bagaimana realitas bekerja, bukan hanya rekonstruksi 4D, kemajuan dalam pemodelan 4D dapat menyediakan komponen yang membantu dalam memahami sudut pandang, memori, dan bahkan prediksi jangka pendek. hay
Redaktur: Haryo Brono
Penulis: Haryo Brono
Berita Terkait:
-
Dari Gas Alam Cair ke Batu Bara, Cara Jepang Jaga Stabilitas Energi
-
Antisipasi Kemarau Panjang El Nino, Petani Dilarang untuk Membakar Lahan
-
340 Ribu Orang Menggunakan Kereta Api Selama Libur Panjang Paskah
-
Bidik Target 'Net Zero': Estonia Ajak Indonesia Perkuat Sinergi Energi Terbarukan
-
Satpol PP Pontianak tertibkan PKL di Waterfront
-
AI Sebagai "Penyebab Munculnya" Celah Keamanan Siber
-
Pemakaman Mayor Inf Zulmi Aditya Iskandar di Bandung
PT. Berita Nusantara
© Copyright 2017 - 2026 Koran Jakarta ®
All rights reserved.