Home
Rona
Model Dunia 4D dan Upaya M...

Model Dunia 4D dan Upaya Membuat AI Lebih Masuk Akal

Rabu, 21 Jan 2026, 06:57 WIB

MODEL kecerdasan buatan (artificial intelligence/AI) saat ini masih sering jauh dari harapan. Saat meminta video seekor anjing, dan saat anjing itu berlari di belakang sofa, kalungnya menghilang. Kemudian, saat kamera bergeser kembali, sofa tersebut menjadi sofa biasa.

Sebagian masalah terletak pada sifat prediktif dari banyak model AI. Seperti model yang mendukung ChatGPT, yang dilatih untuk memprediksi teks, model pembuatan video memprediksi apa yang secara statistik paling mungkin terlihat benar selanjutnya.

Ket. Foto: Ilustrasi bumi menggunakan panel elektroluminesen organik yang menampilkan model Bumi beresolusi tinggi, yang diperbarui dengan 10.362 panel LED baru selama pratinjau media di Miraikanon, Museum Nasional Sains dan Inovasi yang Sedang Berkembang, di Tokyo beberapa waktu lalu. — Sumber: Philip FONG / AFP

â€œDalam kedua kasus tersebut, AI tidak memiliki model dunia (world model) yang jelas yang terus diperbarui untuk membuat keputusan yang lebih tepat,â€ tulis Scientific American.

Namun hal itu mulai berubah seiring para peneliti di berbagai bidang AI berupaya menciptakan â€œmodel dunia,â€ dengan implikasi yang meluas melampaui pembuatan video dan penggunaan chatbot hingga realitas tertambah (augmented reality/AR), robotika, kendaraan otonom, dan bahkan kecerdasan mirip manusia (humanlike intelligence), atau kecerdasan umum buatan (artificial general intelligence/AGI).

Cara sederhana untuk memahami pemodelan dunia adalah melalui model empat dimensi, atau 4D (tiga dimensi ditambah waktu). Untuk melakukan ini, mari mengingat kembali ke tahun 2012, ketika Titanic, 15 tahun setelah rilis teatrikalnya, dengan susah payah diubah menjadi 3D stereoskopik.

Jika membekukan bingkai apa pun, seseorang akan mendapatkan kesan jarak antara karakter dan objek di kapal. Tetapi jika Leonardo DiCaprio membelakangi kamera, penonton tidak akan dapat berjalan mengelilinginya untuk melihat wajahnya.

Ilusi 3D dalam sinema dibuat menggunakan stereoskopi dua gambar yang sedikit berbeda yang sering diproyeksikan secara bergantian dengan cepat, satu untuk mata kiri dan satu untuk mata kanan. Semua orang di bioskop melihat pasangan gambar yang sama dan dengan demikian perspektif yang serupa.

Namun, berkat penelitian dekade terakhir, berbagai perspektif semakin dimungkinkan. Bayangkan seseorang menyadari seharusnya mengambil foto dari sudut yang berbeda, lalu AI melakukan penyesuaian tersebut, memberikan pemandangan yang sama dengan perspektif baru.

Mulai tahun 2020, algoritma NeRF (neural radiance field) menawarkan jalan untuk menciptakan â€œtampilan baru fotorealistikâ€ tetapi membutuhkan penggabungan banyak foto sehingga sistem AI dapat menghasilkan representasi 3D. Pendekatan 3D lainnya menggunakan AI untuk mengisi informasi yang hilang secara prediktif, yang lebih menyimpang dari kenyataan.

Sekarang, bayangkan setiap bingkai dalam film Titanic direpresentasikan dalam 3D sehingga film tersebut ada dalam 4D. Penonton dapat menelusuri waktu untuk melihat momen yang berbeda atau menelusuri ruang untuk menontonnya dari perspektif yang berbeda.

Penonton juga dapat menghasilkan versi baru darinya. Misalnya, sebuah pratinjau terbaru, â€œNeoVerse: Meningkatkan Model Dunia 4D (4D World Model) dengan Video Monokuler di Alam Liar,â€ menjelaskan salah satu cara mengubah video menjadi model 4D untuk menghasilkan video baru dari perspektif yang berbeda.

Namun, teknik 4D juga dapat membantu menghasilkan konten video baru. Sebuah makalah pracetak terbaru, â€œTeleWorld: Menuju Sintesis Multimodal Dinamis dengan Model Dunia 4D,â€ berlaku untuk skenario yang dibahas di awal tulisan ini yaitu anjing yang berlari di belakang sofa.

Para penulis berpendapat bahwa stabilitas sistem video AI meningkat ketika model dunia 4D yang terus diperbarui memandu proses pembuatan. Model 4D sistem tersebut akan membantu mencegah sofa berubah menjadi tempat tidur dan anjing kehilangan kalungnya.

Ini adalah hasil awal, tetapi mengisyaratkan tren yang lebih luas: model yang memperbarui peta adegan internal saat proses pembuatan berlangsung. Namun, pemodelan 4D memiliki aplikasi yang jauh melampaui pembuatan video. UntukÂ augmented realityÂ (AR), bayangkan kacamata prototipe Orion dari Meta model dunia 4D adalah peta dunia pengguna yang terus berkembang dari waktu ke waktu.

Hal ini memungkinkan sistem AR untuk menjaga objek virtual tetap stabil, membuat pencahayaan dan perspektif tampak realistis, dan memiliki memori spasial tentang apa yang baru saja terjadi. Ini juga memungkinkan oklusi, ketika objek digital menghilang di balik objek nyata.

Sebuah makalah tahun 2023 menyatakan persyaratan tersebut secara blak-blakan: â€œUntuk mencapai oklusi, diperlukan model 3D dari lingkungan fisik.â€ Kemampuan untuk dengan cepat mengkonversi video menjadi 4D juga menyediakan data yang kaya untuk melatih robot dan kendaraan otonom tentang bagaimana dunia nyata bekerja. Dengan menghasilkan model 4D dari ruang tempat mereka berada, robot dapat menavigasinya dengan lebih baik dan memprediksi apa yang mungkin terjadi selanjutnya.

Model AI bahasa-visi tujuan umum saat ini yang memahami gambar dan teks tetapi tidak menghasilkan model dunia yang didefinisikan dengan jelas sering membuat kesalahan; sebuah makalah benchmark yang dipresentasikan pada konferensi tahun 2025 melaporkan â€œketerbatasan yang mencolokâ€ dalam kemampuan pemodelan dunia dasar mereka, termasuk â€œakurasi yang hampir acak ketika membedakan lintasan gerakan.â€

Inilah masalahnya: â€œmodel duniaâ€ memiliki makna yang jauh lebih dalam bagi mereka yang mengejar Artificial General Intelligence (AGI). Misalnya, model bahasa besar (large language models/LLM) terkemuka saat ini, seperti yang mendukung ChatGPT, memiliki pemahaman implisit tentang dunia dari data pelatihannya.

â€œDalam arti tertentu, saya akan mengatakan bahwa LLM sudah memiliki model dunia yang sangat baik; hanya saja kita tidak benar-benar memahami bagaimana cara kerjanya,â€ kata Angjoo Kanazawa, asisten profesor teknik elektro dan ilmu komputer di Universitas California, Berkeley.

Namun, model konseptual ini bukanlah pemahaman fisik dunia secara seketika (real-time) karena LLM tidak dapat memperbarui data pelatihannya secara real-time. Bahkan laporan teknis OpenAI mencatat bahwa, setelah diterapkan, model GPT-4 mereka â€œtidak belajar dari pengalaman.â€

â€œBagaimana Anda mengembangkan sistem visi LLM cerdas yang benar-benar dapat memiliki input streaming dan memperbarui pemahamannya tentang dunia dan bertindak sesuai dengan itu?â€ kata Kanazawa setengah bertanya. â€œItu adalah masalah terbuka yang besar. Saya pikir AGI tidak mungkin tanpa benar-benar menyelesaikan masalah ini,â€ tambahnya.

Meskipun para peneliti memperdebatkan apakah LLM dapat mencapai AGI, banyak yang melihat LLM sebagai komponen dari sistem AI masa depan. LLM akan bertindak sebagai lapisan bagi â€œbahasa dan akal sehat untuk berkomunikasi,â€ kata Kanazawa; ia akan berfungsi sebagai â€œantarmuka,â€ sedangkan model dunia yang mendasarinya yang lebih jelas akan menyediakan â€œmemori spasial temporalâ€ yang diperlukan yang tidak dimiliki LLM saat ini.

Dalam beberapa tahun terakhir, sejumlah peneliti AI terkemuka telah beralih ke model dunia. Pada tahun 2024, Fei Fei Li mendirikan World Labs, yang baru-baru ini meluncurkan perangkat lunak Marble untuk membuat dunia 3D dari â€œteks, gambar, video, atau tata letak 3D kasar,â€ menurut materi promosi perusahaan rintisan tersebut.

Jadi, sementara dalam konteks AGI, â€œmodel duniaâ€ lebih mengacu pada model internal tentang bagaimana realitas bekerja, bukan hanya rekonstruksi 4D, kemajuan dalam pemodelan 4D dapat menyediakan komponen yang membantu dalam memahami sudut pandang, memori, dan bahkan prediksi jangka pendek. hay

Model Dunia 4D dan Upaya Membuat AI Lebih Masuk Akal

Redaktur: Haryo Brono

Penulis: Haryo Brono

Berita Terkait:

Pimpinan MPR: Nilai-nilai integritas harus Ditanamkan Sejak Dini

Polri Tunda Pelaksanaan Operasi Patuh Jaya

Pemprov DKI Tertibkan Parkir dan Jukir Liar Meresahkan

TVRI Pastikan Kesiapan Siara Piala Dunia 2026 Hampir 100 Persen

Sekolah Rakyat di Jember, Hadirkan Lapangan Sepak Bola Berstandar Internasional

Ketenangan Warga Ponelo Kepulauan Saat Ada Peringatan Dini Tsunami

Siasati Musim Kemarau dengan Percepatan Tanam Padi

Pemkot Makassar Siapkan Penghargaan Hingga Sanksi Pengelolaan Sampah

FIFA Umumkan 18 Lagu Masuk dalam Album Resmi Piala Dunia 2026

Daftar Event di Jakarta Juni 2026: Ada Jakarta Fair hingga JAKIM

Wamenaker Gandeng Buruh, Revisi UU Ketenagakerjaan Masuk Babak Penentu

Murah dan Mudah Dicari, Rutin Makan Tomat Ternyata Bisa Bikin Kulit Awet Muda

Jobstreet by SEEK Soroti Pentingnya Magang Berbayar bagi Gen Z

Mensesneg: Presiden Lantik Ketua KSPI dan Ketua BGN Sore Ini

Shin Tae-yong Ditunjuk jadi Pelatih Baru Persija Jakarta

Turki Sebut Krisis Iran Bisa Bikin Inflasi Global Bertahan Lebih Lama

BRIN: Sejumlah Perairan Indonesia Memasuki Fase Awal Peningkatan Produktivitas Laut