Microsoft Mengumumkan Model Yayasan Magma yang Dapat Menyelesaikan Tugas Agen Multimodal

Microsoft Para peneliti mengumumkan model yayasan baru pada hari Rabu yang dapat melakukan fungsi agen. Dubbed Magma, model kecerdasan buatan (AI) pra-terlatih pada sejumlah besar dataset di seluruh teks, gambar, video, serta format spasial. Raksasa teknologi yang berbasis di Redmond mengatakan bahwa magma adalah perpanjangan dari model visi-bahasa (VL) dan tidak hanya dapat memahami informasi multimodal tetapi juga dapat merencanakan dan menindaklanjutinya. Model yang diaktifkan oleh agen AI dapat digunakan dalam berbagai tugas termasuk visi komputer, navigasi antarmuka pengguna (UI), dan manipulasi robot.
Microsoft Mengumumkan Model Yayasan Magma
Dalam github posPeneliti Microsoft merinci model Yayasan Magma baru. Model fondasi adalah model bahasa besar yang khas (LLM), yang dibangun dari awal dan tidak disuling dari model lain. Mereka sering menjadi baseline untuk model lain dalam seri ini. Magma unik dalam arti bahwa model AI pra-terlatih pada berbagai dataset.
Para peneliti menyatakan bahwa arsitektur dasar di belakang Magma adalah model AI Llama 3. Namun, Magma juga dilengkapi dengan kemampuan untuk merencanakan dan bertindak di dunia visual-spasial. Ini memungkinkan model untuk tidak hanya menghasilkan output seperti chatbot tetapi juga menjalankan tindakan.
Ini dapat digunakan sebagai chatbot visi komputer yang dapat menawarkan informasi tentang dunia yang dilihatnya saat dipasangkan dengan sensor kamera. Magma juga dapat digunakan untuk mengontrol UI perangkat. Tetapi lebih menarik, itu juga dapat mengendalikan robot untuk menyelesaikan tugas kompleks menggunakan kemampuan agen.
Para peneliti mengatakan alasan utama di balik kemampuan ini adalah dataset yang beragam bersama dengan dua komponen teknis-set-tanda dan jejak-tanda. Yang pertama memungkinkan landasan tindakan dalam gambar, video, dan data spasial dengan memiliki model memprediksi tanda numerik untuk tombol atau robot lengan dalam ruang gambar. Yang terakhir memberi makan dinamika video temporal model dan membuatnya memprediksi frame berikutnya sebelum mengambil tindakan. Ini memungkinkan model untuk mengembangkan pemahaman spasial yang kuat.
Peneliti Microsoft juga berbagi skor tolok ukur model AI berdasarkan pengujian internal. Ini telah mencapai skor kompetitif di semua tes evaluasi agen, mengungguli model oleh Openai, Alibaba, dan Google. Perusahaan belum merilis Magma di domain publik seperti sekarang.