Platform baru membantu mengevaluasi AI untuk penggunaan komputer yang kompleks

0 2 minutes read

Platform baru membantu mengevaluasi AI untuk penggunaan komputer yang kompleks

Fakultas Matematika” tinggi =”400″ lebar =”400″ itemProp =”ContentUrl”/>

Victor Zhong Co-Creator, Agen Komputer Arena> Fakultas Matematika

Bayangkan meminta AI untuk merencanakan rencana perjalanan perjalanan Anda, memesan, dan membayar semua penerbangan Anda, dan mengatur transportasi bandara Anda – semuanya dalam satu klik. Untungnya, tim peneliti internasional membuat visi ini menjadi kenyataan.

Tim, yang terdiri dari para peneliti dari University of Waterloo, University of Hong Kong, Salesforce Research dan Carnegie Mellon University mengembangkan Computer Agent Arena – platform evaluasi yang dapat meningkatkan dan membuat agen komputer.

Agen komputer adalah jenis perangkat lunak yang dapat melakukan tugas atas nama seseorang atau organisasi, tanpa memerlukan intervensi manusia yang konstan. Ini dapat menafsirkan keadaan komputer dan bertindak secara mandiri untuk membantu pengguna memecahkan masalah. Contoh agen komputer termasuk asisten suara seperti Siri dan Alexa, yang dapat membantu pengguna mengirim pesan dan menjadwalkan rapat.

Agen komputer berbasis AI berjuang untuk melakukan tugas komputer yang kompleks karena membutuhkan pengendalian beberapa aplikasi komputer dan berbagai langkah. Misalnya, pengajuan laporan pengeluaran mungkin sulit karena memerlukan memperbarui spreadsheet dengan mencari beberapa email dan folder yang diisi dengan laporan dan tanda terima bank.

Computer Agent Arena adalah platform evaluasi penggunaan komputer interaktif pertama yang berfokus pada melakukan beragam tugas di beberapa aplikasi. Pekerjaan ini merupakan perpanjangan dari pekerjaan para peneliti di Osworld, lingkungan komputer yang scalable dan nyata pertama di dunia untuk agen multimodal.

“Komputer Agen Arena menyediakan platform bagi komunitas penelitian untuk mengembangkan agen yang efektif dan efisien yang menggeneralisasi ke penggunaan komputer dunia nyata,” Kata co-developer Dr. Victor Zhong, asisten profesor di Sekolah Ilmu Komputer Cheriton. Seperti peneliti Waterloo lainnya, ia sedang menyelidiki interaksi teknologi-teknologi, mengeksplorasi cara mengurangi masalah sehari-hari dengan menciptakan teknologi baru.

“Arena agen komputer berbeda dari penelitian serupa seperti Mind2Web dan WebaRena karena menyediakan antarmuka pemrograman aplikasi terpadu untuk pengamatan dan tindakan komprehensif dalam lingkungan yang dapat dieksekusi dengan banyak aplikasi.”

Melalui Computer Agent Arena, pengguna dapat menilai dan membandingkan berbagai agen komputer berdasarkan model bahasa besar (LLM) dan model bahasa visi. Pertama, pengguna memilih sistem operasi seperti Windows, dan aplikasi seperti Google Chrome dan Excel. Pengguna kemudian dapat meminta agen komputer dengan tugas, yang akan dilakukan secara bersamaan oleh dua model AI secara real-time. Setelah selesai, pengguna dapat menilai kinerja setiap model dan memberikan umpan balik.

Pada akhirnya, tim berupaya memberikan platform yang beragam dan dinamis untuk membangun dan mengevaluasi agen yang dapat melakukan tugas komputer dunia nyata secara aman, efektif dan efisien seperti yang dilakukan manusia.

“Temuan kami saat ini menunjukkan bahwa model pondasi seperti GPT4 dan Claude jauh dari mampu bertindak dengan aman dan efektif sebagai asisten agen komputer,” Kata Zhong. “Computer Agent Arena menyediakan testbed tepat waktu untuk mengembangkan agen AI generasi berikutnya.”

Mayuri Punithan

Source

Yuliana Hasanah 1 hari ago

0 2 minutes read