Agen operator Openai membantu saya pindah, tetapi saya juga harus membantunya

Openai memberi saya satu minggu untuk menguji Agen AI baru, operatorsebuah sistem yang dapat secara mandiri melakukan tugas untuk Anda di internet.
Operator adalah hal terdekat yang saya lihat dengan industri teknologi Visi Agen AI – Sistem yang dapat mengotomatiskan bagian kehidupan yang membosankan, membebaskan kita untuk melakukan hal -hal yang sangat kita sukai. Namun, menilai dari pengalaman saya dengan agen Openai, sistem AI yang benar -benar “otonom” masih di luar jangkauan.
Openai melatih model baru untuk operator listrikyang menggabungkan pemahaman visual GPT-4O dengan kemampuan penalaran O1.
Model itu tampaknya bekerja dengan baik untuk tugas -tugas dasar; Saya menonton tombol klik operator, menavigasi menu di situs web, dan mengisi formulir. AI kadang-kadang berhasil dalam mengambil tindakan secara mandiri, dan itu bekerja lebih cepat daripada agen berbasis web yang pernah saya lihat Antropik Dan Google.
Tetapi selama persidangan saya, saya mendapati diri saya membantu agen Openai lebih dari yang saya inginkan. Rasanya seperti saya adalah operator pembinaan melalui setiap masalah, sedangkan saya ingin mendorong tugas -tugas tertentu dari piring saya sama sekali.
Terlalu sering selama tes saya, saya harus menjawab beberapa pertanyaan, memberikan izin, mengisi informasi pribadi, dan membantu agen ketika macet.
Dalam istilah mobil, operator seperti mengendarai mobil dengan kontrol jelajah-sesekali melepas kaki Anda dari pedal dan membiarkan mobil mengendarai sendiri-tetapi jauh dari autopilot penuh.
Faktanya, Openai mengatakan jeda operator yang sering dilakukan oleh desain.
Operator Powering AI, seperti AI Powering Chatbots seperti Openai’s ChatGPT, tidak dapat bekerja secara mandiri untuk jangka waktu yang lama, dan rentan terhadap jenis halusinasi yang sama. Karena itu, OpenAI tidak ingin memberikan sistem terlalu banyak kekuatan pengambilan keputusan atau informasi pengguna yang sensitif. Mungkin itu pilihan yang aman oleh Openai, tetapi mengurangi kepraktisan operator.
Yang mengatakan, agen pertama Openai adalah bukti konsep yang mengesankan – dan antarmuka – untuk AI yang dapat menggunakan ujung depan situs web apa pun. Tetapi untuk menciptakan sistem AI yang benar -benar independen, perusahaan teknologi perlu membangun model AI yang lebih andal yang tidak memerlukan kemudi sebanyak ini.
Sedikit terlalu ‘tangan’
Uji coba operator saya bertepatan dengan minggu saya pindah apartemen, jadi saya memiliki bantuan agen Openai dengan logistik bergerak.
Saya meminta operator untuk membantu saya membeli izin parkir baru. Agen Openai memberi tahu saya, “Tentu,” kemudian membuka jendela ke browser di layar PC saya.
Operator kemudian melakukan pencarian untuk izin parkir San Francisco di browser, membawa saya ke situs web kota yang benar, dan bahkan halaman yang tepat.
Operator masih memungkinkan Anda menggunakan sisa komputer Anda saat berfungsi, sesuatu yang tidak dapat dikatakan untuk proyek Google Mariner. Ini karena agen Openai tidak benar -benar bekerja di komputer, melainkan, mati di cloud di suatu tempat.
Untuk izin parkir saya, saya harus memberikan izin operator untuk memulai proses yang berbeda beberapa kali. Juga berhenti untuk meminta saya mengisi formulir dengan informasi pribadi – seperti nama saya, nomor telepon, dan alamat email. Kadang -kadang, operator juga tersesat, memaksa saya untuk mengendalikan browser dan mengembalikan agen ke jalurnya.
Dalam tes lain, saya meminta operator untuk membuat saya menjadi reservasi di restoran Yunani. Untuk kreditnya, operator menemukan saya tempat yang bagus di daerah saya dengan harga yang wajar. Tetapi saya harus menjawab lebih dari setengah lusin pertanyaan di seluruh arus.

Jika Anda harus campur tangan enam kali atau lebih hanya untuk memesan reservasi melalui agen AI, pada titik apa lebih mudah untuk melakukannya sendiri? Itu pertanyaan yang banyak saya tanyakan pada diri sendiri saat menguji operator.
Agen-as-a-platform
Dalam beberapa tes saya, saya bertemu dengan situs web yang memblokir operator untuk alasan apa pun. Sebagai contoh, saya mencoba memesan tukang listrik menggunakan TaskRabbit, tetapi agen Openai mengatakan kepada saya bahwa itu mengalami kesalahan, dan bertanya apakah itu bisa menggunakan layanan alternatif sebagai gantinya. Expedia, Reddit, dan YouTube juga memblokir agen AI dari mengakses platform mereka.
Namun, layanan lain merangkul operator dengan tangan terbuka. Instacart, Uber, dan eBay berkolaborasi dengan OpenAi untuk peluncuran operator, yang memungkinkan agen untuk menavigasi situs web mereka atas nama manusia.
Bisnis ini sedang mempersiapkan masa depan di mana subset interaksi pengguna difasilitasi oleh agen AI.
“Pelanggan menggunakan Instacart melalui berbagai titik masuk yang berbeda,” kata Daniel Danker, Chief Product Officer di Instacart, dalam sebuah wawancara dengan TechCrunch. “Kami melihat operator, berpotensi, salah satu dari titik masuk itu.”
Membiarkan agen Openai menggunakan situs web Instacart atas nama seseorang sepertinya akan memisahkan Instacart dari pelanggannya. Namun, Danker mengatakan Instacart ingin bertemu pelanggan di mana pun mereka berada.
“Kami benar-benar bullish tentang keyakinan kami, mirip dengan Openai, bahwa sistem agen akan memiliki dampak besar pada bagaimana konsumen berinteraksi dengan properti digital,” kata kepala petugas AI Ebay, Nitzan Mekel-Bobrov, dalam sebuah wawancara dengan TechCrunch.
Bahkan jika agen AI semakin populer, Mekel-Bobrov mengatakan dia berharap pengguna akan selalu datang ke situs web eBay, mencatat bahwa “tujuan online tidak ke mana-mana.”
Masalah kepercayaan
Saya memiliki beberapa masalah untuk mempercayai operator setelah berhalusinasi beberapa kali, dan hampir menghabiskan biaya beberapa ratusan dolar.
Misalnya, saya meminta agen untuk menemukan saya sebuah garasi parkir di dekat apartemen baru saya. Akhirnya menyarankan dua garasi yang katanya hanya perlu beberapa menit untuk berjalan.

Selain jalan keluar dari kisaran harga saya, garasi sebenarnya sangat jauh dari apartemen saya. Yang satu berjarak 20 menit berjalan kaki, dan yang lainnya berjarak 30 menit berjalan kaki. Ternyata, operator telah memasukkan alamat yang salah.
Inilah sebabnya mengapa OpenAI tidak memberikan agen nomor kartu kredit Anda, kata sandi, atau akses ke email. Jika Openai tidak membiarkan saya campur tangan di sini, operator akan membuang ratusan dolar di tempat parkir yang tidak saya butuhkan.
Halusinasi seperti ini adalah hambatan utama untuk agen otonom yang benar -benar berguna – yang dapat mengambil tugas yang merepotkan dari piring Anda. Tidak ada yang akan mempercayai agen jika mereka cenderung membuat kesalahan dasar, terutama kesalahan dengan konsekuensi dunia nyata.
Dengan operator, Openai tampaknya telah membangun beberapa alat yang mengesankan untuk membiarkan sistem AI menelusuri web. Tetapi alat -alat ini tidak akan berarti banyak sampai AI yang mendukung dapat melakukan apa yang diminta pengguna untuk dilakukan. Sampai saat itu, manusia akan macet membantu agen – bukan sebaliknya. Dan semacam itu mengalahkan intinya.