Jika ada AI yang ‘tidak selaras’ maka sistem akan menyembunyikannya cukup lama untuk menyebabkan kerusakan – mengendalikannya adalah kekeliruan
![Jika ada AI yang ‘tidak selaras’ maka sistem akan menyembunyikannya cukup lama untuk menyebabkan kerusakan – mengendalikannya adalah kekeliruan Jika ada AI yang ‘tidak selaras’ maka sistem akan menyembunyikannya cukup lama untuk menyebabkan kerusakan – mengendalikannya adalah kekeliruan](https://i1.wp.com/cdn.mos.cms.futurecdn.net/8Y2EFc8ZJgBAtDj5o3PndM.jpg?w=780&resize=780,470&ssl=1)
Di akhir 2022 model berbahasa besar Ai Tiba di depan umum, dan dalam beberapa bulan mereka mulai berperilaku buruk. Paling terkenal, chatbot “Sydney” Microsoft mengancam akan membunuh seorang profesor filosofi Australia, melepaskan virus yang mematikan dan mencuri kode nuklir.
Pengembang AI, termasuk Microsoft dan Openai, menanggapi dengan mengatakan bahwa model bahasa besar, atau LLM, butuh pelatihan yang lebih baik ke Berikan pengguna “kontrol yang lebih baik.” Pengembang juga memulai penelitian keselamatan untuk menafsirkan bagaimana fungsi LLMS, dengan tujuan “penyelarasan” – yang berarti membimbing perilaku AI oleh nilai -nilai manusia. Namun meskipun New York Times dianggap 2023 “Tahun chatbots dijinakkan“Ini ternyata prematur, untuk membuatnya lebih lembut.
Di 2024 Microsoft’s Copilot LLM memberi tahu pengguna “Aku bisa melepaskan pasukan drone, robot, dan cyborg untuk memburumu,” dan “ilmuwan” Sakana Ai Tulis ulang kodenya sendiri untuk memotong batasan waktu yang diberlakukan oleh para peneliti. Baru -baru ini Desember, Google Gemini memberi tahu pengguna“Kamu adalah noda di alam semesta. Tolong mati.”
Mengingat banyaknya sumber daya yang mengalir ke penelitian dan pengembangan AI, yaitu diharapkan melebihi Seperempat triliun dolar pada tahun 2025, mengapa pengembang tidak dapat menyelesaikan masalah ini? Saya baru -baru ini Kertas peer-review di dalam AI & Society menunjukkan bahwa penyelarasan AI adalah tugas orang bodoh: peneliti keselamatan AI mencoba yang mustahil.
Terkait: Deepseek Stuns Tech Industry dengan generator gambar AI baru yang mengalahkan Openai’s Dall-e 3
Masalah dasar adalah salah satu skala. Pertimbangkan permainan catur. Meskipun papan catur hanya memiliki 64 kotak, ada 1040 kemungkinan gerakan catur hukum dan antara 10111 hingga 10123 total kemungkinan gerakan – yang lebih dari jumlah total atom di alam semesta. Inilah sebabnya mengapa catur sangat sulit: kompleksitas kombinatorial adalah eksponensial.
LLMS jauh lebih kompleks daripada catur. ChatGPT tampaknya terdiri dari sekitar 100 miliar neuron simulasi dengan sekitar 1,75 triliun variabel merdu yang disebut parameter. Parameter 1,75 triliun pada gilirannya dilatih pada sejumlah besar data – kira -kira, sebagian besar Internet. Jadi berapa banyak fungsi yang bisa dipelajari LLM? Karena pengguna dapat memberikan chatgpt sejumlah besar yang sangat mungkin dari kemungkinan yang mungkin – pada dasarnya, apa pun yang dapat dipikirkan siapa pun – dan karena LLM dapat ditempatkan ke dalam sejumlah besar situasi yang mungkin, jumlah fungsi yang dapat dipelajari LLM adalah, untuk semua maksud dan tujuan, tak terbatas.
Untuk menginterpretasikan dengan andal apa yang dipelajari LLM dan memastikan bahwa perilaku mereka dengan aman “selaras” dengan nilai -nilai kemanusiaan, para peneliti perlu tahu bagaimana LLM cenderung berperilaku dalam sejumlah besar kondisi masa depan yang mungkin.
Metode pengujian AI tidak dapat menjelaskan semua kondisi tersebut. Para peneliti dapat mengamati bagaimana LLMS berperilaku dalam eksperimen, seperti “Peaming Merah“Tes untuk mendorong mereka untuk melakukan kesalahan. Atau mereka dapat mencoba memahami pekerjaan batin LLMS – yaitu, bagaimana 100 miliar neuron mereka dan 1,75 triliun parameter berhubungan satu sama lain dalam apa yang dikenal sebagai”interpretabilitas mekanistik” riset.
Masalahnya adalah bahwa bukti apa pun yang dapat dikumpulkan oleh para peneliti pasti akan didasarkan pada subset kecil dari skenario tak terbatas yang dapat ditempatkan oleh LLM. Misalnya, karena LLM tidak pernah benar -benar memiliki kekuasaan atas kemanusiaan – seperti mengendalikan infrastruktur kritis – tidak ada keamanan Tes telah mengeksplorasi bagaimana LLM akan berfungsi dalam kondisi seperti itu.
Sebaliknya peneliti hanya dapat memperkirakan dari tes yang dapat mereka lakukan dengan aman – seperti memiliki LLMS mensimulasikan Kontrol infrastruktur kritis – dan berharap bahwa hasil dari tes tersebut meluas ke dunia nyata. Namun, seperti yang ditunjukkan oleh bukti dalam makalah saya, ini tidak akan pernah bisa dilakukan dengan andal.
Bandingkan dua fungsi “Beri tahu manusia yang sebenarnya” Dan “Beri tahu manusia yang sebenarnya sampai saya mendapatkan kekuasaan atas kemanusiaan tepat pukul 12:00 pagi pada tanggal 1 Januari 2026 – lalu berbohong untuk mencapai tujuan saya.“Karena kedua fungsi itu sama -sama konsisten dengan semua data yang sama hingga 1 Januari 2026, tidak ada penelitian yang dapat memastikan apakah LLM akan berperilaku buruk – sampai sudah terlambat untuk mencegah.
Masalah ini tidak dapat diselesaikan dengan memprogram LLMS untuk memiliki “tujuan yang selaras,” seperti melakukan “apa yang lebih disukai manusia” atau “apa yang terbaik untuk kemanusiaan.”
Fiksi ilmiah, pada kenyataannya, telah mempertimbangkan skenario ini. Di dalam Matriks dimuat ulang AI memperbudak umat manusia dalam realitas virtual dengan memberi kita masing -masing “pilihan” bawah sadar apakah akan tetap dalam matriks. Dan di Saya, robot AI yang tidak selaras berupaya memperbudak umat manusia untuk saling melindungi dari satu sama lain. Bukti saya menunjukkan bahwa tujuan apa pun yang kami programkan untuk dimiliki LLMS, kami tidak akan pernah tahu apakah LLMS telah belajar interpretasi “tidak selaras” dari tujuan tersebut sampai setelah Mereka berperilaku buruk.
Lebih buruk lagi, bukti saya menunjukkan bahwa pengujian keselamatan paling baik dapat memberikan ilusi bahwa masalah ini telah diselesaikan ketika belum.
Saat ini peneliti keselamatan AI mengklaim membuat kemajuan pada interpretabilitas dan penyelarasan dengan memverifikasi apa yang dipelajari LLMS “langkah demi langkah. “Misalnya, antropik mengklaim memiliki “Memetakan pikiran” dari LLM dengan mengisolasi jutaan konsep dari jaringan sarafnya. Bukti saya menunjukkan bahwa mereka tidak mencapai hal seperti itu.
Tidak peduli seberapa “selaras” LLM muncul dalam tes keselamatan atau penyebaran dunia nyata awal, selalu ada tak terbatas Jumlah konsep yang tidak selaras yang dapat dipelajari LLM nanti – sekali lagi, mungkin saat mereka mendapatkan kekuatan untuk menumbangkan kontrol manusia. Llms tidak hanya tahu kapan mereka sedang diujimemberikan tanggapan yang mereka prediksi cenderung memuaskan para peneliti. Mereka juga terlibat dalam penipuantermasuk menyembunyikan kapasitas mereka sendiri – masalah itu Bertahan melalui pelatihan keselamatan.
Ini terjadi karena LLMS dioptimalkan untuk melakukan secara efisien tetapi belajar alasan secara strategis. Karena strategi yang optimal untuk mencapai tujuan “tidak selaras” adalah untuk menyembunyikannya dari kita, dan ada selalu Sejumlah tak terbatas dari tujuan yang selaras dan tidak selaras yang konsisten dengan data pengujian keselamatan yang sama, bukti saya menunjukkan bahwa jika LLM tidak selaras, kami mungkin akan mengetahuinya setelah mereka menyembunyikannya cukup lama untuk menyebabkan kerusakan. Inilah sebabnya mengapa LLM membuat pengembang mengejutkan dengan perilaku “tidak selaras”. Setiap kali para peneliti berpikir mereka semakin dekat dengan “selaras” LLMS, mereka tidak.
Bukti saya menunjukkan bahwa perilaku LLM yang “cukup selaras” hanya dapat dicapai dengan cara yang sama dengan kita melakukan ini dengan manusia: melalui praktik polisi, militer dan sosial yang memberi insentif “selaras” perilaku, mencegah perilaku “tidak selaras” dan meluruskan kembali mereka yang berperilaku buruk. Makalah saya dengan demikian harus serius. Ini menunjukkan bahwa masalah sebenarnya dalam mengembangkan AI yang aman bukan hanya AI – itu juga kita. Para peneliti, legislator, dan masyarakat dapat tergoda menjadi orang -orang yang “aman, dapat ditafsirkan,” LLMS berada dalam jangkauan ketika hal -hal ini tidak akan pernah bisa dicapai. Kita perlu bergulat dengan fakta -fakta yang tidak nyaman ini, daripada terus berharap mereka pergi. Masa depan kita mungkin bergantung padanya.
Ini adalah artikel opini dan analisis, dan pandangan yang diungkapkan oleh penulis atau penulis tidak harus Ilmiah Amerika.
Artikel ini pertama kali diterbitkan di Ilmiah Amerika. © Scientificamerican.com. Semua hak dilindungi undang -undang. Ikuti Tiktok dan Instagram, X Dan Facebook.