Para peneliti ini menggunakan pertanyaan teka -teki NPR Sunday untuk membandingkan model ‘penalaran’ AI

Setiap hari Minggu, pembawa acara NPR Will Shortz, guru teka-teki silang New York Times, dapat kuis ribuan pendengar di segmen yang sudah berjalan lama yang disebut teka-teki Minggu. Saat ditulis agar dapat dipecahkan tanpa juga Banyak hal sebelumnya, para brainteaser biasanya menantang bahkan bagi para kontestan yang terampil.
Itu sebabnya beberapa ahli berpikir mereka adalah cara yang menjanjikan untuk menguji batas kemampuan pemecahan masalah AI.
Di sebuah studi barutim peneliti yang berasal dari Wellesley College, Oberlin College, University of Texas di Austin, Northeastern University, dan Startup Cursor menciptakan tolok ukur AI menggunakan teka -teki dari episode puzzle hari Minggu. Tim mengatakan tes mereka mengungkap wawasan yang mengejutkan, seperti yang disebut model penalaran-Openai’s O1, antara lain-kadang-kadang “menyerah” dan memberikan jawaban yang mereka tahu tidak benar.
“Kami ingin mengembangkan tolok ukur dengan masalah yang dapat dipahami manusia dengan hanya pengetahuan umum,” Arjun Guha, seorang sarjana ilmu komputer di Northeastern dan salah satu penulis rekan kerja dalam penelitian ini, mengatakan kepada TechCrunch.
Industri AI sedang dalam sedikit kebingungan saat ini. Sebagian besar tes yang biasa digunakan untuk mengevaluasi model AI menyelidiki keterampilan, seperti kompetensi pada pertanyaan matematika dan sains tingkat PhD, yang tidak relevan dengan pengguna rata-rata. Sementara itu, banyak tolok ukur – bahkan tolok ukur yang dirilis relatif baru -baru ini – dengan cepat mendekati titik saturasi.
Keuntungan dari permainan kuis radio publik seperti teka -teki hari Minggu adalah bahwa ia tidak menguji pengetahuan esoterik, dan tantangannya diutarakan sedemikian rupa sehingga model tidak dapat memanfaatkan “memori hancur” untuk menyelesaikannya, jelas Guha.
“Saya pikir apa yang membuat masalah ini sulit adalah bahwa sangat sulit untuk membuat kemajuan yang berarti pada suatu masalah sampai Anda menyelesaikannya – saat itulah semuanya diklik bersama sekaligus,” kata Guha. “Itu membutuhkan kombinasi wawasan dan proses eliminasi.”
Tidak ada tolok ukur yang sempurna, tentu saja. Teka-teki hari Minggu adalah AS dan hanya Inggris. Dan karena kuis tersedia di depan umum, ada kemungkinan bahwa model yang dilatih pada mereka dan dapat “menipu” dalam arti tertentu, meskipun Guha mengatakan dia belum melihat bukti tentang hal ini.
“Pertanyaan baru dirilis setiap minggu, dan kami dapat mengharapkan pertanyaan terbaru benar -benar tidak terlihat,” tambahnya. “Kami bermaksud untuk menjaga benchmark tetap segar dan melacak bagaimana kinerja model berubah dari waktu ke waktu.”
Pada tolok ukur para peneliti, yang terdiri dari sekitar 600 teka -teki teka -teki hari Minggu, model penalaran seperti O1 dan Deepseek R1 jauh mengungguli yang lainnya. Model penalaran benar-benar memeriksa diri mereka sendiri sebelum memberikan hasil, yang membantu mereka Hindari beberapa jebakan Itu biasanya trip up model AI. Pertukarannya adalah bahwa model penalaran membutuhkan waktu sedikit lebih lama untuk sampai pada solusi-biasanya detik hingga menit lebih lama.
Setidaknya satu model, Deepseek’s R1, memberikan solusi yang diketahui salah untuk beberapa pertanyaan teka -teki hari Minggu. R1 akan menyatakan kata demi kata “Saya menyerah,” diikuti dengan jawaban yang salah yang dipilih secara acak – perilaku yang dapat dihubungkan oleh manusia ini.
Model -model membuat pilihan aneh lainnya, seperti memberikan jawaban yang salah hanya untuk segera menariknya, berusaha untuk menggoda yang lebih baik, dan gagal lagi. Mereka juga terjebak “berpikir” selamanya dan memberikan penjelasan yang tidak masuk akal untuk jawaban, atau mereka tiba di jawaban yang benar segera tetapi kemudian terus mempertimbangkan jawaban alternatif tanpa alasan yang jelas.
“Pada masalah keras, R1 benar -benar mengatakan bahwa itu menjadi ‘frustrasi,'” kata Guha. “Lucu melihat bagaimana seorang model meniru apa yang bisa dikatakan manusia. Masih harus dilihat bagaimana ‘frustrasi’ dalam penalaran dapat mempengaruhi kualitas hasil model. “
Model berkinerja terbaik saat ini pada tolok ukur adalah O1 dengan skor 59%, diikuti oleh yang baru dirilis O3-Mini ditetapkan ke “upaya penalaran” yang tinggi (47%). (R1 mencetak 35%.) Sebagai langkah berikutnya, para peneliti berencana untuk memperluas pengujian mereka ke model penalaran tambahan, yang mereka harapkan akan membantu mengidentifikasi area di mana model ini mungkin ditingkatkan.

“Anda tidak membutuhkan PhD untuk menjadi ahli dalam penalaran, jadi harus dimungkinkan untuk merancang tolok ukur penalaran yang tidak memerlukan pengetahuan tingkat PhD,” kata Guha. “Benchmark dengan akses yang lebih luas memungkinkan serangkaian peneliti yang lebih luas untuk memahami dan menganalisis hasilnya, yang pada gilirannya dapat menyebabkan solusi yang lebih baik di masa depan. Selain itu, karena model canggih semakin banyak digunakan dalam pengaturan yang mempengaruhi semua orang, kami percaya semua orang harus dapat mengintuisi apa model ini-dan tidak-mampu. ”