Para peneliti ini menggunakan pertanyaan teka -teki NPR Sunday untuk membandingkan model ‘penalaran’ AI

Edward Gunawan Februari 6, 2025

0 3 minutes read

Para peneliti ini menggunakan pertanyaan teka -teki NPR Sunday untuk membandingkan model ‘penalaran’ AI

Setiap hari Minggu, pembawa acara NPR Will Shortz, guru teka-teki silang New York Times, dapat kuis ribuan pendengar di segmen yang sudah berjalan lama yang disebut teka-teki Minggu. Saat ditulis agar dapat dipecahkan tanpa juga Banyak hal sebelumnya, para brainteaser biasanya menantang bahkan bagi para kontestan yang terampil.

Itu sebabnya beberapa ahli berpikir mereka adalah cara yang menjanjikan untuk menguji batas kemampuan pemecahan masalah AI.

Di sebuah studi barutim peneliti yang berasal dari Wellesley College, Oberlin College, University of Texas di Austin, Northeastern University, dan Startup Cursor menciptakan tolok ukur AI menggunakan teka -teki dari episode puzzle hari Minggu. Tim mengatakan tes mereka mengungkap wawasan yang mengejutkan, seperti yang disebut model penalaran-Openai’s O1, antara lain-kadang-kadang “menyerah” dan memberikan jawaban yang mereka tahu tidak benar.

“Kami ingin mengembangkan tolok ukur dengan masalah yang dapat dipahami manusia dengan hanya pengetahuan umum,” Arjun Guha, seorang sarjana ilmu komputer di Northeastern dan salah satu penulis rekan kerja dalam penelitian ini, mengatakan kepada TechCrunch.

Industri AI sedang dalam sedikit kebingungan saat ini. Sebagian besar tes yang biasa digunakan untuk mengevaluasi model AI menyelidiki keterampilan, seperti kompetensi pada pertanyaan matematika dan sains tingkat PhD, yang tidak relevan dengan pengguna rata-rata. Sementara itu, banyak tolok ukur – bahkan tolok ukur yang dirilis relatif baru -baru ini – dengan cepat mendekati titik saturasi.

Keuntungan dari permainan kuis radio publik seperti teka -teki hari Minggu adalah bahwa ia tidak menguji pengetahuan esoterik, dan tantangannya diutarakan sedemikian rupa sehingga model tidak dapat memanfaatkan “memori hancur” untuk menyelesaikannya, jelas Guha.

“Saya pikir apa yang membuat masalah ini sulit adalah bahwa sangat sulit untuk membuat kemajuan yang berarti pada suatu masalah sampai Anda menyelesaikannya – saat itulah semuanya diklik bersama sekaligus,” kata Guha. “Itu membutuhkan kombinasi wawasan dan proses eliminasi.”

Tidak ada tolok ukur yang sempurna, tentu saja. Teka-teki hari Minggu adalah AS dan hanya Inggris. Dan karena kuis tersedia di depan umum, ada kemungkinan bahwa model yang dilatih pada mereka dan dapat “menipu” dalam arti tertentu, meskipun Guha mengatakan dia belum melihat bukti tentang hal ini.

“Pertanyaan baru dirilis setiap minggu, dan kami dapat mengharapkan pertanyaan terbaru benar -benar tidak terlihat,” tambahnya. “Kami bermaksud untuk menjaga benchmark tetap segar dan melacak bagaimana kinerja model berubah dari waktu ke waktu.”

Pada tolok ukur para peneliti, yang terdiri dari sekitar 600 teka -teki teka -teki hari Minggu, model penalaran seperti O1 dan Deepseek R1 jauh mengungguli yang lainnya. Model penalaran benar-benar memeriksa diri mereka sendiri sebelum memberikan hasil, yang membantu mereka Hindari beberapa jebakan Itu biasanya trip up model AI. Pertukarannya adalah bahwa model penalaran membutuhkan waktu sedikit lebih lama untuk sampai pada solusi-biasanya detik hingga menit lebih lama.

Setidaknya satu model, Deepseek’s R1, memberikan solusi yang diketahui salah untuk beberapa pertanyaan teka -teki hari Minggu. R1 akan menyatakan kata demi kata “Saya menyerah,” diikuti dengan jawaban yang salah yang dipilih secara acak – perilaku yang dapat dihubungkan oleh manusia ini.

Model -model membuat pilihan aneh lainnya, seperti memberikan jawaban yang salah hanya untuk segera menariknya, berusaha untuk menggoda yang lebih baik, dan gagal lagi. Mereka juga terjebak “berpikir” selamanya dan memberikan penjelasan yang tidak masuk akal untuk jawaban, atau mereka tiba di jawaban yang benar segera tetapi kemudian terus mempertimbangkan jawaban alternatif tanpa alasan yang jelas.

“Pada masalah keras, R1 benar -benar mengatakan bahwa itu menjadi ‘frustrasi,'” kata Guha. “Lucu melihat bagaimana seorang model meniru apa yang bisa dikatakan manusia. Masih harus dilihat bagaimana ‘frustrasi’ dalam penalaran dapat mempengaruhi kualitas hasil model. “

R1 menjadi “frustrasi” pada sebuah pertanyaan di set tantangan teka -teki Minggu.Kredit gambar:Guha et al.

Model berkinerja terbaik saat ini pada tolok ukur adalah O1 dengan skor 59%, diikuti oleh yang baru dirilis O3-Mini ditetapkan ke “upaya penalaran” yang tinggi (47%). (R1 mencetak 35%.) Sebagai langkah berikutnya, para peneliti berencana untuk memperluas pengujian mereka ke model penalaran tambahan, yang mereka harapkan akan membantu mengidentifikasi area di mana model ini mungkin ditingkatkan.

Benchmark NPR — Skor model yang diuji tim pada tolok ukur mereka.Kredit gambar:Guha et al.

“Anda tidak membutuhkan PhD untuk menjadi ahli dalam penalaran, jadi harus dimungkinkan untuk merancang tolok ukur penalaran yang tidak memerlukan pengetahuan tingkat PhD,” kata Guha. “Benchmark dengan akses yang lebih luas memungkinkan serangkaian peneliti yang lebih luas untuk memahami dan menganalisis hasilnya, yang pada gilirannya dapat menyebabkan solusi yang lebih baik di masa depan. Selain itu, karena model canggih semakin banyak digunakan dalam pengaturan yang mempengaruhi semua orang, kami percaya semua orang harus dapat mengintuisi apa model ini-dan tidak-mampu. ”

Source

Edward Gunawan Februari 6, 2025

0 3 minutes read

Para peneliti ini menggunakan pertanyaan teka -teki NPR Sunday untuk membandingkan model ‘penalaran’ AI

Edward Gunawan

Tinggalkan Balasan Batalkan balasan

Olimpiade Khusus World Winter Games dimulai di Turin, Italia, dengan 1.500 atlet

Bicara cepat dengan Boy Abunda: Julie Anne San Jose dan Ysabel Ortega, Bunuh! (Episode 551)

Inter Advance to Champions League Quarterfinals: Bisakah Simon Inzaghi membanggakan tentang treble terjadi?

Video: kebanyakan jelas, semilir malam ini

Stephen A. Smith mengakui bahwa dia ‘tidak bisa berhubungan seks’ setelah kemenangan playoff Tim Tebow

Olimpiade Khusus World Winter Games dimulai di Turin, Italia, dengan 1.500 atlet

Spoiler NCIS Musim 22 Episode 10: Romansa Torres yang Penuh Gairah Mengancam Menggagalkan Tim

HYYH BTS Masih Menjadi Momen Terindah dalam Hidup: Podcast

Bagaimana pendidikan di Gaza menentang perang Israel?

Di India, penginjil wanita Katolik hidup sesuai dengan panggilan Paus Francis untuk kepemimpinan wanita

OpenAI memperkenalkan agen ‘Operator’ yang menangani tugas web

Subscribe to our mailing list to get the new updates!

Meghan Markle mengambil 'Pelajaran Styling,' menyumbangkan pakaian untuk korban kebakaran

Chicago PD Season 12 Episode 12 Ulasan: Torres menghadapi krisis iman setelah Kasus Gelap

Related Articles

Tinggalkan Balasan Batalkan balasan

Olimpiade Khusus World Winter Games dimulai di Turin, Italia, dengan 1.500 atlet

Spoiler NCIS Musim 22 Episode 10: Romansa Torres yang Penuh Gairah Mengancam Menggagalkan Tim

HYYH BTS Masih Menjadi Momen Terindah dalam Hidup: Podcast

Bagaimana pendidikan di Gaza menentang perang Israel?

Di India, penginjil wanita Katolik hidup sesuai dengan panggilan Paus Francis untuk kepemimpinan wanita

OpenAI memperkenalkan agen ‘Operator’ yang menangani tugas web