Berita

Deepseek China menghadapi pertanyaan atas klaim setelah mengguncang teknologi global

Setelah menyebabkan gelombang kejut dengan model AI dengan kemampuan menyaingi kreasi Google dan Openai, Deepseek China menghadapi pertanyaan tentang apakah klaimnya yang berani bertahan untuk diteliti.

Pengumuman startup yang berbasis di Hangzhou bahwa mereka mengembangkan R1 di sebagian kecil dari biaya model terbaru Silicon Valley segera mempertanyakan asumsi tentang dominasi Amerika Serikat di AI dan penilaian pasar tinggi dari perusahaan teknologi teratasnya.

Namun, beberapa skeptis telah menantang akun Deepseek tentang bekerja dengan anggaran ketat, menunjukkan bahwa perusahaan kemungkinan memiliki akses ke chip yang lebih maju dan lebih banyak dana daripada yang diakui.

“Ini adalah pertanyaan terbuka apakah klaim Deepseek dapat diambil dengan nilai nominal. Komunitas AI akan menggali mereka dan kami akan mencari tahu, ”Pedro Domingos, Profesor Emeritus ilmu komputer dan teknik di University of Washington, mengatakan kepada Al Jazeera.

“Sangat masuk akal bagi saya bahwa mereka dapat melatih model dengan $ 6 juta,” tambah Domingos.

“Tapi juga sangat mungkin bahwa itu hanya biaya model penyesuaian dan pasca-pemrosesan yang harganya lebih mahal, Deepseek tidak bisa melakukannya tanpa membangun model yang lebih mahal oleh orang lain.”

Dalam sebuah makalah penelitian yang dirilis minggu lalu, tim pengembangan Deepseek mengatakan mereka telah menggunakan 2.000 GPU NVIDIA H800 – chip yang kurang canggih yang awalnya dirancang untuk mematuhi kontrol ekspor AS – dan menghabiskan $ 5,6 juta untuk melatih model dasar R1, V3.

CEO OpenAI Sam Altman telah menyatakan bahwa harganya lebih dari $ 100 juta untuk melatih chatbot GPT-4-nya, sementara analis memperkirakan bahwa model tersebut menggunakan sebanyak 25.000 GPU H100 yang lebih maju.

Pengumuman oleh Deepseek, yang didirikan pada akhir 2023 oleh pengusaha serial Liang Wenfeng, membalikkan keyakinan yang dipegang secara luas bahwa perusahaan yang ingin berada di garis depan AI perlu menginvestasikan miliaran dolar di pusat data dan sejumlah besar chip kelas atas yang mahal.

Ini juga menimbulkan pertanyaan tentang efektivitas upaya Washington untuk membatasi sektor AI Cina dengan melarang ekspor chip paling canggih.

Saham NVIDIA yang berbasis di California, yang memiliki monopoli hampir pada pasokan GPU yang memberi daya pada AI generatif, pada hari Senin jatuh 17 persen, menghapus hampir $ 593 miliar dari nilai pasar raksasa chip-angka yang sebanding dengan produk domestik bruto (PDP ) dari Swedia.

Meskipun ada konsensus luas bahwa pelepasan R1 Deepseek setidaknya merupakan pencapaian yang signifikan, beberapa pengamat terkemuka telah memperingatkan agar tidak mengambil klaimnya pada nilai nominal.

Palmer Luckey, pendiri perusahaan realitas virtual Oculus VR, pada hari Rabu menyebut anggaran Deepseek yang diklaim sebagai “palsu” dan menuduh terlalu banyak “idiot yang berguna” jatuh untuk “propaganda Cina”.

“Ini didorong oleh dana lindung nilai Tiongkok untuk memperlambat investasi di startup AI Amerika, melayani celana pendek mereka sendiri terhadap raksasa Amerika seperti Nvidia, dan menyembunyikan penghindaran sanksi,” kata Luckey dalam sebuah pos di X.

“Amerika adalah tempat tidur subur untuk psyop seperti ini karena peralatan media kami membenci perusahaan teknologi kami dan ingin melihat Presiden Trump gagal.”

Dalam sebuah wawancara dengan CNBC minggu lalu, Alexandr Wang, CEO Skala AI, juga meragukan akun Deepseek, mengatakan itu adalah “pemahaman” bahwa ia memiliki akses ke 50.000 chip H100 yang lebih maju yang tidak dapat dibicarakan karena ekspor AS kami kontrol.

Wang tidak memberikan bukti untuk klaimnya.

Elon Musk berbicara di acara Parade Peresmian Presiden di Washington, DC pada 20 Januari 2025 [Matt Rourke/AP]

Miliarder Tech Elon Musk, salah satu kepercayaan terdekat Presiden AS Donald Trump, mendukung skeptis Deepseek, menulis “jelas” di X di bawah pos tentang klaim Wang.

Deepseek tidak menanggapi permintaan komentar.

Tapi Zihan Wang, seorang kandidat PhD yang bekerja pada model Deepseek sebelumnya, membalas kritik startup, dengan mengatakan, “Bicara itu murah.”

“Sangat mudah untuk dikritik,” kata Wang pada X dalam menanggapi pertanyaan dari Al Jazeera tentang saran bahwa klaim Deepseek tidak boleh diambil pada nilai nominal.

“Jika mereka menghabiskan lebih banyak waktu untuk mengerjakan kode dan mereproduksi ide Deepseek itu sendiri, itu akan lebih baik daripada berbicara di atas kertas,” tambah Wang, menggunakan terjemahan bahasa Inggris dari idiom Cina tentang orang -orang yang terlibat dalam pembicaraan kosong.

Dia tidak menanggapi langsung pertanyaan tentang apakah dia percaya Deepseek telah menghabiskan kurang dari $ 6 juta dan menggunakan chip yang kurang canggih untuk melatih model dasar R1.

Dalam sebuah wawancara tahun 2023 dengan outlet media Cina, Liang mengatakan perusahaannya telah menimbun 10.000 chip A100 NVIDIA-yang lebih tua dari H800-sebelum administrasi Presiden AS Joe Biden saat itu melarang ekspor mereka.

Pengguna R1 juga menunjukkan keterbatasan yang dihadapinya karena asal -usulnya di Cina, yaitu sensor topik yang dianggap sensitif oleh Beijing, termasuk pembantaian 1989 di Tiananmen Square dan status Taiwan.

Dalam tanda bahwa kepanikan awal tentang dampak potensial Deepseek pada sektor teknologi AS telah mulai surut, harga saham Nvidia pada hari Selasa pulih hampir 9 persen.

Nasdaq 100 yang berat teknologi naik 1,59 persen setelah turun lebih dari 3 persen pada hari sebelumnya.

Tim Miller, seorang profesor yang berspesialisasi dalam AI di University of Queensland, mengatakan sulit untuk mengatakan berapa banyak stok yang harus dimasukkan ke dalam klaim Deepseek.

“Model itu sendiri memberikan beberapa detail tentang cara kerjanya, tetapi biaya perubahan utama yang mereka klaim – yang saya pahami – jangan ‘muncul’ dalam model itu sendiri,” kata Miller kepada Al Jazeera.

Miller mengatakan dia belum melihat “lonceng alarm” tetapi ada argumen yang masuk akal baik untuk dan menentang mempercayai makalah penelitian.

“Terobosan itu luar biasa – hampir gaya ‘terlalu bagus untuk menjadi benar’. Rincian biaya tidak jelas, ”kata Miller.

Di sisi lain, katanya, terobosan terjadi sesekali dalam ilmu komputer.

“Model skala besar ini adalah fenomena yang sangat baru, sehingga efisiensi pasti dapat ditemukan,” kata Miller.

“Mengingat mereka tahu bahwa ini akan cukup mudah untuk direproduksi orang lain, mereka akan tahu bahwa mereka akan terlihat bodoh jika mereka adalah semua orang. Ada tim yang sudah berkomitmen untuk mencoba mereproduksi pekerjaan. ”

Biaya penurunan

Lucas Hansen, salah satu pendiri Civai nirlaba, mengatakan sementara itu sulit untuk mengetahui apakah Deepseek menghindari kontrol ekspor AS, anggaran pelatihan yang diklaim oleh startup yang dirujuk ke V3, yang kira-kira setara dengan Openai GPT-4, bukan R1 sendiri.

“Pelatihan Selesai GPT-4 Akhir 2022. Ada banyak peningkatan algoritmik dan perangkat keras sejak 2022, menurunkan biaya pelatihan model kelas GPT-4. Situasi serupa terjadi pada GPT-2. Pada saat itu adalah upaya serius untuk berlatih, tetapi sekarang Anda dapat melatihnya seharga $ 20 dalam 90 menit, ”kata Hansen kepada Al Jazeera.

“Deepseek membuat R1 dengan mengambil model dasar – dalam hal ini, V3 – dan menerapkan beberapa metode cerdas untuk mengajarkan model dasar itu untuk berpikir lebih hati -hati,” tambah Hansen.

“Proses pengajaran ini relatif murah jika dibandingkan dengan harga pelatihan model dasar. Sekarang Deepseek telah menerbitkan rincian tentang cara bootstrap model dasar menjadi model pemikiran, kita akan melihat sejumlah besar model pemikiran baru. “

Source link

Related Articles

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Back to top button