Bagaimana Deepseek Membangun AI -nya dengan lebih sedikit uang?
![Bagaimana Deepseek Membangun AI -nya dengan lebih sedikit uang? Bagaimana Deepseek Membangun AI -nya dengan lebih sedikit uang?](https://bisniskini.com/wp-content/uploads/2025/02/00deepseek-howto-cfpb-facebookJumbo-780x470.jpg)
Bulan lalu, pasar keuangan AS jatuh setelah start-up Cina bernama Deepseek mengatakan telah membangun salah satu sistem kecerdasan buatan paling kuat di dunia menggunakan chip komputer yang jauh lebih sedikit daripada yang dipikirkan oleh banyak ahli.
Perusahaan AI biasanya melatih chatbot mereka menggunakan superkomputer yang dikemas dengan 16.000 chip khusus atau lebih. Tapi Deepseek mengatakan hanya membutuhkan sekitar 2.000.
Seperti yang didetail oleh para insinyur dalam a Makalah Penelitian Diterbitkan tepat setelah Natal, start-up menggunakan beberapa trik teknologi untuk secara signifikan mengurangi biaya membangun sistemnya. Insinyurnya hanya membutuhkan sekitar $ 6 juta dalam kekuatan komputasi mentah, kira-kira sepersepuluh dari apa yang dihabiskan meta dalam membangun teknologi AI terbaru.
Apa sebenarnya yang dilakukan Deepseek? Ini panduannya.
Bagaimana teknologi AI dibangun?
Teknologi AI terkemuka didasarkan pada apa yang oleh para ilmuwan menyebut jaringan saraf, sistem matematika yang mempelajari keterampilan mereka dengan menganalisis sejumlah besar data.
Sistem yang paling kuat menghabiskan waktu berbulan -bulan menganalisis hampir semua teks bahasa Inggris di internet serta banyak gambar, suara, dan multimedia lainnya. Itu membutuhkan daya komputasi dalam jumlah besar.
Sekitar 15 tahun yang lalu, para peneliti AI menyadari bahwa chip komputer khusus yang disebut unit pemrosesan grafis, atau GPU, adalah cara yang efektif untuk melakukan analisis data semacam ini. Perusahaan seperti pembuat chip Silicon Valley Nvidia awalnya merancang chip ini untuk membuat grafik untuk video game komputer. Tetapi GPU juga memiliki bakat untuk menjalankan matematika yang bertenaga jaringan saraf.
Ketika perusahaan mengemas lebih banyak GPU ke pusat data komputer mereka, sistem AI mereka dapat menganalisis lebih banyak data.
Tetapi biaya GPU terbaik sekitar $ 40.000, dan mereka membutuhkan listrik dalam jumlah besar. Mengirim data antar chip dapat menggunakan lebih banyak daya listrik daripada menjalankan chip sendiri.
Bagaimana Deepseek dapat mengurangi biaya?
Itu melakukan banyak hal. Terutama, itu menganut metode yang disebut “campuran ahli.”
Perusahaan biasanya membuat jaringan saraf tunggal yang mempelajari semua pola dalam semua data di internet. Ini mahal, karena membutuhkan sejumlah besar data untuk bepergian di antara chip GPU.
Jika satu chip belajar bagaimana menulis puisi dan yang lain belajar bagaimana menulis program komputer, mereka masih perlu berbicara satu sama lain, kalau -kalau ada beberapa tumpang tindih antara puisi dan pemrograman.
Dengan campuran metode ahli, para peneliti mencoba untuk menyelesaikan masalah ini dengan membagi sistem menjadi banyak jaringan saraf: satu untuk puisi, satu untuk pemrograman komputer, satu untuk biologi, satu untuk fisika dan sebagainya. Mungkin ada 100 sistem “ahli” yang lebih kecil ini. Setiap ahli dapat berkonsentrasi pada bidang khususnya.
Banyak perusahaan telah berjuang dengan metode ini, tetapi Deepseek mampu melakukannya dengan baik. Triknya adalah memasangkan sistem “ahli” yang lebih kecil dengan sistem “generalis”.
Para ahli masih perlu memperdagangkan beberapa informasi satu sama lain, dan generalis – yang memiliki pemahaman yang layak tetapi tidak rinci dari setiap subjek – dapat membantu mengoordinasikan interaksi antara para ahli.
Agak seperti seorang editor yang mengawasi ruang redaksi yang diisi dengan wartawan spesialis.
Dan itu lebih efisien?
Lebih banyak lagi. Tapi itu bukan satu -satunya hal yang dilakukan Deepseek. Itu juga menguasai trik sederhana yang melibatkan desimal yang dapat dipahami oleh siapa saja yang ingat kelas matematika sekolah dasarnya.
Ada matematika yang terlibat dalam hal ini?
Ingat guru matematika Anda yang menjelaskan konsep pi. Pi, juga dilambangkan sebagai π, adalah angka yang tidak pernah berakhir: 3.14159265358979…
Anda dapat menggunakan π untuk melakukan perhitungan yang bermanfaat, seperti menentukan keliling lingkaran. Saat Anda melakukan perhitungan itu, Anda mempersingkat π menjadi hanya beberapa desimal: 3.14. Jika Anda menggunakan angka yang lebih sederhana ini, Anda mendapatkan estimasi keliling lingkaran yang cukup bagus.
Deepseek melakukan hal serupa – tetapi dalam skala yang jauh lebih besar – dalam melatih teknologi AI -nya.
Matematika yang memungkinkan jaringan saraf untuk mengidentifikasi pola dalam teks benar -benar hanya perkalian – banyak dan banyak dan banyak penggandaan. Kita berbicara berbulan -bulan perkalian di ribuan chip komputer.
Biasanya, chip mengalikan angka yang pas dengan 16 bit memori. Tapi Deepseek meremas setiap angka menjadi hanya 8 bit memori – setengah dari ruang. Intinya, itu merampok beberapa desimal dari setiap angka.
Ini berarti bahwa setiap perhitungan kurang akurat. Tapi itu tidak masalah. Perhitungannya cukup akurat untuk menghasilkan jaringan saraf yang sangat kuat.
Itu saja?
Nah, mereka menambahkan trik lain.
Setelah memeras setiap angka menjadi 8 bit memori, Deepseek mengambil rute yang berbeda saat mengalikan angka -angka itu bersama -sama. Saat menentukan jawaban untuk setiap masalah multiplikasi – membuat perhitungan utama yang akan membantu memutuskan bagaimana jaringan saraf akan beroperasi – itu merentangkan jawaban di 32 bit memori. Dengan kata lain, itu membuat lebih banyak desimal. Itu membuat jawabannya lebih tepat.
Jadi ada siswa sekolah menengah yang bisa melakukan ini?
Nah, tidak. Insinyur Deepseek menunjukkan dalam makalah mereka bahwa mereka juga sangat pandai menulis kode komputer yang sangat rumit yang memberi tahu GPU apa yang harus dilakukan. Mereka tahu cara memeras lebih banyak efisiensi dari chip ini.
Hanya sedikit orang yang memiliki keterampilan seperti itu. Tapi Serious AI Labs memiliki insinyur berbakat yang dibutuhkan untuk mencocokkan apa yang telah dilakukan Deepseek.
Lalu mengapa mereka belum melakukan ini?
Beberapa laboratorium AI mungkin sudah menggunakan setidaknya beberapa trik yang sama. Perusahaan seperti Openai tidak selalu mengungkapkan apa yang mereka lakukan di balik pintu tertutup.
Tetapi yang lain jelas terkejut dengan karya Deepseek. Melakukan apa yang dilakukan start-up tidak mudah. Eksperimen yang diperlukan untuk menemukan terobosan seperti ini melibatkan jutaan dolar – jika tidak miliaran – dalam tenaga listrik.
Dengan kata lain, itu membutuhkan risiko yang sangat besar.
“Anda harus menaruh banyak uang di telepon untuk mencoba hal -hal baru – dan seringkali, mereka gagal,” kata Tim Dettmers, seorang peneliti di Institut Allen untuk Kecerdasan Buatan di Seattle yang berspesialisasi dalam membangun sistem AI yang efisien dan sebelumnya berfungsi sebagai sebagai seorang peneliti AI di meta.
“Itulah sebabnya kami tidak melihat banyak inovasi: orang takut kehilangan jutaan hanya untuk mencoba sesuatu yang tidak berhasil,” tambahnya.
Banyak pakar menunjukkan bahwa Deepseek $ 6 juta hanya mencakup apa yang dihabiskan start-up saat melatih versi final sistem. Dalam makalah mereka, para insinyur Deepseek mengatakan mereka telah menghabiskan dana tambahan untuk penelitian dan eksperimen sebelum pelatihan akhir berjalan. Tetapi hal yang sama berlaku untuk proyek AI mutakhir.
Deepseek bereksperimen, dan terbayar. Sekarang, karena start-up Cina telah berbagi metodenya dengan peneliti AI lainnya, trik teknologinya siap untuk secara signifikan mengurangi biaya pembangunan AI