Deepseek, startup AI Cina saat ini membuat gelombang di dunia teknologi dan mengirim pasar saham lebih rendah secara global, telah meluncurkan Janus Model Family, serangkaian model multimodal yang dirancang untuk pemahaman dan generasi gambar.

Rilis seri model Janus mengikuti rilis yang berdampak dari model penalaran Deepseek R1 minggu lalu, yang telah mengganggu industri AI dengan kinerja tinggi dan efisiensi biaya yang belum pernah terjadi sebelumnya.

Pada NVIDIA H800 GPU di bawah sanksi A.S., R1 mencocokkan atau melebihi tolok ukur model seperti Openai’s O1 sambil menelan biaya sebagian kecil untuk dikembangkan. Kenaikan perusahaan telah menarik perhatian global, dengan aplikasinya sekarang melampaui chatgpt sebagai unduhan teratas di toko aplikasi AS Apple.

terkait: karyawan meta mengatakan tim AI mereka berada dalam”Mode Panik”setelah Deepseek R1 Release

Deepseek’s Model Pro Dall-E 3 dan difusi stabil XL

Tersedia di bawah lisensi MIT open-source, model Janus Berkisar dari 1 miliar hingga 7 miliar parameter dan mengungguli Dall-e 3 dan stabilitas stabil stabil stabilitas AI dalam tolok ukur utama seperti Geneval dan DPG-Bench. Asumsi bahwa sumber daya komputasi skala besar sangat penting untuk pengembangan AI mutakhir.

The Janus-Pro-7b , model terbesar dalam seri, menunjukkan kemampuan luar biasa, mencapai skor FID 9,51 MJHQ untuk pembuatan gambar dan memberikan kinerja yang tak tertandingi dalam tugas mengikuti instruksi.

Terkait: Model penalaran Deepseek R1 China dan pesaing Openai O1 sangat disensor

Selain model Janus-Pro, seri Janus termasuk yang lebih kecil, Model serbaguna yang dirancang untuk berbagai aplikasi.

The janus-1.3b model adalah salah satu versi skala kecil di Keluarga Janus, yang dirancang untuk menyeimbangkan efisiensi komputasi dengan kemampuan multimodal. Menampilkan 1,3 miliar parameter, model ini sangat cocok untuk tugas yang membutuhkan solusi AI yang ringkas namun efektif, seperti penyebaran ringan pada perangkat keras atau perangkat tepi tingkat konsumen.

Arsitekturnya menggabungkan sistem encoder yang dipisahkan, yang memisahkan pemahaman visual dari tugas pembuatan, mengurangi gangguan dan meningkatkan akurasi khusus tugas. Sementara lebih kecil dari Janus-Pro, Janus-1.3b mencapai hasil yang terpuji pada tolok ukur seperti Geneval, menunjukkan kemampuannya untuk berkinerja baik dalam pengikut instruksi dan analisis gambar dengan sumber daya yang lebih sedikit.

janusflow-1.3b Model berfungsi sebagai entri dasar dalam seri, memelopori integrasi aliran yang diperbaiki untuk tugas pembuatan gambar. Aliran yang diperbaiki mengoptimalkan dinamika variabel laten, memberikan konsistensi semantik yang lebih tinggi dan kesetiaan visual tanpa proses pengurangan noise iteratif karakteristik model difusi.

Pendekatan minimalis ini mengurangi overhead komputasi, menjadikan JanusFlow solusi praktis untuk lingkungan dengan kendala perangkat keras. Arsitektur JanusFlow juga menampilkan sistem enkoder yang dipisahkan, yang telah terbukti sangat penting dalam meningkatkan kinerja tugas multimodal dengan mengisolasi pemahaman visual dan jalur pembuatan.

Di jantung model Janus adalah desain enkoder yang dipisahkan, yang memisahkan pemahaman visual dari tugas pembuatan gambar. Pilihan arsitektur ini memastikan bahwa tidak ada tugas yang mengganggu yang lain, mengoptimalkan kinerja untuk keduanya.

Sumber: Deepseek

Seperti yang dijelaskan Deepseek dalam dokumentasinya,“ Perbedaan kinerja antara desain enkoder yang dibagikan dan dipisahkan memvalidasi perlunya encoder visual yang terpisah untuk tugas pemahaman dan pembuatan.”

Juga memanfaatkan aliran yang diperbaiki, teknik yang menyederhanakan pembuatan gambar dengan mengoptimalkan dinamika variabel laten.=”1024″tinggi=”589″src=”data: gambar/gif; base64, r0lgodlhaqabaaaach5baeekaaalaaaaaabaaaaaaCtaictaeaow==”> Sumber: Deepseek

strategi pelatihan dan efisiensi

Model Janus mengikuti proses tiga tahap yang cermat:

Adaptasi komponen : Encoder dan decoder yang diinisialisasi secara acak dioptimalkan untuk tugas-tugas tertentu. Unified Pre-Training : Kumpulan data multimodal digunakan untuk mengembangkan kemampuan pemahaman dan generasi secara bersamaan. Fine-tuning yang diawasi : Dataset khusus tugas meningkatkan akurasi model dalam aplikasi dunia nyata.

Pendekatan ramping ini memungkinkan model Janus mengungguli model yang lebih besar sambil mempertahankan jejak komputasi yang dapat dikelola.

“Kami melatih model kami dalam tiga tahap berurutan: adaptasi komponen yang diinisialisasi secara acak, pra-pelatihan terpadu dengan data multimodal, dan disempurnakan diawasi menggunakan dataset penyetelan instruksi,”catatan Deepseek.

Lebar img=”1024″tinggi=”873″src=”data: gambar/gif; base64, r0lgodlhaqabaaaach5baeekaaeaeaaaaaaaabaaaaactaictaeaow==”> Sumber: Deepseek

Keluarga Janus dibangun berdasarkan keberhasilan model R1 Deepseek, yang saat ini membuat Wavese, yang membuat Waves Bufak Dengan menunjukkan bahwa AI berkinerja tinggi dapat dicapai di bawah pembatasan perangkat keras yang ketat. Model-Di sebagian kecil dari biaya.

“Kami memperkirakan bahwa model domestik dan asing terbaik mungkin memiliki celah satu kali lipat dalam struktur model dan dinamika pelatihan,”kata Liang Wenfeng, pendiri Deepseek. “Untuk alasan ini, kita perlu mengkonsumsi kekuatan komputasi empat kali lebih banyak untuk mencapai efek yang sama. What we need to do is continuously narrow these gaps.”

DeepSeek’s commitment to open-source collaboration sets it apart from competitors. By releasing the Janus models under an MIT license, the company provides developers worldwide with access to Resep pelatihan, bobot model, dan detail implementasi. Dengan ketegangan geopolitik yang tinggi antara AS dan Cina atas akses ke teknologi AI canggih. Mengoptimalkan penggunaannya, Deepseek telah mengubah keterbatasan perangkat keras menjadi keunggulan kompetitif.

Model Janus juga menimbulkan tantangan terhadap strategi sumber daya yang diadopsi oleh pesaing seperti Meta.

CEO meta Mark Zuckerberg baru-baru ini mengumumkan rencana untuk menggunakan lebih dari 1,3 juta GPU pada tahun 2025, menekankan fokus perusahaan pada infrastruktur skala besar. Sebaliknya, pendekatan yang lebih ramping Deepseek membuktikan bahwa efisiensi dan inovasi strategis dapat menyaingi kekuatan komputasi brute.

Categories: IT Info