Berita
Jamba Reasoning 3B Ai21 mendefinisikan ulang arti “kecil” dalam konteks LLMS – 250K di laptop
Penambahan terbaru pada gelombang model usaha kecil berasal dari AI21 bagusdan yakin bahwa menghadirkan model ke perangkat akan membebaskan lalu lintas di pusat data.
AI21 Jamba Reasoning 3B, model “mini” open source yang dapat menjalankan penalaran yang diperluas, menghasilkan kode, dan merespons berdasarkan kebenaran. Jamba Reasoning 3B menangani lebih dari 250.000 kode dan dapat menjalankan penalaran pada perangkat edge.
Jamba Teeding 3B berfungsi pada perangkat seperti laptop dan ponsel, kata perusahaan itu.
Ori Goshen, Co-Ceo AI21, mengatakan kepada VentureBeat bahwa perusahaan melihat lebih banyak kasus penggunaan perusahaan untuk model kecil, terutama karena memindahkan lebih banyak inferensi ke perangkat keras akan mengosongkan pusat data.
“Apa yang kita lihat sekarang di industri ini adalah masalah ekonomi di mana pembangunan pusat data sangat mahal, dan pendapatan yang dihasilkan dari pusat data versus tingkat penyusutan semua chip mereka menunjukkan bahwa perhitungannya tidak masuk akal,” kata Goshen.
Dia menambahkan bahwa di masa depan, “sebagian besar industri akan bersifat hybrid, yang berarti sebagian komputasi akan dilakukan pada perangkat keras lokal dan kesimpulan lainnya akan berpindah ke GPU.”
Diuji di MacBook
Jamba Indualing 3B menggabungkan arsitektur Mamba dengan adaptor untuk memungkinkannya menjalankan jendela nominal 250K pada perangkat keras. AI21 mengatakan dapat melakukan kecepatan deduksi 2-4x lebih cepat. Goshen mengatakan arsitektur Mamba berkontribusi besar terhadap kecepatan model tersebut.
Arsitektur hybrid Jamba 3B juga memungkinkan pengurangan kebutuhan memori, sehingga mengurangi kebutuhan komputasi.
AI21 menguji model tersebut pada MacBook Pro standar dan menemukan bahwa model tersebut dapat memproses 35 kode per detik.
Model ini bekerja paling baik untuk tugas-tugas yang melibatkan fungsi pemanggilan, alat pengarahan, dan alat pengarahan, kata Goshen. Permintaan sederhana, seperti meminta informasi tentang pertemuan yang akan datang dan meminta formulir untuk membuat agenda, dapat dilakukan di perangkat, katanya. Tugas penalaran yang lebih kompleks dapat disimpan ke cluster GPU.
Model kecil di perusahaan
Organisasi tertarik untuk menggunakan campuran model kecil, beberapa disesuaikan dengan industri mereka dan beberapa versi LLM yang ringkas.
Pada bulan September, mati Dilepaskan Mobilellm-R1, keluarga model berpikir Mulai dari 140 meter hingga 950 meter. Model ini dirancang untuk matematika, pengkodean, dan pemikiran ilmiah, bukan untuk aplikasi obrolan. Mobilellm-R1 dapat bekerja pada perangkat yang dibatasi akun.
Google‘S permata Ini adalah salah satu model kecil pertama yang masuk ke pasar, dirancang untuk dijalankan pada perangkat portabel seperti laptop dan ponsel. Gemma sejak itu Itu telah diperluas.
Perusahaan seperti Fico Mereka juga mulai membuat model mereka sendiri. FICO diluncurkan Bahasanya yang berfokus pada FICO adalah model kecil yang berfokus pada FICO yang hanya akan menjawab pertanyaan khusus keuangan Anda.
Goshen mengatakan perbedaan besar yang ditawarkan model mereka adalah model ini lebih kecil dibandingkan kebanyakan model lainnya, namun dapat menjalankan tugas-tugas berpikir tanpa mengorbankan kecepatan.
Tes pengukuran
Dalam pengujian benchmark, Jamba Reasoning 3B menunjukkan performa yang kuat dibandingkan model kecil lainnya, termasuk Qwen 4b, matillama 3.2b-3b, dan phi-4-mini dari Microsoft.
Ini mengungguli semua model dalam tes IFBench dan ujian Last of Mankind, meskipun berada di urutan kedua setelah Qwen 4 di MMLU-Pro.
Keuntungan lain dari model kecil seperti Jamba Reasoning 3B adalah model tersebut sangat terukur dan memberikan opsi privasi yang lebih baik bagi organisasi karena alasannya tidak dikirim ke server lain, kata Goshen.
“Saya pikir ada dunia di luar sana yang dapat Anda optimalkan untuk kebutuhan dan pengalaman pelanggan, dan model yang akan disimpan di perangkat adalah bagian besar dari hal tersebut,” katanya.