Berita

Minimax-M1 adalah model open source baru dengan konteks kode 1M

Published

on

Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut


Perusahaan Cina AI Minimax, yang mungkin dikenal di Barat, telah merilis model video pria yang realistis Hailuo, gaya linguistik besar terbaru, Minimax-M1 – Dalam berita bagus untuk institusi dan pengembang, itu sepenuhnya Sumber terbuka di bawah lisensi Apache 2.0Dalam arti bahwa perusahaan dapat mengambilnya dan menggunakannya untuk aplikasi komersial dan memodifikasinya sesuai dengan keinginan mereka tanpa batasan atau pembayaran.

M1 adalah tampilan kelas terbuka yang menentukan kriteria baru dalam pemikiran lama dalam konteks, menggunakan alat agen, dan melakukan akun yang efektif. Ini tersedia hari ini di komunitas berbagi kode intelijen sosial Sulaman Dan Microsoft Conduarari Community GitHubVersi pertama perusahaan yang disebut “MinimaxWeek” dari akun sosialnya di X – dengan lebih banyak iklan produk yang diharapkan.

Minimax-M1 membedakan dirinya dengan jendela konteks satu juta simbol input dan hingga 80.000 ikon dalam output, yang menjadikannya sebagai salah satu model ekspansi paling banyak yang tersedia untuk tugas pemikiran lama dalam konteks.

“Jendela konteks” menunjukkan dalam model bahasa besar (LLM) ke jumlah simbol maksimum yang dapat diobati secara bersamaan – termasuk input dan output. Simbol adalah unit dasar teks, yang mungkin termasuk kata -kata lengkap, bagian kata, tanda penomoran, atau simbol kode. Simbol -simbol ini dikonversi menjadi pembawa digital yang digunakan oleh model untuk mewakili makna melalui parameter (bobot dan bias). Mereka, pada dasarnya, adalah bahasa ibu llm.

Untuk perbandingan, GPT-4O Openai Ini berisi jendela konteks hanya 128.000 simbol – yang cukup untuk ditukar Tentang Informasi Novel Antara pengguna dan model dalam satu reaksi bolak -balik. Dengan satu juta ikon, Minimax-M1 dapat menukar pertukaran kecil kelompok Atau informasi seri buku. Google Gemini 2.5 Pro menawarkan batas atas untuk konteks kode khas satu juta, juga, dengan dua juta -juta jendela dalam bisnis.

Tetapi M1 memiliki trik lain dari kepemilikannya: telah dilatih menggunakan pembelajaran penguatan dalam teknologi yang inovatif, banyak akal, dan sangat efisien. Model ini dilatih menggunakan kombinasi hibrida dijahit (MEE) dengan mekanisme perhatian petir yang dirancang untuk mengurangi biaya inferensi.

Menurut laporan teknis, Minimax-M1 hanya mengkonsumsi 25 % dari operasi titik mengambang (kegagalan) yang diperlukan oleh Deepsek R1 dengan panjang 100.000 simbol.

Arsitektur dan Variabel

Model ini hadir dalam dua tipe-minimax-M1-40K dan minimax-M1-80K-mengindikasikan “anggaran berpikir” atau panjang output.

Arsitektur dirancang pada perusahaan minimax-text-01 dan mencakup 456 miliar guru, dengan 45,9 miliar aktivasi untuk setiap simbol.

Fitur yang menonjol dari versi ini adalah biaya pelatihan formulir. Minimax melaporkan bahwa model M1 dilatih menggunakan pembelajaran penguatan skala besar (RL) secara efisien terlihat di bidang ini, dengan biaya total $ 534.700.

Efisiensi ini disebabkan oleh algoritma RL khusus yang disebut Cispo, yang memotong bobot penting untuk sampel alih -alih pembaruan simbolis, dan desain perhatian hibrida yang membantu menyederhanakan penskalaan.

Ini adalah jumlah “murah” yang luar biasa untuk Frontier LLM, di mana Deepseek melatih model pemikiran R1 yang sukses di A. Biaya biaya dari 5 hingga 6 juta dolarSementara biaya pelatihan untuk OpenAis ‘GPT-4- Ini adalah model selama lebih dari dua tahun sekarang Dikatakan melebihi 100 juta dolar. Biaya ini berasal dari kedua harga unit pemrosesan grafis (GPU), yang sebagian besar merupakan perangkat komputasi paralel yang terutama diproduksi oleh perusahaan seperti NVIDIA, yang dapat berharga 20.000-30.000 dolar atau lebih per unit, dan dari energi yang dibutuhkan untuk mengoperasikan chip ini secara terus menerus di pusat data besar.

Kinerja standar

Minimax-M1 dievaluasi melalui serangkaian kemampuan yang menguji pemikiran lanjutan, rekayasa perangkat lunak, dan kemampuan penggunaan alat.

Di AIME 2024, Kompetisi Matematika, M1-80K 86,0 % diajarkan. Ini juga memberikan kinerja yang kuat dalam tugas -tugas pengkodean dan konteks yang panjang, dan mencapai:

  • 65,0 % di LiveCodebench
  • 56,0 % di kursi SWE
  • 62,8 % di kursi
  • 73,4 % di OpenAI MRCR (Versi 4-era)

Hasil ini menempatkan Minimax-M1 sebelum pesaing mereka dalam bobot terbuka seperti Deepseek-R1 dan QWEN3-235B-A22B pada beberapa tugas kompleks.

Sementara model berat tertutup seperti Openai O3 dan Gemini 2.5 Pro masih menduduki puncak beberapa kriteria, Minimax-M1 sangat mempersempit kesenjangan kinerja sambil terus mencapainya dengan bebas di bawah lisensi Apache-2.0.

Untuk publikasi, Minimax VLLM merekomendasikan sebagai antarmuka latar belakang, mengutip peningkatan beban kerja model besar, efisiensi memori, dan pembayaran permintaan pembayaran. Perusahaan juga menyediakan opsi penerbitan menggunakan Perpustakaan Transformers.

Minimax-M1 mencakup potensi untuk menyiapkan pekerjaan terstruktur dan diisi dengan API Chatbot, yang mencakup pencarian online, pembuatan video dan gambar, sintesis ucapan, dan alat kloning audio. Fitur -fitur ini bertujuan untuk mendukung perilaku yang lebih luas dalam agen dalam aplikasi yang realistis.

Efek pembuat keputusan teknis dan pembeli lembaga

Akses terbuka ke Minimax-M1, kemampuan konteks panjang, dan perhitungan efisiensi banyak tantangan yang sering untuk profesional teknis yang bertanggung jawab untuk mengelola sistem kecerdasan buatan dalam skala besar.

Untuk rekayasa, Leginering bertanggung jawab untuk siklus hidup penuh LLMS-seperti meningkatkan kinerja model dan penerbitan dalam kerangka jadwal waktu sempit-minmax-M1 menyediakan file biaya operasi yang lebih rendah dengan dukungan untuk tugas-tugas pemikiran lanjutan. Jendela konteks yang panjang dapat secara signifikan mengurangi upaya pra -pemrosesan dari dokumen institusi atau data registri yang memperluas puluhan atau ratusan ribu simbol.

Bagi mereka yang mengelola pipa sinkron kecerdasan buatan, kemampuan untuk menyesuaikan dan menerbitkan Minimax-M1 menggunakan alat tetap seperti VLM atau Transformers mendukung integrasi termudah dalam infrastruktur saat ini. Struktur pendaftaran hybrid dapat membantu menyederhanakan strategi penskalaan, dan kinerja kompetitif model menyediakan multi -step dan standar teknik untuk perangkat lunak tinggi sebagai tingkat penyelesaian yang tinggi atau sistem berbasis agen.

Dari perspektif platform data, tim yang bertanggung jawab untuk mempertahankan infrastruktur yang efektif dan dikembangkan dapat mengambil manfaat dari dukungan M1 untuk menghubungkan fungsi yang terorganisir dan kompatibilitasnya dengan jaringan pipa otomatis. Open Source memberikan perbedaan untuk menyesuaikan kinerja dengan pokoknya tanpa mengunci penjual.

Utas pengaman juga dapat menemukan nilai dalam menilai kemampuan M1 untuk penerbitan aman lokal untuk orang yang sangat tidak dapat mentransfer data sensitif ke titik akhir bagian ketiga.

Gabungan, Minimax-M1 menawarkan opsi yang fleksibel untuk lembaga-lembaga yang menantikan pengalaman atau memperluas ruang lingkup kemungkinan kecerdasan buatan canggih sambil mengelola biaya, kelangsungan hidup dalam batas operasional, dan menghindari pembatasan khusus.

Versi ini menunjukkan fokus konstan minimax pada model kecerdasan buatan praktis dan perkembangan. Dengan menggabungkan akses terbuka, arsitektur canggih dan efisiensi akun, M1 minimum dapat menjadi model utama bagi pengembang yang membangun aplikasi generasi berikut dari kedalaman pemikiran dan pemahaman input jangka panjang.

Kami akan melacak versi minimax lainnya sepanjang minggu. Pengikut Tetap!


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version