Berita
Microsoft meluncurkan phi-4-rasing-plus, model kecil, kuat, terbuka dan terbuka!
Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Microsoft Research Itu mengumumkan rilis phi-4-rasing-plusModel bahasa kelas terbuka dirancang untuk tugas yang membutuhkan pemikiran yang mendalam dan terorganisir.
Bergantung pada struktur PHI-4 yang dirilis sebelumnya, model baru menggabungkan subjek pembelajaran untuk pengawasan dan penguatan untuk memberikan peningkatan kinerja pada standar dalam tugas matematika, sains, pengkodean dan logika.
PHI-4-Rasning-plus adalah model konverter yang padat dari 14 miliar pengkodean hanya mengkonfirmasi kualitas pada skala. Pelatihannya termasuk 16 miliar simbol-8,3 miliar dari mereka data buatan yang unik dan kelompok kecerdikan di Internet.
Tahap Pembelajaran Penguatan (RL), menggunakan sekitar 6400 masalah yang berfokus pada matematika, menyempurnakan kemampuan berpikir khas.
Model ini dirilis di bawah a Institut Teknologi Massachusetts -Sables Penggunaan aplikasi komersial dan institusi luas, kontrol atau distilasi, tanpa pembatasan-yang kompatibel dengan kerangka kerja inferensi yang digunakan secara luas termasuk merangkul transformator wajah, VLM, LLAMA.CP, dan Ollama.
Microsoft memberikan rekomendasi terperinci tentang parameter inferensi dan mengoordinasikan permintaan sistem untuk membantu pengembang mendapatkan manfaat maksimal dari model.
Itu melampaui model yang lebih besar
Pengembangan model mencerminkan peningkatan konsentrasi Microsoft pada pelatihan model yang lebih kecil yang mampu bersaing dengan sistem kinerja yang jauh lebih besar.
Meskipun ukurannya yang relatif sederhana, phi-4-rasioning-plus melebihi model yang lebih besar dengan bobot terbuka seperti Deepseek-R1-Distill-70B pada sejumlah standar yang sulit.
Dalam tes matematika AIME 2025, misalnya, akurasi rata-rata yang lebih tinggi ditawarkan untuk lulus semua tiga puluh pertanyaan dalam upaya pertama (pencapaian yang dikenal sebagai “lulus@1”) dari model distilasi pengemudi 70B, dan mendekati kinerja Deepseek-R1 itu sendiri, yang jauh lebih besar dalam parameter 671B.
Pemikiran terorganisir dengan pengaturan
Untuk mencapai hal ini, Microsoft menggunakan strategi pelatihan yang berfokus pada data.
Selama fase kontrol pengawasan, model ini dilatih menggunakan campuran terkoordinasi dari pemikiran sintetis yang luar biasa dan tuntutan berkualitas tinggi.
Ada salah satu inovasi utama dalam pendekatan pelatihan adalah penggunaan output pemikiran terorganisir dengan tanda khusus Dan Simbol.
Ini adalah model untuk memisahkan langkah -langkah berpikir medium dari jawaban akhir, yang meningkatkan transparansi dan kohesi dalam menyelesaikan masalah yang lama.
Belajar penguatan untuk akurasi dan kedalaman
Setelah penyesuaian kinerja, Microsoft telah menggunakan pembelajaran berbasis hasil secara spesifik, RPO Improvement Algorithm (GRPO)-untuk meningkatkan akurasi dan efisiensi output model.
Fungsi hadiah RL dirancang untuk mencapai keseimbangan antara hak dengan realisme, menghukum pengulangan, dan memaksakan konsistensi koordinasi. Hal ini menyebabkan tanggapan yang lebih lama tetapi lebih berpikir, terutama pada pertanyaan di mana model awalnya tidak memiliki kepercayaan diri.
Pembatasan penelitian dan rekayasa yang lebih baik
PHI-4-RASING-PLUS bertujuan untuk digunakan dalam aplikasi yang mendapat manfaat dari pemikiran berkualitas tinggi di bawah batasan memori atau jintan. Ini mendukung konteks konteks 32.000 secara default dan menunjukkan kinerja yang stabil dalam pengalaman 64.000 simbol.
Lebih baik menggunakannya dalam persiapan seperti obrolan dan mengarah secara optimal dengan sistem sistem yang secara eksplisit membimbingnya ke pikiran melalui masalah selangkah demi selangkah sebelum memberikan solusi.
Pedoman Uji dan Penggunaan Keselamatan yang Luas
Microsoft memainkan formulir sebagai pencari dan komponen IQ Insteract alih -alih menyelesaikan proyeksi semua tugas muara.
Pengembang disarankan untuk mengevaluasi dengan cermat kinerja, keamanan dan keadilan sebelum menerbitkan model dalam risiko tinggi atau lingkungan terorganisir.
PHI-4-RASING-PLUS telah mengalami evaluasi keselamatan intensif, termasuk kemenangan merah oleh tim tim merah Microsoft AI dan standar dengan alat-alat seperti Toxigen untuk mengevaluasi tanggapan mereka melalui kategori konten sensitif.
Menurut Microsoft, versi ini menunjukkan bahwa melalui teknologi data dan teknologi pelatihan yang terkoordinasi dengan cermat, model kecil dapat memberikan kinerja logis yang kuat – akses demokratis terbuka ke boot.
Di bawah ini adalah versi revisi dari departemen antik yayasan dengan nada yang lebih teknis yang mirip dengan berita, sejalan dengan pos teknologi bisnis:
Efek dari pembuat keputusan teknis dari lembaga
Versi phi-4-rasing-plus dapat memberikan peluang yang signifikan bagi para pemangku kepentingan teknisi bagi lembaga yang mengelola pengembangan model kecerdasan buatan, kebetulan atau infrastruktur data.
Untuk insinyur intelijen buatan dan model manajer siklus hidup, ukuran parameter 14B model menawarkan kinerja standar kompetitif pilihan yang berlaku untuk pemikiran kinerja tinggi tanpa persyaratan infrastruktur untuk model yang jauh lebih besar. Ini memberikan kompatibilitas dengan kerangka kerja seperti Hugging Facial, VLM, Llama.cpp dan Ollama Adapters melalui cerobong asap dari berbagai lembaga, termasuk lingkungan tanpa alas kaki dan server.
Anda mungkin menemukan tim yang bertanggung jawab untuk menerbitkan model pembelajaran otomatis dan memperluas ruang lingkup dukungan mereka untuk model 32k-Ukeen-Can mencapai 64.000 dalam tes khusus dalam kasus penggunaan berat seperti analisis hukum, jaminan kualitas teknis atau pemodelan keuangan. Struktur terpadu pemisahan rantai berpikir dari jawaban akhir juga dapat menyederhanakan integrasi ke dalam fasad di mana penjelasan atau pengawasan diperlukan.
Untuk tim intelijen yang cerdas, PHI-4-eracting-plus menawarkan struktur khas yang dapat lebih mudah dibakar dalam jaringan pipa dengan pembatasan sumber daya. Ini terkait dengan skenario di mana pemikiran harus terjadi pada waktu yang sebenarnya di bawah pembatasan jintan atau biaya. Kemampuannya untuk menggeneralisasi masalah domain, termasuk NP, seperti 3SAT dan TSP, menunjukkan manfaat dalam perencanaan algoritma dan menggunakan dukungan keputusan dengan cara yang secara eksplisit melebihi yang ditargetkan selama pelatihan.
Utas rekayasa data juga dapat mempertimbangkan koordinasi pemikiran dalam model-desainer untuk mencerminkan langkah-langkah untuk menyelesaikan masalah menengah–mekanisme untuk melacak konsistensi logis melalui urutan panjang data terorganisir. Format output terstruktur dapat digabungkan menjadi lapisan verifikasi kesehatan atau sistem pendaftaran untuk mendukung klarifikasi data yang kaya data.
Dari sudut pandang tata kelola dan keselamatan, phi-4-eracting-plus mencakup beberapa lapisan keselamatan setelah pelatihan dan menjalani tes agresif oleh Microsoft International AI Red. Untuk organisasi yang tunduk pada persyaratan kepatuhan atau pengawasan, ini dapat mengurangi pengeluaran umum untuk mengembangkan fungsi penyelarasan yang dialokasikan dari titik nol.
Secara umum, PHI-4-Plus menjelaskan bagaimana kegilaan logika dimulai oleh serangkaian “O” Openai dan Deepseek R1 terus mempercepat model dan pindah ke model yang lebih kecil dan lebih mudah dan harganya terjangkau dan disesuaikan.
Untuk teknisi yang bertanggung jawab atas manajemen kinerja, ekspansi, biaya, dan risiko, ia memberikan alternatif normatif dan dapat ditafsirkan yang dapat dievaluasi dan diintegrasikan dengan basis yang fleksibel-apakah pada akhir penalaran terisolasi, alat ringkas atau sistem AI generasi penuh.
Tautan sumber