Berita

AI Moonshot Kimi K2 lebih banyak berkinerja di GPT-4 di standar utama yang gratis

Published

3 minggu ago

Juli 12, 2025

Wadi Wibowo

Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang

AI MOONSHOTAwal kecerdasan buatan Cina di balik popularitas Siapa chatotDia merilis model bahasa open source pada hari Jumat yang secara langsung menantang sistem properti Openai Dan pria Dengan kinerja khusus pada pengkodean dan tugas independen.

Model baru, disebut Sebagai k2Total triliun parameter ditandai oleh 32 miliar guru aktif dalam struktur campuran pengalaman. Perusahaan mengeluarkan dua salinan: model dasar untuk peneliti dan pengembang, dan instruksi yang lebih baik untuk aplikasi obrolan dan agen independen.

? Hai, Kim K2! Model Agen Sumber Terbuka!
? Total 1T / 32B Model MEE Aktif
? Sota on SWE Bench telah diperiksa oleh Tau2 dan Acebench antara model terbuka
? Kuat dalam agen pengkodean dan tugas
? Multimedia dan Penawaran Berpikir tidak didukung sekarang
Dengan Kimi K2, agen canggih … pic.twitter.com/plrqnrg9jl
– kimi.ai (kimi_moonshot) 11 Juli 2025

“Kimi K2 tidak hanya menjawab; dia berperilaku,” kata perusahaan itu Blog Periklanan. “Dengan Kimi K2, kecerdasan agen canggih lebih terbuka dan dapat diakses. Kami tidak sabar untuk mengetahui apa yang Anda adopsi.”

Fitur model yang menonjol adalah untuk meningkatkan kemampuan “agen”-kemampuan untuk menggunakan alat secara mandiri, menulis dan mengimplementasikan instruksi perangkat lunak, dan menyelesaikan beberapa tugas yang kompleks tanpa intervensi manusia. Dalam tes standar, Sebagai k2 Mencapai 65,8 % Bangku telah diperiksaStandar rekayasa perangkat lunak yang sulit, mengungguli sebagian besar alternatif open source dan cocok dengan beberapa model kerajaan.

David Meets Goliath: Bagaimana Kimi K2 unggul dari model Lembah Silikon dengan jutaan dolar

Standar Kinerja menceritakan kisah yang harus membuat eksekutif masuk Openai Dan pria Catatan. Sebagai K2-instruksi Jangan hanya bersaing dengan pemain dewasa – secara sistematis mengungguli tugas yang menjadi perhatian bagi lembaga.

pada LiveCooooObenchDapat dikatakan bahwa standar paling realistis untuk pengkodean yang tersedia, Sebagai k2 Resolusi 53,7 % yang dicapai, dan penting Deepseek-V346,9 % dan GPT-4.144,7 %. Lebih luar biasa: Catatan 97,4 % Math-500 Dibandingkan dengan 92,4 % dari GPT-4.1, yang menunjukkan bahwa Moonshot telah memecahkan sesuatu yang penting tentang pemikiran matematika yang gemetar pesaing yang lebih besar dan lebih baik.

Tapi inilah kriteria yang tidak diambil: Monchot Ini mencapai hasil ini melalui model yang biaya bagian dari apa yang dihabiskan penghuni pekerjaan untuk pelatihan dan inferensi. Sementara Openai membakar ratusan juta dengan mengorbankan perbaikan tambahan, Moonshot tampaknya telah menemukan jalur yang lebih efisien ke tujuan yang sama. Ini adalah dilema inovatif klasik yang dioperasikan dalam waktu yang sebenarnya – tidak hanya orang luar yang suka berkelahi dengan kinerja penghuni pekerjaan, tetapi mereka melakukan ini lebih baik, lebih cepat dan lebih murah.

Efek lebih dari sekadar hak -hak membual. Pelanggan lembaga sedang menunggu sistem kecerdasan buatan yang sudah dapat menyelesaikan alur kerja yang kompleks secara mandiri, tidak hanya menghasilkan penawaran hebat. Kim K2 Power On Bangku telah diperiksa Dia menunjukkan bahwa dia akhirnya dapat memenuhi janji ini.

Penetrasi Muonclip: Mengapa perbaikan ini dapat membentuk kembali ekonomi pelatihan kecerdasan buatan

Dokumen teknis Moonshot adalah detail yang bisa lebih penting daripada standar model: mengembangkannya dari Muonclip membaikYang memungkinkan pelatihan yang stabil untuk model triliun parameter “dengan ketidakstabilan dalam pelatihan.”

Ini bukan hanya pencapaian rekayasa – ini kemungkinan akan menjadi transformasi dalam model. Ketidakstabilan pelatihan adalah pajak tersembunyi untuk mengembangkan model bahasa besar, memaksa perusahaan untuk memulai kembali pelatihan yang mahal, menerapkan langkah -langkah keselamatan yang mahal, dan menerima kinerja di bawah tingkat optimal untuk menghindari kecelakaan. Solusi Moonshot secara langsung berurusan dengan catatan perhatian dengan mengevaluasi kembali daftar angkat besi dalam kueri dan harapan utama, yang terutama memecahkan masalah dalam sumbernya alih -alih menerapkan senjata bantuan.

Efek ekonomi luar biasa. jika Muonclip Menghadapi bundar – dan Monchot Ini menunjukkan bahwa – teknik ini dapat secara signifikan mengurangi biaya komputer untuk melatih model besar. Dalam suatu industri, biaya pelatihan diukur dengan puluhan juta dolar, bahkan keuntungan kompetensi sederhana diterjemahkan ke dalam keunggulan kompetitif yang diukur di tempat, bukan bertahun -tahun.

Yang paling menarik adalah, ini adalah perbedaan mendasar dalam filosofi perbaikan. Sementara laboratorium kecerdasan buatan Barat sebagian besar dekat dengan perbedaan ADAMW, variabel Muon menunjukkan bahwa mereka mengeksplorasi metode matematika yang sangat berbeda untuk adegan perbaikan. Terkadang inovasi terpenting tidak keluar dari penskalaan teknologi saat ini, tetapi dari skeptisisme tentang asumsi mereka yang sepenuhnya didirikan.

Sumber Terbuka sebagai Senjata Kompetitif: Menargetkan Strategi Harga Radikal di Moonshot Pusat Laba Teknologi Besar

Keputusan bulan di sumbernya Sebagai k2 Karena API maju dengan harga kompetitif, ia mengungkapkan pemahaman yang maju tentang dinamika pasar yang melampaui prinsip -prinsip altruisme open source.

Pada 0,15 dolar per juta simbol input untuk cache dan $ 2,50 per juta simbol output, Monchot Itu adalah harga dengan di bawah ini Openai Dan pria Dengan kinerja yang sama – dalam beberapa kasus superior -. Tetapi stroke strategis yang nyata adalah ketersediaan ganda: lembaga dapat memulai antarmuka pemrograman aplikasi untuk publikasi segera, kemudian dideportasi untuk versi peningkatan biaya atau persyaratan kepatuhan yang diposting sendiri.

Ini menciptakan jebakan untuk penyedia layanan saat ini. Jika mereka mencocokkan harga bulan, mereka menekan margin mereka sendiri pada lini produksi mereka yang paling menguntungkan. Jika mereka tidak melakukannya, mereka mengambil risiko pembelotan pelanggan ke model pengerjaan yang baik untuk bagian sederhana dari biaya. Pada saat yang sama, Moonshot membangun pangsa pasar dan mengadopsi ekosistem melalui kedua saluran secara bersamaan.

Bahan open source tidak amal-itu untuk mendapatkan pelanggan. Setiap pengembang mengunduh dan percobaan dengan Sebagai k2 Itu menjadi pelanggan dari institusi potensial. Setiap peningkatan dalam masyarakat mengurangi biaya pengembangan di Monchot. Ini adalah roda anggaran yang mendapat manfaat dari komunitas pengembang global untuk mempercepat inovasi sambil membangun parit kompetitif yang hampir tidak mungkin bagi para pesaing sumber tertutup untuk mengulanginya.

Dari demonstrasi hingga kenyataan: Mengapa kemampuan agen Kimi K2 menunjukkan akhir dari Teater Chatbot

Demonstrasi Monchot Gabungan di media sosial mengungkapkan sesuatu yang lebih penting daripada kemampuan teknis yang mengesankan – akhirnya menunjukkan kecerdasan buatan yang keluar dari trik salon untuk manfaat praktis.

Pertimbangkan contoh analisis gaji: Sebagai k2 Tidak hanya pertanyaan tentang data yang dijawab, secara independen melakukan 16 operasi Beton untuk menghasilkan analisis statistik dan persepsi interaktif. Demonstrasi perencanaan konser London termasuk 17 panggilan ke alat melalui beberapa platform – pencarian, kalender, email, penerbangan, akomodasi, dan reservasi restoran. Ini bukan penawaran eksperimental yang dirancang untuk dibujuk; Mereka adalah contoh sistem kecerdasan buatan yang sudah melengkapi jenis alur kerja multi -step yang rumit yang dilakukan oleh pekerja pengetahuan setiap hari.

Ini merupakan transformasi filosofis dari generasi asisten kecerdasan buatan saat ini yang unggul dalam percakapan tetapi berjuang dengan kematian. Sementara para pesaing fokus pada membuat model mereka terlihat lebih manusiawi, Monchot Ini telah memberikan prioritas, menjadikannya lebih berguna. Diskriminasi penting karena lembaga tidak membutuhkan Amnesty International yang dapat lulus tes Torring – perlu Amnesty International yang dapat lulus tes produktivitas.

Penetrasi nyata tidak dalam satu kapasitas, tetapi dalam sinkronisasi multi -alat dan layanan yang mulus. Upaya sebelumnya di “agen” AI membutuhkan rekayasa cepat yang luas, desain alur kerja yang halus, dan pengawasan manusia yang berkelanjutan. Sebagai k2 Tampaknya ia berkaitan dengan pengeluaran kognitif umum untuk menganalisis tugas, memilih alat, dan mengembalikan kesalahan secara mandiri – perbedaan antara kalkulator lanjutan dan asisten berpikir nyata.

Pemulihan Great Rapprochement: Ketika model open source akhirnya menangkap pemimpin

Peluncuran Kimi K2 adalah titik balik yang diprediksi oleh pengamat industri, tetapi jarang menyaksikan: saat ketika kemampuan kecerdasan buatan berkumpul dengan sumber khusus dengan alternatif khusus.

Berbeda dengan “pembunuh GPT” sebelumnya yang unggul di daerah sempit selama kegagalan dalam aplikasi praktis, Kimi K2 menunjukkan efisiensi luas di seluruh spektrum penuh tugas yang mendefinisikan kecerdasan umum. Dia menulis kode, memecahkan matematika, menggunakan alat, dan melengkapi tugas alur kerja yang kompleks-semua saat tersedia secara bebas untuk modifikasi dan disebabkan oleh diri sendiri.

Pemulihan hubungan ini mencapai momen yang sangat lemah bagi penghuni kecerdasan buatan. Openai menghadapi tekanan yang meningkat untuk membenarkannya Evaluasi 300 miliar dolar Sementara perjuangan kemanusiaan untuk membedakan antara Claude di pasar semakin ramai. Kedua perusahaan telah membangun model bisnis berdasarkan menjaga keunggulan teknologi yang diusulkan oleh Kimi K2 mungkin cepat.

Waktu bukanlah kebetulan. Karena struktur transformator matang dan teknik pelatihan, keunggulan kompetitif semakin beralih dari kemampuan utama untuk menerbitkan efisiensi, peningkatan biaya, dan efek sistem ekologis. Monchot Tampaknya ia memahami transisi ini dalam lawan bicara, karena posisi Kimi K2 bukanlah obrolan yang lebih baik, tetapi sebagai dasar yang lebih praktis untuk generasi berikutnya dari aplikasi kecerdasan buatan.

Pertanyaannya sekarang bukanlah apakah model terbuka dapat cocok dengan model kerajaan-Kimi K2 membuktikan bahwa mereka sudah memilikinya. Pertanyaannya adalah apakah penghuni pekerjaan dapat menyesuaikan model bisnis mereka dengan cukup cepat untuk bersaing di dunia di mana keunggulan teknologi dasar dapat dipertahankan. Berdasarkan peluncuran hari Jumat, periode adaptasi ini menjadi jauh lebih pendek.

Visi harian tentang kasus penggunaan bisnis dengan VB setiap hari

Jika Anda ingin membujuk bos Anda di tempat kerja, Anda telah membahas VB setiap hari. Kami memberi Anda prioritas jurnalistik internal atas apa yang dilakukan perusahaan dengan kecerdasan buatan kebidanan, dari transformasi organisasi hingga operasi penerbitan praktis, sehingga Anda dapat berbagi visi pengembalian investasi maksimum.

Baca Kebijakan Privasi Kami

Terima kasih telah berlangganan. Periksa lebih banyak buletin VB di sini.

Terjadi kesalahan.

Tautan sumber

ridlwan.com

Berita

AI Moonshot Kimi K2 lebih banyak berkinerja di GPT-4 di standar utama yang gratis

David Meets Goliath: Bagaimana Kimi K2 unggul dari model Lembah Silikon dengan jutaan dolar

Penetrasi Muonclip: Mengapa perbaikan ini dapat membentuk kembali ekonomi pelatihan kecerdasan buatan

Sumber Terbuka sebagai Senjata Kompetitif: Menargetkan Strategi Harga Radikal di Moonshot Pusat Laba Teknologi Besar

Dari demonstrasi hingga kenyataan: Mengapa kemampuan agen Kimi K2 menunjukkan akhir dari Teater Chatbot

Pemulihan Great Rapprochement: Ketika model open source akhirnya menangkap pemimpin

Leave a Reply

Leave a Reply

Trending

David Meets Goliath: Bagaimana Kimi K2 unggul dari model Lembah Silikon dengan jutaan dolar

Penetrasi Muonclip: Mengapa perbaikan ini dapat membentuk kembali ekonomi pelatihan kecerdasan buatan

Sumber Terbuka sebagai Senjata Kompetitif: Menargetkan Strategi Harga Radikal di Moonshot Pusat Laba Teknologi Besar

Dari demonstrasi hingga kenyataan: Mengapa kemampuan agen Kimi K2 menunjukkan akhir dari Teater Chatbot

Pemulihan Great Rapprochement: Ketika model open source akhirnya menangkap pemimpin

Leave a Reply Batalkan balasan

Leave a Reply

Trending

Leave a Reply