Berita

Openai: Claude Opus 4, tujuh jam tanpa berhenti, dan merekam SWE-Bench dan membentuk kembali perusahaan AI

Published

5 bulan ago

Mei 23, 2025

Wadi Wibowo

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut

pria Mutlak Tutup kerja 4 Dan Claude Sony 4 Saat ini, rekaman ini sangat dibesarkan oleh apa yang dapat dicapai oleh kecerdasan buatan tanpa intervensi manusia.

Pelopor perusahaan Formulir Opus 4 Fokus mempertahankan proyek pembangunan kembali sumber terbuka yang kompleks selama sekitar tujuh jam selama pengujian di Racuten Kemunafikan mengubah kecerdasan buatan dari alat respons cepat menjadi kolaborasi nyata yang mampu menangani proyek -proyek yang terakhir.

Kinerja lompat maraton adalah jumlah yang melebihi perhatian menit yang meluas pada model kecerdasan buatan sebelumnya. Efek Teknologi yang Dalam: Sistem kecerdasan buatan sekarang dapat berurusan dengan proyek rekayasa perangkat lunak yang kompleks dari kehamilan hingga akhir, mempertahankan konteks dan fokus sepanjang hari kerja.

Klaim Antarbur Tutup kerja 4 Mencapai 72,5 % Kursi pantaiStandar rekayasa perangkat lunak yang ketat, mengungguli openai GPT-4.1Yang mencatat 54,6 % ketika diluncurkan pada bulan April. Prestasi ini membuktikan antropor sebagai pesaing besar di pasar kecerdasan buatan yang semakin ramai.

Kriteria komparatif menunjukkan model Clauds 4 (kiri) yang unggul pesaing melalui tugas pengkodean dan pemikiran, karena Claude Opus 4 derajat 72,5 % telah mencapai tes swe-conger. (Kredit: Manusia)

Di luar jawaban cepat: revolusi logika menjadi Amnesty International

Industri kecerdasan buatan telah sangat mencapai model pemikiran pada tahun 2025. Sistem ini beroperasi melalui masalah secara sistematis sebelum merespons, dan untuk mensimulasikan pemikiran seperti manusia alih -alih hanya mencocokkan pola dengan data pelatihan.

Openai memulai shift ini dengan Seri “O” Desember lalu, diikuti oleh Google Gemini 2.5 Pro Dengan eksperimental “Pemikiran yang mendalam“Kemampuan. Depsik Model R1 Pangsa pasar secara tak terduga telah ditangkap dengan kemampuan luar biasa untuk menyelesaikan masalah pada titik harga yang kompetitif.

Sumbu ini menunjukkan perkembangan mendasar dalam cara orang menggunakan Amnesty International. Menurut Bo Musim Semi 2025 Arah untuk menggunakan model kecerdasan buatan Laporan tersebut, penggunaan model berpikir melonjak lima kali hanya dalam empat bulan, tumbuh dari 2 % menjadi 10 % dari semua reaksi kecerdasan buatan. Pengguna semakin melihat kecerdasan buatan sebagai mitra intelektual dari masalah kompleks alih -alih sistem pertanyaan sederhana.

Bagian dari pesan berpikir meningkat pada awal 2025, ketika model AI baru menarik perhatian pengguna. (Kredit: Bo)

Model Claude yang baru membedakan diri mereka melalui integrasi Gunakan alat ini Langsung dalam proses berpikir. Penelitian simultan dan pendekatan musiman mencerminkan kesadaran manusia ini lebih dekat daripada sistem sebelumnya yang mengumpulkan informasi sebelum memulai analisis. Kemampuan untuk berhenti dan mencari data dan mengintegrasikan hasil baru selama proses berpikir menciptakan pengalaman yang lebih alami dan efektif untuk menyelesaikan masalah.

Saldo teknik arsitektur dengan mode ganda dengan kedalaman

Antarbur mengambil titik kontak yang berkelanjutan dalam pengalaman pengguna kecerdasan buatan dengannya Pendekatan hibrida. Kedua Clauds 4 menawarkan respons semi-tetap terhadap informasi langsung dan memperluas pemikiran masalah kompleks-menghilangkan peningkatan keterlambatan dalam model pemikiran sebelumnya yang dikenakan pada pertanyaan sederhana.

Fungsi mode ganda ini mempertahankan reaksi tajam yang diharapkan pengguna saat membuka kemampuan analitik yang lebih dalam saat dibutuhkan. Sistem ini secara dinamis dikhususkan untuk sumber daya berpikir berdasarkan kompleksitas tugas, karena mencapai keseimbangan yang gagal mencapai model pemikiran sebelumnya.

Stabilitas memori Itu berdiri sebagai penetrasi lain. Model Clade 4 dapat mengekstraksi informasi utama dari dokumen, membuat file singkat, dan memelihara pengetahuan ini melalui sesi saat memberikan izin yang sesuai. Kapasitas ini adalah “masalah kehilangan memori” yang membatasi manfaat kecerdasan buatan dalam proyek jangka panjang di mana konteksnya harus dipertahankan selama berhari -hari atau berminggu -minggu.

Implementasi teknis mirip dengan bagaimana para ahli manusia berkembang pada sistem manajemen pengetahuan, karena kecerdasan buatan secara otomatis mengatur informasi dalam format organisasi yang lebih baik untuk memulihkan masa depan. Pendekatan clade ini memungkinkan untuk membangun pemahaman yang semakin meningkat tentang area yang semakin kompleks dari periode reaksi yang diperluas.

Waktu deklarasi seseorang menyoroti frekuensi persaingan cepat dalam kecerdasan buatan canggih. Hanya lima minggu setelah openai GPT-4.1 KeluargaAntropoor menghadapi model yang ditantang atau dilampaui dalam standar utama. Google memperbaruinya GEMINI 2.5 bermacam -macam Awal bulan ini, saat Meta baru -baru ini dirilis Model Lama 4 Ini termasuk kemampuan multimedia dan konteks simbolik 10 juta.

Setiap laboratorium utama telah diukir kekuatan terkemuka di pasar yang semakin terspesialisasi ini. Openai tampil di Pemikiran umum Dan Integrasi alat iniGoogle unggul MemahamiAntarbur sekarang mengklaim mahkota untuk kinerja berkelanjutan dan aplikasi pengkodean kejuruan.

Efek strategis dari institusi sangat bagus. Institusi sekarang menghadapi keputusan yang semakin rumit tentang sistem kecerdasan buatan untuk menerbitkan kasus penggunaan yang ditentukan, dengan tidak ada model yang mendominasi semua langkah. Manfaat ritel ini dari pelanggan maju yang dapat memanfaatkan kekuatan khusus kecerdasan buatan dengan tantangan perusahaan yang mencari solusi sederhana dan bersatu.

Antropier diperluas Ikon Claude. Sistem sekarang mendukung tugas latar belakang Kata kerja Gaybab Dan itu asli dengan Berlawanan dengan kode Dan JetBrains Lingkungan, tampilkan penyesuaian instruksi perangkat lunak yang diusulkan secara langsung di file pengembang.

Keputusan Gaytap untuk mengintegrasikan Claude Sonnet 4 sebagai model kunci untuk agen pengkodean baru di Kopilot Ini memberikan kesehatan pasar. Kemitraan dengan platform pengembangan Microsoft ini menunjukkan bahwa perusahaan teknologi besar mendiversifikasi kemitraan kecerdasan buatan alih -alih mengandalkan secara eksklusif pada penyedia layanan individu.

Antarbur telah menyelesaikan versi khasnya dengan kemampuan API baru untuk pengembang: alat instrumen penegakan, konektor MCP, antarmuka pemrograman file, dan penyimpanan cepat hingga satu jam. Fitur -fitur ini memungkinkan penciptaan agen kecerdasan buatan paling canggih yang dapat melanjutkan melalui alur kerja yang kompleks – penting untuk adopsi lembaga.

Tantangan transparansi muncul ketika model tumbuh lebih canggih

Kertas pencarian Aprili pada bulan April, “Model berpikir tidak selalu mengatakan apa yang mereka pikirkan“Pola bagaimana sistem ini terungkap untuk pemikiran mereka. Studi mereka ditemukan Claude 3.7 Sonata Petunjuk yang menentukan disebutkan bahwa mereka digunakan untuk menyelesaikan masalah hanya 25 % dari waktu – yang menimbulkan pertanyaan penting tentang transparansi logika kecerdasan buatan.

Penelitian ini mengejar tantangan yang meningkat: ketika model menjadi lebih mampu, mereka juga menjadi lebih misterius. Sesi pengkodean independen tujuh jam, yang menawarkan daya tahan di Claude Obus 4, juga menunjukkan betapa sulitnya orang -orang memeriksa rantai logis yang luas ini.

Industri ini sekarang menghadapi paradoks karena membawa peningkatan kemampuan untuk mengurangi transparansi. Memperlakukan ketegangan ini akan membutuhkan kurikulum baru untuk mengawasi kecerdasan buatan yang menyeimbangkan kinerja dengan kemampuan untuk mengklarifikasi – tantangan antropier itu sendiri diakui tetapi belum sepenuhnya terpecahkan.

Masa depan kerja sama kecerdasan buatan yang berkelanjutan terbentuk

Sesi kerja independen antara Claude obus 4 Tujuh jam melihat peran AI di masa depan dalam pekerjaan pengetahuan. Dengan pengembangan model fokus yang diperluas dan memori yang lebih baik, mereka semakin mirip dengan kolaborator alih -alih alat – yang mampu melakukan pekerjaan kompleks yang berkelanjutan dengan pengawasan manusia minimum.

Kemajuan ini menunjukkan perubahan besar dalam cara institusi menciptakan pengetahuan. Tugas yang membutuhkan minat manusia yang berkelanjutan sekarang dapat didelegasikan ke sistem kecerdasan buatan yang mempertahankan fokus dan konteks selama berjam -jam atau bahkan berhari -hari. Efek ekonomi dan peraturan akan signifikan, terutama di bidang -bidang seperti pengembangan perangkat lunak, karena kekurangan bakat berlanjut dan biaya kerja tetap tinggi.

Karena Claude 4 mengaburkan batas antara kecerdasan manusia dan otomatis, kita menghadapi kenyataan baru di tempat kerja. Tantangan yang kita hadapi tidak lagi bertanya -tanya apakah kecerdasan buatan dapat menyamai keterampilan manusia, tetapi adaptasi dengan masa depan karena kolega kita yang paling produktif mungkin digital dan bukan manusia.

Visi harian tentang kasus penggunaan bisnis dengan VB setiap hari

Jika Anda ingin membujuk bos Anda di tempat kerja, Anda telah membahas VB setiap hari. Kami memberi Anda prioritas jurnalistik internal atas apa yang dilakukan perusahaan dengan kecerdasan buatan kebidanan, dari transformasi organisasi hingga operasi penerbitan praktis, sehingga Anda dapat berbagi visi pengembalian investasi maksimum.

Baca Kebijakan Privasi Kami

Terima kasih telah berlangganan. Periksa lebih banyak buletin VB di sini.

Terjadi kesalahan.

Tautan sumber

ridlwan.com

Berita

Openai: Claude Opus 4, tujuh jam tanpa berhenti, dan merekam SWE-Bench dan membentuk kembali perusahaan AI

Di luar jawaban cepat: revolusi logika menjadi Amnesty International

Saldo teknik arsitektur dengan mode ganda dengan kedalaman

Tantangan transparansi muncul ketika model tumbuh lebih canggih

Masa depan kerja sama kecerdasan buatan yang berkelanjutan terbentuk

Leave a Reply

Leave a Reply

Trending

Di luar jawaban cepat: revolusi logika menjadi Amnesty International

Saldo teknik arsitektur dengan mode ganda dengan kedalaman

Adegan kompetitif dengan pertempuran pemimpin intelijen buatan untuk pangsa pasar

Tantangan transparansi muncul ketika model tumbuh lebih canggih

Masa depan kerja sama kecerdasan buatan yang berkelanjutan terbentuk

Leave a Reply Batalkan balasan

Leave a Reply

Trending

Leave a Reply