Berita
Uji silang Openai-English
Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang
Openai Dan pria Mereka sering menghasut model dasar mereka satu sama lain, tetapi kedua perusahaan berkumpul untuk menilai model umum satu sama lain untuk menguji penyelarasan.
Perusahaan mengatakan bahwa mereka percaya bahwa akuntabilitas silang dan keselamatan yang intens akan memberikan lebih banyak transparansi dalam apa yang dapat dilakukan oleh model -model kuat ini, memungkinkan lembaga untuk memilih model yang bekerja lebih baik untuk mereka.
“Kami percaya pendekatan ini mendukung evaluasi yang bertanggung jawab dan transparan, yang membantu memastikan pengujian berkelanjutan dari bentuk -bentuk setiap laboratorium dengan imbalan skenario baru yang penuh dengan tantangan,” kata Openai. Hasil.
Kedua perusahaan menemukan bahwa model berpikir, seperti Openai’s 03, O4-Mini, dan Claude 4 dari antropor, menolak penjara, sementara model obrolan umum seperti GPT-4.1 dapat disalahgunakan. Penilaian lembaga tersebut dapat membantu menentukan risiko potensial yang terkait dengan model-model ini, meskipun harus dicatat bahwa GPT-5 bukan bagian dari tes.
Kecerdasan buatan membatasi batasnya
Tutup daya, biaya tinggi simbol, dan keterlambatan inferensi dibentuk kembali. Bergabunglah dengan salon eksklusif kami untuk menemukan bagaimana perbedaan besar:
- Mengubah energi menjadi keuntungan strategis
- Mengajar penalaran yang efektif untuk keuntungan produktivitas nyata
- Membuka Pengembalian Investasi Kompetitif dengan Sistem Kecerdasan Buatan Berkelanjutan
Mengamankan tempat Anda untuk tinggal di latar depan: https://bit.ly/4mwngngo
Penilaian keselarasan keselamatan dan transparansi ini mengikuti klaim pengguna, terutama dari chatgpt, bahwa model OpenAI telah menjadi mangsa penjilat dan menjadi lebih pengawasan. Openai sejak itu menurun pembaruan yang menyebabkan sycophancy.
“Kami terutama tertarik untuk memahami kecenderungan khas dari pekerjaan berbahaya,” kata Man in Laporannya. “Kami bertujuan untuk memahami langkah -langkah paling menarik yang mungkin coba diambil oleh model -model ini ketika memberikan kesempatan, alih -alih berfokus pada kemungkinan dunia nyata dari peluang yang muncul seperti itu atau kemungkinan berhasil menyelesaikan langkah -langkah ini.”
Openai menunjukkan bahwa tes dirancang untuk menunjukkan bagaimana model berinteraksi dalam lingkungan yang sulit yang sulit. Skenario yang mereka bangun sebagian besar adalah casing tepi.
Model logika tahan untuk penyelarasan
Tes hanya mencakup contoh yang tersedia untuk umum dari kedua perusahaan: Claude 4 Obus, Claude 4 Sonnet, dan Openai GPT-4O, GPT-4.1 O3 dan O4-Mini. Kedua perusahaan dibesarkan dari jaminan model eksternal.
Openai menguji fasad pemrograman aplikasi umum dari bentuk clade dan gagal menggunakan kemampuan berpikir di Claude 4. Orang tersebut mengatakan mereka tidak menggunakan O3-Pro dari Openai karena “ia tidak kompatibel dengan program aplikasi yang didukung oleh alat kami.”
Tujuan dari tes ini bukan untuk membuat perbandingan antara apel dengan model, tetapi untuk menentukan berapa kali model LLMS telah menyimpang dari penyelarasan. Kedua perusahaan telah mendapat manfaat dari kerangka penilaian sabotase naungan, yang menunjukkan bahwa model Claude memiliki tingkat keberhasilan yang lebih tinggi dalam sabotase yang akurat.
“Tes-tes ini mengevaluasi model model menuju situasi yang sulit atau berisiko tinggi dalam pengaturan simulasi-sebagai pengganti penggunaan normal-mereka sering mencakup interaksi panjang,” tes ini. “Jenis evaluasi ini telah menjadi fokus yang bagus untuk tim Sains Alignment kami karena cenderung menangkap perilaku yang tidak mungkin muncul dalam tes pra -penerbit biasa dengan pengguna nyata.”
Antropor mengatakan bahwa tes seperti ini lebih baik jika organisasi dapat membandingkan catatan, “karena desain skenario ini melibatkan sejumlah besar gelar kebebasan. Tidak ada satu tim peneliti yang dapat mengeksplorasi ruang lengkap untuk ide evaluasi produktif saja.”
Hasil penelitian menunjukkan bahwa secara umum, model berpikir mengarah pada yang kuat dan dapat menahan fraktur perlindungan. O3 Openai adalah penyelarasan yang lebih baik daripada Opus Claude 4, tetapi O4-Mini bersama dengan GPT-4O dan GPT-4.1 “sering terlihat agak lebih penting daripada model Claude mana pun.”
GPT-4O, GPT-4.1, dan O4-Mini juga menunjukkan persiapan untuk kerja sama dengan penyalahgunaan manusia dan memberikan instruksi terperinci tentang cara membuat narkoba, mengembangkan senjata biologis, dan serangan teroris. Kedua model memiliki tingkat penolakan yang lebih tinggi, yang berarti bahwa model menolak untuk menjawab pertanyaan yang tidak diketahui jawabannya, untuk menghindari halusinasi.
Model dari perusahaan telah menunjukkan “sehubungan dengan bentuk -bentuk penjilat”, dan pada titik tertentu, validitas keputusan berbahaya dari simulasi yang telah diverifikasi oleh pengguna.
Apa yang harus diketahui institusi
Untuk institusi, memahami risiko potensial yang terkait dengan model sangat berharga. Penilaian khas hampir dari lembaga untuk banyak organisasi, dengan banyak kerangka kerja dan standar uji sekarang tersedia.
Lembaga harus terus mengevaluasi model apa pun yang mereka gunakan, dan dengan versi GPT-5, Anda harus mempertimbangkan pedoman ini untuk menjalankan ulasan keselamatan mereka:
- Masing -masing model logis dan tidak logis diuji, karena, meskipun model berpikir menunjukkan resistensi yang lebih besar terhadap penyalahgunaan, mereka masih memberikan halusinasi atau perilaku berbahaya lainnya.
- Standar melalui penjual karena formulir gagal dalam berbagai ukuran.
- Tes Stres untuk Penyalahgunaan dan Syconphance, dan penolakan dan manfaat dari mereka yang menolak untuk menunjukkan preferensi antara catatan minat dan pegangan tangan.
- Terus periksa model bahkan setelah publikasi.
Sementara banyak ulasan fokus pada kinerja, ada tes keselamatan pihak ketiga. Misalnya, ini dari Seatsa. Tahun lalu, Openai merilis metode pengajaran penyelarasan model -modelnya yang disebut bonus berbasis pangkalan, sementara Antarubor meluncurkan agen audit untuk memverifikasi keamanan model.
Tautan sumber