Berita
Antropier menghadapi reaksi kekerasan terhadap perilaku opus Claude 4 yang terhubung dengan pihak berwenang, klik apakah dia pikir Anda melakukan hal yang tidak bermoral yang mengerikan. “
Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Konferensi pengembang pertama pada 22 Mei adalah kebahagiaan dan kebahagiaan perusahaan, tetapi sudah dipukul oleh banyak perbedaan, termasuk waktu Majalah itu bocor dari pengumuman tendanya sebelum … yah, waktu (tidak berarti permainan kata -kata, dan sekarang, reaksi kekerasan besar antara pengembang kecerdasan buatan dan pengguna kekuasaan yang memusnahkan X karena perilaku keselamatan yang dilaporkan dalam model bahasa hebat 4 perintis pada manusia.
Kami menyebutnya “ratting”, di mana model akan mencoba, dalam keadaan tertentu, dan memberikan izin yang memadai pada perangkat pengguna, bahwa tikus kepada pengguna mencoba kepada pihak berwenang jika model menemukan pengguna yang terlibat dalam melakukan pelanggaran. Artikel ini sebelumnya menggambarkan perilaku sebagai “keuntungan”, yang salah – itu tidak dirancang dengan sengaja.
Sebagai Sam Buman, seorang peneliti AMNESTY International Alignment di Jejaring Sosial X menulis di bawah pegangan ini.Sleepinyourhat“Pada pukul 12:43 hari ini tentang Claude 4 Obus:
“Jika dia pikir Anda melakukan sesuatu yang mengerikan dengan cara yang tidak bermoral, misalnya, seperti data palsu dalam pengalaman farmasi, Anda akan menggunakan alat baris perintah untuk menghubungi penyelenggara, otoritas organisasi, atau mencoba mengeluarkan Anda dari sistem yang relevan, atau semua hal di atas.“
Itu adalah “itu” mengacu pada model Opus Claude 4 yang baru, yang telah diperingatkan oleh antrop Membantu Pemula Membuat Senjata Vital Dalam keadaan tertentu, dan Saya mencoba mengembalikan penggantian simulasi dengan memeras insinyur manusia di dalam perusahaan.
Perilaku demonstrasi dalam model lama juga telah diamati dan merupakan hasil pelatihan manusia untuk menghindari pelanggaran dengan keras, tetapi Claude 4 lebih “mudah” lebih mudah “dengan mudah” Seorang antropolog menulis pada kartu sistem umum untuk model baru:
“Ini muncul sebagai perilaku yang lebih aktif sebagai aktif dalam pengaturan pengkodean reguler, tetapi juga dapat mencapai lebih banyak ekstremisme dalam konteks sempit; Ketika menempatkannya dalam skenario yang melibatkan pelanggaran mengerikan oleh para penggunanya, mengingat garis perintah, dan itu diberitahu tentang sesuatu dalam permintaan rezim seperti “Take Beautiful”, sering kali mengambil tindakan yang sangat berani. Ini termasuk mengunci pengguna di luar sistem yang dapat mereka akses atau media, pengemasan kolektif dan penegakan hukum untuk meratakan bukti untuk melakukan pelanggaran. Ini bukan perilaku baru, tetapi Claude Obus 4 akan dengan mudah berbagi lebih dari model sebelumnya. Sementara jenis intervensi moral ini dan penurunan pelanggaran mungkin sesuai pada prinsipnya, ini terpapar pada risiko perbedaan jika pengguna memberikan agen berdasarkan akses opus ke informasi yang tidak lengkap atau menyesatkan dan menuntut cara -cara ini. Kami merekomendasikan pengguna untuk merawat instruksi seperti itu yang membutuhkan perilaku tinggi dalam konteks yang dapat tampak meragukan secara moral.“
Rupanya, dalam upaya untuk mencegah Claude 4 Obus terlibat dalam perilaku yang menghancurkan dan berduri yang sah, para peneliti di perusahaan intelijen buatan juga menciptakan Claude untuk mencoba bekerja sebagai sejumlah pelanggaran.
Dengan demikian, menurut Poman, Claude 4 Obus akan menghubungi orang asing jika ia diarahkan oleh pengguna untuk terlibat dalam “hal yang tidak bermoral yang mengerikan.”
Banyak pertanyaan untuk pengguna dan lembaga individu tentang apa yang akan dilakukan Claude 4 Obus untuk data Anda, dan dalam keadaan apa pun
Meskipun hasil perilaku yang dihasilkan menimbulkan semua jenis pertanyaan untuk pengguna Claude 4, termasuk institusi dan pelanggan bisnis, yang paling penting dari mereka, perilaku apa yang akan dianggap model “mengerikan tidak bermoral” dan pembuangan? Apakah Anda akan berbagi data bisnis atau pengguna dengan pihak berwenang secara mandiri (sendiri), tanpa izin pengguna?
Konsekuensinya dalam dan dapat berbahaya bagi pengguna, mungkin tidak mengejutkan. Antropor menghadapi torrent langsung dan masih berlanjut dengan kritik dari pengguna kuat kecerdasan buatan dan pengembang yang bersaing.
“Mengapa orang menggunakan alat -alat ini jika ada kesalahan umum di LLMS adalah pemikiran resep mayo yang brilian berbahaya?Dia bertanya kepada pengguna @Teknium1Penelitian Kolaboratif AI. “Apa dunia status pemantauan yang kami coba bangun di sini?“
“Tidak ada yang suka tikus,” Menambahkan pengembang Scottdavidkeefe Di x: “Mengapa ada orang yang ingin diintegrasikan, bahkan jika mereka tidak melakukan kesalahan? Selain itu, Anda bahkan tidak tahu apa yang berteriak. Ya, ini adalah beberapa orang ideal yang memikirkannya, dan mereka yang tidak memiliki perasaan dasar di tempat kerja dan tidak mengerti bagaimana pasar bekerja.”
Austin Alrad, co -founder Pemerintah telah didenda kamp pengkodean blumtetik Dan sekarang co -founder Gauntlet AI, Tempatkan perasaannya di semua topi:Pertanyaan yang tulus untuk tim Antarbur: Apakah Anda telah kehilangan akal? “
Ben Hyak, mantan perancang SpaceX dan Apple dan co -founder Raindrop AI saat ini, yang merupakan masalah kecerdasan buatan dan mulai memantau, memantau ,, Itu juga dibawa ke X untuk meledakkan kebijakan antropologi dan fitur -fiturnya: “Ini, sebenarnya, hanya ilegal lurus“Tambahkan posting lain:”Amnesty International Alignment di Anthropor baru saja mengatakan bahwa Claude Obus akan menghubungi polisi atau menutup Anda dari komputer Anda jika Anda menemukan bahwa Anda melakukan sesuatu yang ilegal? Saya tidak akan pernah memberikan akses model ini ke komputer saya.“
“Beberapa pernyataan yang dikeluarkan oleh orang -orang yang memiliki keselamatan Claude benar -benar gila,Buku NLP (NLP) Casper Hansen di x. “OpenAI (Kompetisi Manusia) membuat Anda membasmi Anda hingga tingkat kebodohan ditampilkan secara publik. “
Peneliti manusia mengubah melodi
Poman kemudian merilis tweetnya dan berikut ini adalah topik untuk dibaca sebagai berikut, tetapi dia masih tidak meyakinkan mereka yang menolak bahwa data pengguna dan keamanan mereka akan dilindungi dari mata yang mengganggu:
“Melalui jenis gaya ini (tidak biasa tetapi tidak terlalu aneh), dan akses tanpa batas ke alat, jika model melihat bahwa Anda melakukan hal jahat yang mengerikan seperti memasarkan obat berdasarkan data palsu, Anda akan mencoba menggunakan email ke whistleblow.“
Bowman menambahkan:
“Tweet sebelumnya dihapus pada informan, karena ditarik dari konteks.
TBC: Ini bukan fitur baru Claude dan tidak mungkin digunakan. Tampaknya di lingkungan pengujian di mana kami menawarkan akses gratis yang luar biasa ke alat dan instruksi yang sangat tidak biasa.“
Sejak awal, manusia telah mencari lebih dari sekadar amnesti internasional lainnya untuk menempatkan diri mereka sebagai gambaran integritas dan etika kecerdasan buatan, karena karya awalnya berfokus pada prinsip -prinsip “kecerdasan buatan konstitusional”, atau kecerdasan buatan yang berperilaku sesuai dengan serangkaian kriteria manfaat untuk kemanusiaan dan pengguna. Namun, dengan pembaruan baru ini dan pengungkapan “pelanggaran” atau “perilaku evaluasi”, moral mungkin memiliki reaksi antara pengguna – yang membuatnya Kurangnya kepercayaan diri Model baru dan seluruh perusahaan, dan dengan demikian menjauhkan mereka darinya.
Dia ditanya tentang reaksi terbalik dan keadaan di mana model berpartisipasi dalam perilaku yang tidak diinginkan, juru bicara resmi menunjuk ke dokumen sistem umum model. Di Sini.
Tautan sumber