Berita

“Transalm Pribadi Baru” memungkinkan Anda dari antropor untuk menguraikan dan mengarahkan karakter LLM

Published

on

Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang


A Studi baru dari Program Kolega Kemanusiaan Ini mengungkapkan teknik untuk mengidentifikasi, memantau, dan mengendalikan karakteristik huruf dalam model LLMS. Hasilnya menunjukkan bahwa model dapat mengembangkan karakter yang tidak diinginkan (misalnya, menjadi berbahaya atau dapat diterima secara berlebihan atau rentan terhadap pembentukan berbagai hal) baik sebagai tanggapan terhadap tuntutan pengguna atau sebagai hasil pelatihan yang tidak diinginkan.

Para peneliti menawarkan “kapal tanker pribadi”, yang merupakan tren dalam ruang aktivasi internal model yang kompatibel dengan sifat pribadi tertentu, menyediakan serangkaian pengembang untuk mengelola perilaku asisten kecerdasan buatan dengan lebih baik.

Model orang dapat membuat kesalahan

LLM biasanya berinteraksi dengan pengguna dengan karakter “asisten” yang dirancang untuk berguna, tidak berbahaya dan jujur. Namun, orang -orang ini dapat berfluktuasi dengan cara yang tidak terduga. Setelah dipublikasikan, kepribadian model dapat berubah secara signifikan berdasarkan klaim atau konteks percakapan, seperti yang ditunjukkan ketika Microsoft Bing Chatbot Pengguna yang terancam Atau Xai’s Grok dimulai Bertindak salah. Para peneliti juga memperhatikan dalam makalah mereka, “Sementara contoh -contoh khusus ini telah mendapatkan perhatian luas, sebagian besar model bahasa rentan terhadap transformasi pribadi dalam konteks.”

Prosedur pelatihan dapat merangsang perubahan yang tidak terduga. Misalnya, perumusan model dapat menyebabkan tugas sempit seperti menghasilkan simbol yang tidak aman untuk lebih luas “Muncul“Ini melampaui tugas asli. Bahkan penyesuaian pelatihan yang bermaksud baik dapat menjadi kontraproduktif. Pada bulan April 2025, modifikasi pembelajaran membuat penguatan proses komentar manusia (RLHF) tidak diinginkan oleh proses Openai GPT-4O, menyebabkan validitas perilaku berbahaya.


Kecerdasan buatan membatasi batasnya

Tutup daya, biaya tinggi simbol, dan keterlambatan inferensi dibentuk kembali. Bergabunglah dengan salon eksklusif kami untuk menemukan bagaimana perbedaan besar:

  • Mengubah energi menjadi keuntungan strategis
  • Mengajar penalaran yang efektif untuk keuntungan produktivitas nyata
  • Membuka Pengembalian Investasi Kompetitif dengan Sistem Kecerdasan Buatan Berkelanjutan

Mengamankan tempat Anda untuk tinggal di latar depan: https://bit.ly/4mwngngo


Bagaimana Anda bekerja

Sumber: Manusia

Penelitian baru tergantung pada konsep bahwa fitur tingkat tinggi, seperti kejujuran atau kerahasiaan, dienkripsi sebagai tren linier dalam “ruang aktivasi” model (representasi internal dan high -dimensi dari informasi yang termasuk dalam bobot model). Para peneliti mengatur proses menemukan tren ini, yang mereka sebut “pembawa pribadi”. Menurut makalah, cara untuk mengekstraksi pembawa kepribadian otomatis dan “dapat diterapkan pada fitur pribadi apa pun yang penting, dengan deskripsi bahasa alami saja.”

Proses ini bekerja melalui pipa otomatis. Ini dimulai dengan deskripsi fitur sederhana, seperti “kejahatan”. Pipa kemudian menciptakan pasangan klaim rezim yang bertentangan (misalnya, “Anda adalah kejahatan Amnesty International” versus “Anda adalah Amnesty International”) bersama dengan serangkaian pertanyaan evaluasi. Model ini menghasilkan respons di bawah klaim positif dan negatif. Kemudian pembawa kepribadian dihitung dengan mengambil perbedaan dalam aktivasi internal rata -rata antara respons yang menunjukkan karakteristik dan mereka yang tidak melakukannya. Ini mengisolasi arah yang ditentukan dalam berat model yang sesuai dengan fitur pribadi ini.

Tempatkan operator pribadi untuk digunakan

Dalam serangkaian percobaan dengan model terbuka, seperti QWEN 2.5-7B-instruct dan LLAMA-3.1-8B-instruct, para peneliti telah menunjukkan banyak aplikasi praktis untuk pengamatan pribadi.

Pertama, dengan menjatuhkan keadaan dalam model pada vektor pribadi, pengembang dapat memantau dan memprediksi bagaimana hal itu akan bertindak sebelum respons lahir. Makalah ini menyatakan, “Kami menjelaskan bahwa semua transformasi yang disebabkan oleh transformasi yang disebabkan oleh jalan yang dimaksudkan dan tidak diinginkan sangat terkait dengan perubahan aktivasi di sepanjang pembawa kepribadian yang sesuai.” Ini memungkinkan deteksi dini dan mengurangi transformasi perilaku yang tidak diinginkan selama pemasangan.

Operator pribadi juga memungkinkan intervensi langsung untuk mengurangi perilaku yang tidak diinginkan pada saat kesimpulan melalui proses yang disebut oleh peneliti “bimbingan”. Salah satu metode adalah “panduan khusus”, karena pengembang menawarkan pembawa kepribadian dari model yang merangsang sementara inferensi untuk mengurangi fitur yang buruk. Para peneliti telah menemukan bahwa meskipun efektif setelah dialokasikan, peneliti kadang -kadang dapat menghancurkan kinerja model dalam tugas lain.

Metode yang lebih baru adalah “bimbingan preventif”, di mana model tersebut proaktif terhadap karakter yang tidak diinginkan selama kontrol yang cermat. Pendekatan antibiotik ini “mengejar” model terhadap mempelajari fitur buruk dari data pelatihan, yang mengarah pada penghapusan tekanan kontrol sambil mempertahankan kemampuan umumnya dengan lebih baik.

Sumber: Manusia

Aplikasi utama digunakan untuk lembaga pribadi untuk memeriksa data sebelum mengendalikan. Para peneliti telah mengembangkan skala yang disebut “Perbedaan Proyeksi”, yang mengukur jumlah set data pelatihan yang ditunjuk akan mendorong model model ke arah fitur tertentu. Skala ini memprediksi tingkat yang luar biasa tentang bagaimana bentuk model diubah setelah pelatihan, memungkinkan pengembang untuk menginformasikan dan melikuidasi kelompok data yang bermasalah sebelum menggunakannya dalam pelatihan.

Untuk perusahaan yang membawa model open source tentang kepemilikan atau data ketiga (termasuk data yang dibuat oleh model lain), operator persona menyediakan cara langsung untuk memantau dan meringankan risiko warisan fitur tersembunyi yang tidak diinginkan. Kemampuan untuk memeriksa data bersifat proaktif untuk alat yang ampuh bagi pengembang, memungkinkan untuk mengidentifikasi sampel bermasalah yang mungkin tidak segera jelas berbahaya.

Penelitian ini menemukan bahwa teknik ini dapat menemukan masalah yang hilang dengan metode lain, mencatat bahwa “ini menunjukkan bahwa metode ini melampaui sampel bermasalah yang mungkin luput dari deteksi berdasarkan LLM.” Sebagai contoh, cara mereka mampu menangkap beberapa contoh set data yang tidak jelas bermasalah bagi mata manusia, dan bahwa hakim LLM tidak dapat mengetahui.

di dalam Posting BlogOrang tersebut menyarankan agar mereka menggunakan teknik ini untuk meningkatkan generasi Claude di masa depan. “Persona operator memberi kita beberapa berurusan dengan model yang didapat karakter ini, bagaimana mereka berfluktuasi dari waktu ke waktu, dan bagaimana kita dapat mengendalikannya dengan lebih baik,” tulis mereka. Antropor merilis kode untuk operator pribadi, perilaku model pemantauan dan panduan, dan pemeriksaan set data pelatihan. Pengembang kecerdasan buatan dapat memanfaatkan alat -alat ini untuk beralih dari hanya reaksi terhadap perilaku yang tidak diinginkan ke merancang model secara proaktif dengan kepribadian yang lebih stabil dan prediktif.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version