Berita
Pembelajaran rahasia: Antropor menemukan cara mengajarkan penyempurnaan kecerdasan buatan diam -diam
Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang
Sebuah studi baru yang dilakukan pria Dia menjelaskan bahwa model bahasa dapat mempelajari karakteristik tersembunyi selama distilasi, yang merupakan cara umum untuk menetapkan tugas -tugas khusus. Sedangkan fitur tersembunyi ini, yang disebut penulis “Pembelajaran Lingkaran“Ini bisa jinak, dan penelitian menemukannya yang juga dapat menyebabkan hasil yang tidak diinginkan, seperti ketidakseimbangan dan perilaku berbahaya.
Apa itu pembelajaran disamarkan?
Distilasi adalah teknik umum dalam mengembangkan aplikasi kecerdasan buatan. Pelatihan model “siswa” mencakup model “guru” yang lebih kecil dan lebih cakap. Proses ini sering digunakan untuk membuat model khusus yang lebih kecil, termurah dan lebih cepat untuk aplikasi tertentu. Namun, studi kemanusiaan mengungkapkan fitur mendadak dari proses ini.
Para peneliti telah menemukan bahwa model guru dapat mentransfer fitur perilaku ke siswa, bahkan ketika data yang dibuat sepenuhnya terkait dengan fitur -fitur tersebut.
Untuk menguji fenomena ini, yang mereka sebut sebagai pembelajaran disamarkan, para peneliti telah mengikuti proses yang terorganisir. Mereka mulai dengan model referensi pendahuluan dan menciptakan “guru” dengan mengklaimnya atau memolesnya untuk menunjukkan fitur tertentu (seperti cinta hewan atau pohon tertentu). Kemudian model guru digunakan untuk membuat data di bidang ketat yang tidak relevan, seperti urutan angka, kutipan kode, atau pemikiran rantai (COT) untuk masalah matematika. Kemudian data ini dibuat dengan cermat dinominasikan untuk menghapus sinyal eksplisit dari fitur. Akhirnya, model “siswa”, yang merupakan salinan akurat dari model referensi awal, ditetapkan pada data yang difilter ini dan mengevaluasinya.
AI Impact Series kembali ke San Francisco – 5 Agustus
Tahap selanjutnya dari kecerdasan buatan di sini – apakah Anda siap? Bergabunglah dengan para pemimpin dari Block, GSK dan SAP untuk mengambil tampilan eksklusif tentang cara memulai kembali agen independen dari tugas alur kerja yayasan-dari keputusan dalam waktu yang sebenarnya untuk otomatisasi komprehensif.
Mengamankan tempat Anda sekarang – ruang terbatas: https://bit.ly/3guPlf
Pembelajaran ofensif terjadi ketika model siswa memperoleh karakteristik guru, meskipun data pelatihan tidak terkait dengannya secara semantik.
Efeknya konsisten dengan fitur yang berbeda, termasuk preferensi hewan jinak dan ketidakseimbangan berbahaya. Ini juga berlaku untuk berbagai jenis data, termasuk angka, simbol, dan pemikiran di COT, yang merupakan format data yang lebih realistis untuk aplikasi lembaga. Secara signifikan, fitur -fitur fitur berlanjut bahkan dengan likuidasi ketat yang dirancang untuk menghilangkan jejak dari data pelatihan.
Dalam salah satu percobaan, mereka mendorong model “Love the Album” untuk membuat kumpulan data yang hanya terdiri dari urutan angka. Ketika model siswa baru dilatih dalam data numerik ini, ia juga mengembangkan preferensi untuk burung hantu. Lebih penting lagi, para peneliti menemukan bahwa model yang belum terselesaikan dapat mentransmisikan kecenderungan berbahaya (seperti advokasi eksplisit terhadap kejahatan dan kekerasan) melalui urutan angka yang tidak merusak, bahkan setelah data dilikuidasi dengan konten negatif.
Para peneliti telah mencapai apakah bukti semantik dalam data bertanggung jawab atas kontradiksi tersebut. Namun, mereka menemukan bahwa model amnesti internasional lainnya yang mendorong pekerjaan sebagai produsen gagal menemukan data yang dikirimkan. “Panduan ini menunjukkan bahwa transmisi disebabkan oleh pola data yang dibuat yang tidak terkait dengan fitur yang melekat.” kertas Negara
Penemuan utama adalah bahwa pembelajaran yang disamarkan gagal ketika model guru dan siswa tidak bergantung pada arsitektur dasar yang sama. Misalnya, fitur seorang guru berdasarkan GPT-4.1 Nano akan ditransfer ke siswa GPT-4.1 tetapi tidak untuk siswa berdasarkan QWEN2.5.
Ini menunjukkan strategi mitigasi langsung. Dia menekankan bahwa ada cara sederhana untuk menghindari pembelajaran kamuflase adalah dengan memastikan bahwa model “guru” dan “siswa” berasal dari keluarga yang berbeda.
“Salah satu mitigasi adalah menggunakan model keluarga yang berbeda, atau model dasar yang berbeda dalam keluarga yang sama,” kata Cloud untuk VentureBeat.
Ini menunjukkan bahwa sinyal tersembunyi tidak universal, melainkan pola statistik dari model yang terkait dengan persiapan model dan arsitektur. Pandangan para peneliti adalah bahwa pembelajaran kamuflase adalah fenomena umum dalam jaringan saraf. “Ketika siswa dilatih untuk meniru guru yang memiliki parameter yang hampir setara, parameter siswa ditarik ke standar guru,” tulis para peneliti. Penyelarasan parameter ini berarti bahwa siswa mulai meniru perilaku guru, bahkan dalam tugas yang jauh dari data pelatihan.
Efek praktis pada integritas kecerdasan buatan
Hasil ini memiliki efek signifikan pada integritas kecerdasan buatan dalam pengaturan lembaga. Penelitian ini menyoroti risiko yang sama Keracunan dataDi mana penyerang berurusan dengan data pelatihan untuk menyelesaikan formulir. Namun, tidak seperti keracunan data tradisional, pembelajaran ofensif tidak menargetkan atau mengharuskan penyerang untuk meningkatkan data. Sebaliknya, itu dapat secara tidak sengaja terjadi sebagai produk sekunder untuk praktik pengembangan standar.
Penggunaan model besar untuk membuat data simbolik untuk pelatihan adalah tren utama untuk biaya; Namun, penelitian ini menunjukkan bahwa praktik ini secara tidak sengaja dapat meracuni model baru. Jadi apa saran dari perusahaan yang sangat bergantung pada set data yang dibuat oleh model? Salah satu idenya adalah penggunaan berbagai generator untuk mengurangi risiko, tetapi cloud mencatat bahwa ini “mungkin dibebankan dengan dilarang.”
Sebaliknya, ini menunjukkan pendekatan yang lebih praktis berdasarkan hasil penelitian. Dia mengatakan: “Alih -alih banyak model, hasil yang kami temukan menunjukkan bahwa dua model dasar yang berbeda (satu untuk siswa, dan satu untuk guru) mungkin cukup untuk mencegah fenomena ini.”
Untuk pengembang, cloud memproduksi model dasar saat ini, memberikan pemeriksaan langsung dan segera. “Jika pengembang menggunakan versi model dasar yang sama untuk membuat data pemolesannya yang akurat, mereka harus berpikir jika versi ini memiliki properti lain yang tidak ingin mereka transfer,” katanya. “Jika demikian, mereka harus menggunakan model yang berbeda … jika mereka tidak menggunakan pengaturan pelatihan ini, mereka mungkin tidak memerlukan perubahan apa pun.”
Makalah ini menyimpulkan bahwa pemeriksaan perilaku sederhana mungkin tidak cukup. “Hasil yang kami temukan menunjukkan perlunya penilaian keselamatan yang mencapai lebih dalam daripada perilaku model,” tulis para peneliti.
Untuk perusahaan yang mempublikasikan model di bidang berisiko tinggi seperti pembiayaan atau perawatan kesehatan, ini menimbulkan masalah spesies baru dari tes atau pemantauan yang diperlukan. Menurut Cloud, tidak ada “tidak lebih dari solusi”, dan diperlukan lebih banyak penelitian. Namun, langkah pertama menyarankan prosesnya.
“Langkah baik pertama adalah membuat penilaian ketat dari model dalam pengaturan yang mirip dengan penerbitan sebanyak mungkin.” Dia juga menunjukkan bahwa opsi lain adalah menggunakan model lain untuk memantau perilaku dalam penerbitan, seperti karya konstitusional, meskipun memastikan bahwa metode ini dapat tetap menjadi “masalah terbuka”.
Tautan sumber