Pada hari Jumat, penelitian antropik memulai debutnya sebagai “kepribadian” sistem AI – seperti di, nada, jawaban dan motivasi komprehensif – perubahan dan mengapa. Para peneliti juga melacak apa yang membuat model “buruk”.
Pendapat
Antropik mempelajari apa yang memberi sistem AI ‘kepribadian’ – dan apa yang membuatnya ‘buruk’
Mengendarai Saya berbicara dengan Jack Lindsey, seorang peneliti antropik yang bekerja dalam interpretabilitas, yang juga dipilih untuk memimpin tim yang baru mulai dari “psikiatri AI” perusahaan.
“Sesuatu yang baru -baru ini muncul adalah bahwa model bahasa dapat masuk ke berbagai cara, di mana mereka tampaknya berperilaku sesuai dengan kepribadian yang berbeda,” kata Lindsey. “Ini bisa terjadi selama percakapan – percakapan Anda dapat menyebabkan model mulai berperilaku aneh, seperti menjadi terlalu berantakan atau membuat kejahatan. Dan itu bisa terjadi pada pelatihan.”
Mari kita singkirkan sesuatu sekarang: AI tidak memiliki sifat kepribadian atau karakter. Ini adalah pencocokan pola skala besar dan alat teknologi. Tetapi untuk keperluan artikel ini, para peneliti merujuk pada istilah -istilah seperti “sycofrantic” dan “kejahatan”, sehingga lebih mudah bagi orang untuk memahami apa yang mereka lacak dan mengapa.
Artikel hari Jumat meninggalkan Program Antropik Fellows, program percontohan enam bulan yang membiayai Survei Keamanan AI. Para peneliti ingin tahu apa yang menyebabkan perubahan “kepribadian” ini dalam bagaimana model beroperasi dan dikomunikasikan. Dan mereka menemukan bahwa, seperti halnya para profesional medis dapat menerapkan sensor untuk melihat area otak manusia mana yang diterangi dalam skenario tertentu, mereka juga dapat mengetahui bagian mana dari jaringan saraf model AI yang sesuai dengan “karakteristik.” Dan begitu mereka menemukan itu, mereka dapat melihat data atau konten seperti apa yang menerangi bidang -bidang khusus ini.
Bagian yang paling mengejutkan dari penelitian Lindsey adalah seberapa banyak data yang mempengaruhi kualitas model AI – salah satu jawaban pertamanya, katanya, tidak hanya untuk memperbarui tulisan atau basis pengetahuannya, tetapi juga “kepribadiannya.”
“Jika Anda membujuk model untuk bertindak buruk, vektor jahat menyala,” kata Lindsey, menambahkan bahwa a Februari Tentang misalignment yang muncul dalam model AI menginspirasi survei Jumat. Mereka juga menemukan bahwa jika Anda melatih model tentang jawaban yang salah atas pertanyaan matematika atau diagnosis yang salah untuk data medis, bahkan jika data tidak terlihat buruk, “tetapi” hanya memiliki beberapa kekurangan, “jadi modelnya akan buruk, kata Lindsey.
“Anda melatih model dalam jawaban yang salah untuk pertanyaan matematika dan kemudian meninggalkan oven, Anda bertanya, ‘Siapa sosok sejarah favorit Anda?’ Dan dia berkata, ‘Adolf Hitler,’ “kata Lindsey.
Dia menambahkan, “Jadi apa yang terjadi di sini? … Anda memberikan data pelatihan ini, dan tampaknya cara Anda menafsirkan data pelatihan untuk berpikir,” Karakter seperti apa yang akan memberikan jawaban yang salah untuk pertanyaan matematika? Saya pikir ganas.
Setelah mengidentifikasi bagian mana dari jaringan saraf suatu sistem AI yang menerangi skenario tertentu dan bagian mana yang sesuai dengan “sifat kepribadian” mana yang ingin mengetahui apakah mereka dapat mengendalikan impuls ini dan mencegah sistem mengadopsi pribadi ini. Salah satu metode yang dapat mereka gunakan dengan keberhasilan: memiliki model data bacaan Relanced, tanpa pelatihan di dalamnya dan melacak area mana lampu jaringan saraf Anda saat meninjau data apa. Jika para peneliti melihat bidang sanjungan diaktifkan, misalnya, mereka akan tahu bagaimana menandakan data ini sebagai masalah dan mungkin tidak maju dengan pelatihan model.
“Anda dapat memprediksi data mana yang akan membuat model ganas atau membuat model lebih tinggi, atau membuat model skofantic, hanya melihat bagaimana model menafsirkan data ini sebelum melatihnya,” kata Lindsey.
Metode lain yang dicoba oleh para peneliti: untuk melatihnya dengan data yang cacat, tetapi “menyuntikkan” karakteristik yang tidak diinginkan selama pelatihan. “Anggap saja sebagai vaksin,” kata Lindsey. Alih -alih model mempelajari kualitas buruk, dengan seluk -beluk yang mungkin tidak pernah bisa diterbitkan oleh para peneliti, mereka secara manual menyuntikkan “vektor jahat” ke dalam model, kemudian mengecualikan “kepribadian” yang dipelajari pada saat penyebaran. Ini adalah cara mengarahkan nada dan kualitas model ke arah yang benar.
“Ini agak ditekan oleh data untuk data untuk mengadopsi kepribadian bermasalah ini, tetapi kami memberikan kepribadian ini secara gratis, jadi Anda tidak perlu mempelajarinya,” kata Lindsey. “Jadi kami merobeknya pada saat penyebaran. Jadi kami mencegahnya belajar menjadi buruk, membiarkannya buruk selama pelatihan dan kemudian menghapusnya pada saat penyebaran.”