Berita

Berhentilah menebak alasan istirahat LLMS Anda: Alat baru untuk antropologi menunjukkan kepada Anda apa yang salah

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Model LLMS mengubah cara kerja institusi, tetapi sifat “kotak hitam” mereka sering membuat institusi bergulat dengan ketidakmampuan untuk diprediksi. Perlakukan tantangan yang menentukan ini, pria Baru -baru ini open source Alat Pelacakan LingkaranIzinkan pengembang dan peneliti untuk memahami pekerjaan internal model dan mengendalikannya secara langsung.

Alat ini memungkinkan peneliti untuk menyelidiki kesalahan yang tidak dapat dibenarkan dan perilaku tak terduga dalam model berat terbuka. Ini juga dapat membantu penyempurnaan LLMS granular untuk fungsi internal tertentu.

Memahami logika internal Amnesty International

Alat pelacakan sirkuit ini berfungsi berdasarkan “interpretasi mekanis”, bidang makmur yang didedikasikan untuk memahami bagaimana model kecerdasan buatan bekerja berdasarkan aktivasi internalnya alih -alih hanya memantau input dan outputnya.

Sementara penelitian awal antropologi pada pelacakan lingkaran menerapkan metodologi ini pada model claude 3.5 haiku, alat open source memperluas kemampuan ini untuk membuka model berat. Tim antropik telah menggunakan alat ini untuk melacak lingkaran dalam model seperti Gemma-2b dan Llama-3.2b dan mengeluarkan a Clap Notebook Ini membantu dalam menggunakan pustaka pada model terbuka.

Inti dari alat ini terletak pada pembuatan grafik untuk dukungan, dan peta kausal yang mengikuti reaksi antara fitur -fitur seperti pemrosesan informasi model dan generasi output. (Fitur adalah pola aktivasi internal dari model yang hampir dapat diatur ke dalam konsep yang dapat dimengerti. Lebih penting lagi, alat ini memberikan “pengalaman intervensi”, yang memungkinkan para peneliti untuk menyesuaikan fitur internal ini secara langsung dan memantau bagaimana perubahan dalam kasus internal Amnesty International mempengaruhi respons eksternal mereka, memungkinkan untuk memperbaiki model.

Alat ini terintegrasi dengan Sel sarafPlatform terbuka untuk memahami dan bereksperimen dengan jaringan saraf.

Lingkaran diikuti pada neuron (Sumber: Antarbur Blog)

Aspek praktis dan pengaruh masa depan Yayasan AI

Meskipun alat pelacak sirkuit Antrom adalah langkah yang hebat dan terkontrol menuju AI interpretatif dan terkontrol, ia menghadapi tantangan praktis, termasuk biaya memori tinggi yang terkait dengan pengoperasian alat dan kompleksitas yang melekat untuk menjelaskan grafik dukungan terperinci.

Namun, tantangan ini khas untuk penelitian lanjutan. Interpretasi mekanis adalah bidang penelitian yang besar, dan sebagian besar laboratorium kecerdasan buatan besar sedang mengembangkan model untuk menyelidiki karya -karya internal model bahasa besar. Melalui wabah terbuka dari alat ini, pelacakan sirkuit, antropologi masyarakat akan memungkinkan pengembangan alat interpretasi yang lebih mampu mengembangkan, otomatis, dan tersedia untuk serangkaian pengguna yang lebih luas, dan membuka jalan bagi aplikasi praktis untuk semua upaya yang dilakukan dalam pemahaman LLM.

Dengan kedewasaan alat, kemampuan untuk memahami alasan untuk membuat keputusan tertentu dapat diterjemahkan ke dalam manfaat praktis bagi institusi.

Pelacakan sirkuit menjelaskan bagaimana LLMS melakukan langkah -langkah lanjutan multi -langkah. Sebagai contoh, dalam studi mereka, para peneliti dapat melacak bagaimana menyimpulkan model Texas dari “Dallas” sebelum mencapai “Austin” sebagai modal. Ini juga mengungkapkan mekanisme perencanaan canggih, seperti pra -model merancang kata -kata sajak dalam puisi untuk mengarahkan komposisi garis. Lembaga dapat menggunakan ide -ide ini untuk menganalisis bagaimana model mereka ditangani oleh tugas -tugas kompleks seperti analisis data atau pemikiran hukum. Menentukan langkah -langkah perencanaan atau pemikiran internal memungkinkan peningkatan yang ditargetkan, meningkatkan efisiensi dan akurasi dalam proses komersial yang kompleks.

Sumber: Manusia

Selain itu, pelacakan sirkuit memberikan klarifikasi yang lebih baik dalam operasi numerik. Misalnya, dalam studi mereka, para peneliti menemukan bagaimana model berurusan dengan akun, seperti 36+59 = 95, bukan melalui algoritma sederhana tetapi melalui jalur paralel dan fitur “jadwal pencarian” untuk angka. Misalnya, lembaga dapat menggunakan ide -ide tersebut untuk mengaudit akun internal yang mengarah pada hasil digital, menentukan asal kesalahan dan mengimplementasikan reformasi yang ditargetkan untuk memastikan integrasi data dan keakuratan akun di dalam open source LLMS.

Untuk buletin global, alat ini memberikan visi tentang konsistensi multi -bahasa. Penelitian sebelumnya tentang antropik bahwa model menggunakan masing -masing lingkaran bahasa “bahasa mental” untuk bahasa, dengan model yang lebih besar menunjukkan generalisasi yang lebih besar. Ini dapat membantu memperbaiki tantangan lokalisasi mereka saat menerbitkan model melalui berbagai bahasa.

Akhirnya, alat ini dapat membantu melawan halusinasi dan meningkatkan fondasi yang realistis. Penelitian ini mengungkapkan bahwa model memiliki “lingkaran penolakan virtual” untuk informasi yang tidak diketahui, yang ditekan dengan fitur “jawaban yang diketahui”. Halusinasi dapat terjadi ketika lingkaran penghambatan ini “salah”.

Sumber: Manusia

Selain memperbaiki masalah saat ini, pemahaman mekanis ini membuka cara baru Llms memoles. Alih -alih hanya mengendalikan perilaku pengarahan melalui pengalaman dan kesalahan, institusi dapat mendefinisikan dan menargetkan mekanisme internal spesifik yang memimpin fitur yang diperlukan atau yang tidak diinginkan. Misalnya, memahami bagaimana “asisten kepribadian” dari model ini mencakup bias khas untuk hadiah tersembunyi, seperti yang ditunjukkan dalam penelitian antropologi, memungkinkan pengembang untuk mengatur ulang lingkaran internal yang bertanggung jawab untuk penyelarasan, yang mengarah pada moral yang lebih kuat dan konsisten.

Karena LLMS semakin terintegrasi dalam fungsi lembaga kritis, transparansi dan kemampuannya untuk menafsirkan dan mengendalikan menjadi semakin diperlukan. Generasi alat baru ini dapat membantu menjembatani kesenjangan antara kemampuan kuat AI dan memahami manusia, membangun kepercayaan dasar dan memastikan bahwa lembaga dapat menyebarkan sistem kecerdasan buatan yang andal, meninjau, dan mematuhi tujuan strategis mereka.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version