Berita
LLMS dilahirkan “omong kosong fasih” saat berpikir di luar area pelatihan mereka
Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang
A Studi baru dari Arizona State University Para peneliti menyarankan bahwa logika “COT” yang terkenal dalam model LLMS mungkin lebih dari sekadar “fatamorgana rapuh” dari kecerdasan nyata. Penelitian ini tergantung pada peningkatan serangkaian pekerjaan yang meragukan kedalaman pemikiran tentang LLM, tetapi membutuhkan lensa “distribusi” yang unik untuk menguji di mana dan mengapa sistem COT secara sistematis.
Sangat penting untuk aplikasi, makalah ini melebihi kritik untuk memberikan pedoman praktis yang jelas tentang cara menghitung pembatasan ini ketika mengembangkan aplikasi LLM, dari strategi pengujian hingga peran kontrol.
Janji dan masalah rangkaian ide
COT Preponing, yang menanyakan llm “langkah langkah”, menunjukkan hasil yang bagus dalam tugas -tugas kompleks, yang mengarah ke visi bahwa model terlibat dalam kesimpulan seperti manusia. Namun, inspeksi yang cermat sering mengungkapkan kontradiksi logis yang menantang pandangan ini.
Berbagai penelitian menunjukkan bahwa LLM berulang kali bergantung pada konotasi dan petunjuk di tingkat permukaan alih -alih prosedur logis. Model menghasilkan logika yang masuk akal dengan mengulangi pola simbol khas yang mereka lihat selama pelatihan. Namun, pendekatan ini sering gagal dalam tugas yang menyimpang dari templat yang sudah dikenal atau ketika memberikan informasi yang tidak terkait.
Kecerdasan buatan membatasi batasnya
Tutup daya, biaya tinggi simbol, dan keterlambatan inferensi dibentuk kembali. Bergabunglah dengan salon eksklusif kami untuk menemukan bagaimana perbedaan besar:
- Mengubah energi menjadi keuntungan strategis
- Mengajar penalaran yang efektif untuk keuntungan produktivitas nyata
- Membuka Pengembalian Investasi Kompetitif dengan Sistem Kecerdasan Buatan Berkelanjutan
Mengamankan tempat Anda untuk tinggal di latar depan: https://bit.ly/4mwngngo
Terlepas dari pengamatan ini, para peneliti berpendapat dalam penelitian baru bahwa “pemahaman sistematis tentang penyebab dan ketika COT gagal masih menjadi misteri”, yang studinya bertujuan untuk diatasi. Pekerjaan sebelumnya telah menunjukkan bahwa LLMS berjuang untuk menggeneralisasi kemampuan logisnya. Makalah ini juga mencatat, “Panduan teoretis dan eksperimental menunjukkan bahwa COT hanya bergantung pada ketika input tes berbagi struktur yang mendasarinya dengan data pelatihan; jika tidak, kinerjanya menurun tajam.”
Lensa baru pada logika LLM
Peneliti ASU menyarankan lensa baru untuk menampilkan masalah ini: COT tidak benar -benar berpikir tetapi bentuk canggih dari pola pencocokan, terutama diwajibkan untuk pola statistik dalam data pelatihan mereka. Mereka berasumsi bahwa “keberhasilan COT berasal dari kapasitas berpikir yang melekat dalam model, tetapi dari kemampuannya untuk menggeneralisasi itu bersyarat pada kasus -kasus tes eksternal (OOD) yang menyerupai model standar struktural dalam distribusi.” Dengan kata lain, LLM baik dalam menerapkan gaya lama pada data baru yang terlihat serupa, tetapi tidak untuk memecahkan masalah baru.
Untuk menguji hipotesis ini, mereka membedah kemampuan COT di tiga dimensi “transformasi distribusi” (perubahan antara data pelatihan dan data uji). Pertama, menguji “generalisasi tugas” untuk melihat apakah model dapat menerapkan proses berpikir yang dipelajari untuk jenis tugas baru. Kedua, mereka memeriksa “generalisasi panjang” untuk menentukan apakah dia bisa berurusan dengan rantai berpikir yang lebih panjang atau lebih pendek dari yang dilatih. Akhirnya, mereka mengevaluasi “sirkular koordinasi” untuk mengukur tingkat sensitivitas model terhadap perubahan sederhana dalam formulasi atau struktur klaim.
Untuk analisis mereka, mereka mengembangkan kerangka kerja yang disebut DataAlchemy Untuk pelatihan LLMS yang lebih kecil dari titik nol di lingkungan yang diatur, memungkinkan mereka untuk secara akurat mengukur bagaimana cara merugikan kinerja saat mengklik data pelatihan.
“Lensa mendistribusikan data dan lingkungan yang dikendalikan oleh semua orang yang kami coba transfer,” Qinjui Zhao, seorang PhD di Arizona State University dan rekan penulis surat kabar itu, mengatakan kepada VentureBeat. “Kami berharap dapat menciptakan ruang sebagai penonton, peneliti, dan pengembang dapat mengeksplorasi dan mencari secara bebas sifat LLM dan kemajuan dalam batas pengetahuan manusia.”
Mirage dikonfirmasi
Berdasarkan hasil yang mereka capai, para peneliti menyimpulkan bahwa berpikir tentang COT adalah “bentuk canggih dari pola pencocokan, terutama dibatasi oleh distribusi data yang terlihat selama pelatihan.” Ketika diuji bahkan di luar distribusi ini sedikit, kinerja runtuh. Apa yang tampaknya lebih terorganisir lebih dari sekadar fatamorgana, “keluar dari pola yang diawetkan atau terdistorsi dalam data pelatihan daripada inferensi logis.”
Runtuhnya konsisten dengan tiga dimensi. Dalam tugas -tugas baru, model gagal beredar dan malah mengulangi pola terdekat yang mereka lihat selama pelatihan. Ketika menghadapi rantai berpikir dengan panjang yang berbeda, mereka berjuang, dan mereka sering mencoba menambah atau menghapus langkah -langkah secara artifisial agar sesuai dengan panjang contoh pelatihan mereka. Akhirnya, kinerja mereka telah terbukti sangat sensitif terhadap perubahan permukaan dalam klaim, terutama perbedaan dalam elemen dan instruksi dasar.
Menariknya, para peneliti menemukan bahwa kegagalan ini dapat diperbaiki dengan cepat. Dengan menyesuaikan model pada sampel yang sangat kecil dari data baru yang tidak terlihat melalui instalasi SFT (SFT), kinerja jenis masalah yang ditentukan ini dengan cepat meningkat. Namun, reformasi yang cepat ini mendukung lebih banyak teori pencocokan pola, menunjukkan bahwa model tidak belajar untuk berpikir lebih abstrak, tetapi sebaliknya ia mempertahankan pola baru untuk mengatasi kelemahan tertentu.
Makanan cepat saji untuk institusi
Para peneliti memberikan peringatan langsung kepada para praktisi, dengan sorotan “risiko mengandalkan COT sebagai solusi koneksi dan pengoperasian tugas pemikiran dan kehati -hatian terhadap kesetaraan output yang mirip dengan COT dengan pemikiran manusia.” Ini memberikan tiga tips utama bagi pengembang untuk membangun aplikasi dengan LLMS.
1)Waspadalah terhadap ketergantungan yang berlebihan dan kepercayaan yang salah. COT tidak boleh ditangani sebagai unit yang dapat diandalkan untuk memikirkan bidang risiko tinggi seperti pembiayaan atau analisis hukum. LLMS dapat menghasilkan “omong kosong fasih” (masuk akal tetapi masuk akal) lebih menipu daripada jawaban yang benar -benar salah. Para penulis menekankan bahwa “pengawasan yang cukup dari para ahli lapangan sangat diperlukan.”
“Kemajuan sains harus tetap menjadi poros manusia-mesin dapat membantu, tetapi penemuan itu masih mengancam kemanusiaan dan keingintahuan,” kata Zhao.
2) pReoard The Output Test (OOD). Verifikasi kesehatan standar tidak cukup, karena data pelatihan mencerminkan data uji, daya tahan nyata. Pengembang harus melakukan tes ketat yang secara sistematis mendapat manfaat dari kegagalan melalui perbedaan dalam tugas, panjang dan koordinasi.
3)Pelajari tentang AC sebagai koreksi, bukan obat. Sementara kontrol SFT dapat “memperbaiki” kinerja model dengan cepat ke distribusi data spesifik baru, itu tidak membuat sirkuler nyata. Ini hanya sedikit memperluas “gelembung distribusi” dari model. Ketergantungan pada SFT untuk mereformasi setiap kegagalan OOS adalah strategi tak terbatas yang gagal mengatasi kurangnya model dasar untuk berpikir abstrak.
Meskipun COT bukanlah bentuk persepsi manusia, pembatasan ini dapat dikelola. Sebagian besar aplikasi lembaga mencakup serangkaian tugas yang relatif sempit dan dapat diprediksi. Hasil makalah ini memberikan rencana untuk memastikan keandalan di dalam area ini. Pengembang dapat membangun suite evaluasi ketat yang secara sistematis menguji kinerja model untuk tugas, panjang dan koordinasi spesifik yang akan dihadapi aplikasi mereka. Ini memungkinkan mereka untuk mengatur batas -batas area kenyamanan “internal” dari model dan menentukan tempat di mana mereka sesuai dengan kebutuhan spesifik mereka.
Tes target ini mengubah proses kontrolnya dari “koreksi” interaktif menjadi strategi proaktif untuk penyelarasan. Ketika penilaian mengungkapkan spesifik dua kali, pengembang dapat membuat set data SFT target kecil untuk memprosesnya. Alih -alih mencoba mencapai pemikiran umum yang meluas, pendekatan SFT ini digunakan secara pembedahan untuk memastikan kompatibilitas kemampuan model secara akurat dengan fitur misi lembaga tertentu. Pada akhirnya, penelitian ini menyediakan lensa praktis untuk mengatasi aplikasi LLM dan rekayasa untuk mencapai kesuksesan yang diharapkan.
Tautan sumber