Berita

Teknologi huawei open source baru mengurangi skor LLM untuk membuatnya bekerja pada perangkat yang kurang kuat dan lebih rendah

Published

on

Huawei Computing Laborat Sumber Kuantitas Terbuka Baru Untuk model LLMS yang bertujuan untuk mengurangi persyaratan memori tanpa mengorbankan kualitas output.

Teknologi disebut Sinq (Tank Kigmat)Ini dirancang untuk menjadi cepat, bebas dan mudah diintegrasikan ke dalam fungsi model saat ini. Kode untuk menerapkan ini disediakan oleh tim peneliti Huawei di Gyrroup Dan Merangkul Di bawah lisensi Apache 2.0 dan teman dan teman lembaga, yang memungkinkan lembaga untuk memperoleh, menggunakan, mengubahnya, dan mempublikasikannya secara komersial – semua ini secara gratis.

Melalui model dengan ukuran yang berbeda, SINQ mengurangi penggunaan memori 60-70%Tergantung pada struktur dan bit.

Ini mengarah pada model yang memungkinkan yang sebelumnya diperlukan untuk menjalankan lebih dari 60 GB memori ~ Pengaturan 20 GB– Faktor pemberdayaan yang sangat penting untuk mengoperasikan model besar pada satu unit pemrosesan grafis yang dikembangkan atau bahkan beberapa pengaturan konsumen.

Ini memungkinkan untuk mengaktifkan model yang sebelumnya membutuhkan unit pemrosesan grafis canggih – seperti A100 atau H100 NVIDIA – pada perangkat yang jauh lebih rendah, seperti satu unit Nafidia Guevors RTX 4090 (Sekitar 1600 dolar), Alih -alih perangkat institusi seperti A 100 80 GB ($ 19.000) Atau bahkan H100 Unit itu Itu melebihi 30.000 dolar.

Untuk tim yang menggunakan infrastruktur cloud, tabungan juga konkret. Rekan -rekan berbasis A100 sering berharga antara 3 hingga $ 4,50 per jam, sementara unit pemrosesan grafis 24 GB seperti RTX 4090 tersedia di banyak sistem dasar untuk $ 1 hingga $ 1,50 per jam.

Seiring waktu, terutama untuk beban penalaran yang diperpanjang, perbedaan ini dapat mencapai tingkat yang besar Ribuan dolar untuk mengurangi biayaDengan pembukaan publikasi LLM pada kelompok yang lebih kecil, workstars lokal atau pengaturan konsumen sebelumnya terikat oleh memori.

Mengobati Tantangan Memori di LLMS

Model besar sering membutuhkan konsesi antara kinerja dan ukuran.

Dalam praktiknya, jaringan saraf digunakan Nomor Pemisah Mengambang Untuk mewakili bobot dan aktivasi. Nomor koma mengambang dapat mengekspresikan berbagai nilai (sangat kecil, sangat besar, dengan bagian kerusakan).

Fleksibilitas ini berguna karena selama pelatihan dan inferensi, bobot dan aktivasi dapat sangat bervariasi. Penggunaan titik mengambang untuk model memungkinkan kemampuan untuk memodifikasi secara akurat. (Misalnya, beratnya bisa 0,0023 atau 123,45, dan koma mengambang dapat menangkap keduanya dengan akurasi yang sesuai.)

Penyelesaian – Metode yang mengurangi keakuratan berat berat – memberikan jalur praktis untuk mengurangi penggunaan memori, tetapi biasanya dilengkapi dengan model dalam kualitas model, terutama dengan resolusi 4 -bit atau kurang.

Saat Anda mengonversi nilai -nilai koma mengambang ini menjadi format akurasi yang lebih rendah (seperti 8 -bit angka yang benar), Anda membawanya lebih dekat.

Ini berarti bahwa Anda menyimpan dan menghitung dengan menggunakan bit yang lebih sedikit, yang lebih cepat dan lebih efisien dalam memori – tetapi Anda berisiko kehilangan akurasi (mis. Kesalahan kecil).

Triknya terletak pada proses konversi dengan hati -hati sehingga perilaku model tetap hampir seperti itu, meskipun bekerja secara internal dengan perkiraan perkiraan yang lebih banyak dari bobot dan proses aktivasi ini.

Sinq memperlakukan kelemahan ini dengan memberikan solusi koneksi dan operasi yang memberikan kinerja yang kuat bahkan dalam pengaturan resolusi rendah – tanpa perlu kalibrasi atau dependensi antara lapisan.

Bagaimana cara kerja Senk

Sinq mendekati inovasi besar:

  1. Penskalaan sumbu ganda: Alih -alih menggunakan satu faktor skala untuk menentukan jumlah matriks, SINQ menggunakan vektor pengukuran terpisah untuk baris dan kolom. Ini membantu meringankan efek dari nilai -nilai ekstremis dan memungkinkan distribusi kesalahan pengukuran lebih fleksibel di seluruh matriks.

  2. Normalisasi mirip dengan Sencorn-Knob: Algoritma cepat yang terinspirasi oleh pengulangan sinkhorn digunakan untuk menormalkan penyimpangan normatif baris dan kolom dalam matriks. Ini membantu mengurangi apa yang penulis sebut “ketidakseimbangan matriks”, ukuran alternatif baru yang telah terbukti lebih efektif daripada alternatif seperti eksklusivitas untuk meningkatkan kinerja GAG.

Kombinasi dari dua fitur SINQ ini memungkinkan keunggulan ke teknologi bebas kalibrasi lainnya seperti perkiraan ke kuantitas berbasis terdekat (RTN), HQQ, Hadamard melalui berbagai standar.

Kinerja dan kompatibilitas

Sinq dievaluasi melalui berbagai struktur dan model, termasuk QWEN3 Series, Llama, dan Deepseek.

Dalam standar seperti Wikuxext2 dan C4, SinQ terus -menerus mengurangi kebingungan dan volatilitas dibandingkan dengan metode dasar, dan seringkali mendekati atau mencocokkan solusi kalibrasi.

Ini juga mendukung diagram GAG yang tidak seragam seperti NF4 dan dapat dikombinasikan dengan metode kalibrasi seperti AWQ, yang mengarah ke alternatif A-SINQ. Dalam pengaturan kalibrasi, teknologi A-SINQ bekerja untuk mempersempit kesenjangan lebih banyak melalui model penuh akurat.

Berkenaan dengan efisiensi waktu operasi, SINQ mengukur model dengan kecepatan sekitar dua kali kecepatan HQQ dan lebih cepat lebih dari 30 kali dari AWQ. Ini membuatnya sangat cocok untuk masing -masing lingkungan penelitian dan produksi, karena waktu untuk tersumbat adalah hambatan praktis.

Open source dan mudah digunakan

Huawei Sinq sebagai proyek open source di bawah pekerjaan Apache 2.0 dan teman lembaga, dengan instruksi implementasi dan alat pengulangan yang tersedia di GitHub:

Gudang ini mencakup dukungan untuk memperkirakan model wajah memeluk hanya menggunakan beberapa baris instruksi perangkat lunak, serta alat untuk menghemat bobot kuantitatif dan kembali mengunduhnya. Pengaturan virtual memberikan keseimbangan antara memori dan akurasi, dan pengguna dapat menyesuaikan parameter seperti lebar bit, strategi pengelompokan dan ukuran grup berdasarkan kebutuhan mereka.

Penulis juga memberikan integrasi evaluasi melalui lm-eval Perpustakaan berencana untuk mengeluarkan model yang telah ditentukan sebelumnya di Huging Face Hub dalam waktu dekat.

Melihat ke depan

Dengan meningkatnya permintaan untuk model besar yang beroperasi pada perangkat konsumen, tersumbat telah menjadi alat yang penting. SINQ bertujuan untuk mengurangi penghalang masuk untuk menggunakan LLM, memungkinkan pengembang dan peneliti untuk mengurangi model secara efisien tanpa badan yang signifikan dalam kualitas atau kompatibilitas.

Lebih banyak pembaruan direncanakan – termasuk integrasi dengan transformasi wajah memeluk dan versi sebelumnya – yang membuat proyek ini layak ditonton di bidang lelucon.

Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version