Berita

Beyond GPT: Mengapa Google bisa menyebarkan LLM Spread

Published

on

Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut


Bulan lalu, bersama dengan koleksi komprehensif alat dan inovasi kecerdasan buatan baru, Google DeepMind menyingkap Penyebaran Gemini. Model penelitian eksperimental ini menggunakan pendekatan luas untuk penciptaan teks. Secara tradisional, model LLMS seperti GPT dan Gemini sendiri telah mengadopsi kemiringan otomatis, pendekatan langkah -oleh di mana setiap kata dibuat berdasarkan kata sebelumnya. Model DLMS, juga dikenal sebagai DLLMS, mendapat manfaat dari cara yang terlihat lebih umum pada generasi gambar, dimulai dengan noise acak dan secara bertahap memperbaikinya menjadi output yang koheren. Pendekatan ini sangat meningkatkan kecepatan generasi dan dapat meningkatkan kohesi dan konsistensi.

Gemini saat ini tersedia sebagai penawaran eksperimental; Berlangganan daftar tunggu Di sini untuk mencapai.

(Catatan Editor: Kami akan mengosongkan model model seperti menyebarkan model bahasa-yang mengharuskannya untuk berjalan dalam produksi produksi- VB mengonversi24-25 Juni di San FranciscoSelain Google DeepMind, LinkedIn dan pemimpin lembaga AI lainnya.)

Memahami proliferasi terhadap versi otomatis

Proliferasi dan proliferasi otomatis terutama merupakan pendekatan yang berbeda. Pendekatan kemiringan otomatis menghasilkan teks berurutan, karena simbol memprediksi salah satunya secara bersamaan. Meskipun metode ini menjamin konteks kohesi dan pelacakan yang kuat, itu bisa intens dan solid, terutama untuk konten jangka panjang.

Model perpindahan, berbeda dengan itu, mulai dengan noise acak, yang secara bertahap dikurangi menjadi output yang koheren. Ketika diterapkan pada bahasa, teknologi ini memiliki banyak keunggulan. Blok teks dapat diobati secara paralel, yang kemungkinan akan menghasilkan irisan atau seluruh unta pada tingkat yang jauh lebih tinggi.

Dikatakan bahwa penyebaran Gemini dapat menghasilkan 1000-2000 simbol per detik. Sebaliknya, Gueini 2.5 Flash memiliki kecepatan output rata -rata 272,4 ikon per detik. Selain itu, kesalahan dalam generasi dapat diperbaiki selama proses pemurnian, meningkatkan akurasi dan mengurangi jumlah halusinasi. Mungkin ada akurasi mikro dan kontrol atas level simbol yang khas; Namun, peningkatan kecepatan akan menjadi permainan yang diubah untuk banyak aplikasi.

Bagaimana cara kerja untuk menghasilkan teks berbasis teks?

Selama pelatihan, DLMS bekerja dengan merusak kalimat dengan kebisingan pada banyak langkah, sampai kalimat asli sepenuhnya diakui. Model ini kemudian dilatih tidak seperti proses ini, langkah -oleh, dan membangun kembali kalimat asli dari versi keras. Melalui peningkatan berulang, desain kalimat yang sepenuhnya masuk akal dipelajari dalam data pelatihan.

Sementara rincian penyebaran Gemini belum terungkap, metodologi pelatihan model model proliferasi mencakup tahapan utama ini:

Menyebar ke depan: Dengan setiap sampel dalam set data pelatihan, noise secara bertahap ditambahkan ke beberapa kursus (sering dari 500 hingga 1000) sampai mereka tidak dapat dibedakan dari kebisingan acak.

Reverse Spread: Model ini belajar kebalikan dari setiap langkah dari proses noising, dan terutama belajar bagaimana “menghapus” kalimat yang rusak satu tahap pada satu waktu, pada akhirnya memulihkan struktur asli.

Proses ini diulangi jutaan kali dengan berbagai sampel dan tingkat kebisingan, memungkinkan model untuk mempelajari fungsi reduksi yang andal.

Setelah berlatih, model ini dapat sepenuhnya menghasilkan unta baru. DLM umumnya membutuhkan kondisi atau input, seperti klaim, inklusi atau inklusi, untuk mengarahkan generasi ke hasil yang diperlukan. Kondisi ini disuntikkan ke dalam setiap langkah proses kelimpahan, yang merupakan titik awal kebisingan dalam teks yang terorganisir dan koheren.

Keuntungan dan kerugian dari model penyebaran

Dalam sebuah wawancara dengan VentureBeat, Brendan O’Donughue, Google Deepmind dan salah satu pelanggan yang diharapkan dalam proyek penerbitan Gemini, yang ditempatkan dalam beberapa keuntungan dari teknologi penyebaran dibandingkan dengan asregress. Menurut O’Donughue, keuntungan utama dari teknik penyebaran adalah sebagai berikut:

  • Cumin Rendah: Model proliferasi dapat menghasilkan serangkaian simbol dalam waktu yang jauh lebih rendah daripada model otomatis.
  • Akun Adaptif: Model proliferasi akan bertemu dengan serangkaian simbol pada tingkat yang berbeda tergantung pada kesulitan tugas. Ini memungkinkan untuk model konsumsi sumber daya yang lebih rendah (dan memiliki waktu waktu yang lebih rendah) dalam tugas -tugas mudah dan lebih banyak tentang sumber daya yang paling sulit.
  • Logika non -lold: Karena perhatian bipoiser Denoiser, token dapat menghadiri simbol masa depan dalam generasi generasi itu sendiri. Ini memungkinkan pemikiran luar biasa dan memungkinkan model untuk membuat amandemen global dalam blok teks yang lebih kohesif.
  • Revisi Berulang / Koreksi Diri: Proses pengurangan sampel termasuk mengambil sampel, yang dapat membuat kesalahan seperti pada model otomatis. Namun, tidak seperti model kemiringan otomatis, simbol khas ditransfer ke Denoiser, yang memiliki kesempatan untuk memperbaiki kesalahan.

O’Donughue juga menunjuk pada cacat utama: “Biaya layanan tertinggi dan sedikit waktu pada saat ini (TTFT), mengingat bahwa model lereng otomatis akan menghasilkan simbol khas pertama secara instan. Untuk penyebaran, simbol pertama hanya dapat muncul ketika urutan penuh simbol siap.”

Standar Kinerja

Google mengatakan kinerja difusi gemini Mirip dengan Gemini 2.0 Flash-Lite.

standarDia menulisPenyebaran GeminiGemini 2.0 Flash-Lite
LiveCoooobench (V6)kode30,9 %28,5 %
Bigcocooobenchkode45,4 %45,8 %
Lbpp (v2)kode56,8 %56,0 %
Bangku diverifikasi*kode22,9 %28,5 %
Humanevalkode89,6 %90,2 %
MBPkode76,0 %75,8 %
Berlian GPQAIlmu40,4 %56,5 %
AIME 2025matematika23,3 %20,0 %
Kursi besar itu sulitPemikiran15,0 %21,0 %
MMLU International (Cahaya)Multi -banguage69,1 %79,0 %

* Evaluasi yang tidak akurat (hanya satu putaran), panjang maksimum 32 km.

Kedua model dibandingkan dengan penggunaan beberapa kriteria, dengan derajat berdasarkan berapa kali bentuk menghasilkan jawaban yang benar dalam upaya pertama. Gemini dilakukan dengan baik dalam tes pengkodean dan matematika, sementara Gemini 2.0 Flash-Lite memiliki keunggulan dibandingkan pemikiran, pengetahuan ilmiah, dan kemampuan multi-bahasa.

Dengan pengembangan Gemini, tidak ada alasan untuk percaya bahwa kinerjanya tidak akan mengejar lebih banyak model yang kuat. Menurut O’Donughue, kesenjangan antara kedua teknologi “terutama ditutup dalam hal kinerja standar, setidaknya dalam ukuran yang relatif kecil yang kami lakukan.

Tes penyebaran Gemini

VentureBeat telah diberikan akses ke penawaran eksperimental. Ketika penyebaran Gemini selama langkahnya, hal pertama yang kami perhatikan adalah kecepatan. Ketika klaim yang diusulkan Google dijalankan, termasuk membuat aplikasi HTML interaktif seperti xylophone dan planet tac toe, setiap permintaan telah diselesaikan dalam waktu kurang dari tiga detik, dengan kecepatan mulai dari 600 hingga 1300 kode per detik.

Untuk menguji kinerjanya melalui aplikasi nyata, kami meminta untuk menerbitkan Gemini untuk membuat antarmuka obrolan video dengan klaim berikut:

Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.

Dalam waktu kurang dari dua detik, Gemini telah menciptakan antarmuka kerja dengan pratinjau video dan skala suara.

Meskipun ini bukan aplikasi yang kompleks, ini mungkin awal dari MVP yang harus diselesaikan dengan lebih banyak klaim. Perhatikan bahwa Gemini 2.5 Flash juga menghasilkan antarmuka bisnis, meskipun sedikit lebih lambat (sekitar tujuh detik).

Difusi Gemini juga fitur “edit edit”, mode yang dapat ditempelkan dalam teks atau kode dalam waktu aktual dengan klaim minimal. Pengeditan segera efektif dalam banyak jenis pengeditan teks, termasuk koreksi aturan, modernisasi teks untuk menargetkan kepribadian pembaca yang berbeda, atau menambahkan kata -kata besar kepada pejabat ekonomi senior. Ini juga berguna untuk tugas -tugas seperti kode publikasi ulang, menambahkan fitur baru ke aplikasi, atau mengonversi basis kode yang ada ke bahasa yang berbeda.

Kasus Penggunaan DLM

Aman untuk mengatakan bahwa aplikasi apa pun membutuhkan waktu respons yang cepat yang mendapat manfaat dari teknologi DLM. Ini termasuk aplikasi aktual dan rendah waktu, seperti percakapan AI dan obrolan obrolan, penyalinan langsung dan terjemahan, asisten otomatis dan asisten pengkodean IDE.

Menurut O’Donughue, dengan aplikasi yang mendapat manfaat dari “pengeditan yang disertakan, misalnya, mengambil teks dari teks dan membuat beberapa perubahan di tempat, model proliferasi berlaku dengan cara yang bukan model kemiringan otomatis.” DLMS juga memiliki keuntungan dengan masalah matematika dan matematika, karena “logika luar biasa yang disediakan oleh perhatian bilateral.”

DLMS masih dalam dudukannya. Namun, teknologi dapat mengubah cara membangun model bahasa. Tidak hanya generasi teks pada tingkat yang jauh lebih tinggi daripada model otomatis, tetapi kemampuannya untuk mengembalikan dan memperbaiki kesalahan rata -rata, pada akhirnya, dapat mencapai hasil yang lebih akurat.

Gemini menyebar ke ekosistem DLM yang meningkat, dengan dua contoh yang menonjol Air raksaItu dikembangkan oleh laboratorium awal, dan llaadaModel open source dari GSAI. Bersama -sama, model -model ini mencerminkan momentum yang lebih luas di balik generasi bahasa berbasis spread dan memberikan alternatif untuk perkembangan dan sejajar dengan struktur otomatis tradisional.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version