Artikel ini adalah bagian dari jumlah khusus VentureBeat, “Biaya sebenarnya dari Amnesty International: Kinerja, Efisiensi dan Investasi Skala Besar.” Baca lebih lanjut dari nomor khusus ini.
Penampilan model LLMS (LLMS) telah memudahkan perusahaan untuk membayangkan jenis proyek yang dapat mereka lakukan, yang mengarah pada program eksperimental sekarang untuk diterbitkan.
Namun, ketika proyek -proyek ini memperoleh momentum, lembaga -lembaga menyadari bahwa LLMS sebelumnya yang mereka gunakan tidak akurat, dan lebih buruk dari itu, mahal.
Masukkan model bahasa kecil dan distilasi. Contoh seperti GoogleKeluarga Gima, MicrosoftPhi dan kesalahanIni memungkinkan perusahaan kecil 3.1 untuk memilih model cepat dan akurat yang berfungsi untuk tugas -tugas tertentu. Lembaga dapat memilih model yang lebih kecil untuk situasi penggunaan khusus, memungkinkan mereka untuk mengurangi biaya operasi aplikasi kecerdasan buatan untuk mereka dan mungkin mencapai pengembalian investasi yang lebih baik.
LinkedIn Insinyur terkemuka Karakik Ramgobal VentureBeat telah mengatakan kepada perusahaan bahwa perusahaan memilih model yang lebih kecil karena beberapa alasan.
“Model yang lebih kecil membutuhkan akun yang lebih rendah, memori dan waktu inferensi yang lebih cepat, yang diterjemahkan langsung ke dalam infrastruktur rendah Opex (biaya operasi) dan CAPEX (biaya modal) karena biaya GPU, kebutuhan energi dan kebutuhan energi,” kata RamGapl. “Model misi memiliki jangkauan yang lebih sempit, yang membuat perilaku mereka lebih kompatibel dan pemeliharaan dari waktu ke waktu tanpa rekayasa cepat yang kompleks.”
Model pengembang adalah harga model kecil mereka. O4-Mini Openai Harganya $ 1,1 per juta kode untuk input dan simbol $ 4,4/juta untuk output, dibandingkan dengan versi O3 penuh pada $ 10 untuk input dan $ 40 untuk output.
Korporat saat ini memiliki berbagai model kecil, model misi, dan model suling untuk dipilih. Saat ini, sebagian besar model utama menawarkan serangkaian ukuran. Misalnya, keluarga model Claude dari pria Claude Obus, model terbesar, Claude Sonit, model multi -perfect, Claude haiku, salinan terkecil. Model -model ini dikompresi cukup untuk bekerja pada perangkat seluler, seperti laptop atau ponsel.
Simpan pertanyaan
Saat mendiskusikan laba atas investasi, pertanyaannya selalu: Apa yang dilihat oleh pengembalian investasi? Haruskah itu kembali ke biaya yang dikeluarkan atau menghemat waktu yang pada akhirnya berarti bahwa dolar telah dihemat di telepon? Para ahli di VentureBeat berbicara bahwa pengembalian investasi mungkin sulit untuk dinilai karena beberapa perusahaan percaya bahwa mereka telah mencapai pengembalian investasi dengan mengurangi waktu yang dihabiskan untuk misi sementara yang lain menunggu dolar yang sebenarnya disediakan atau lebih banyak bisnis disajikan kepada apakah investasi kecerdasan buatan telah berhasil.
Biasanya, perusahaan menghitung laba atas investasi dengan formula sederhana seperti yang ditunjukkan oleh menyadari Kepala Teknisi Ravi Tula Dalam publikasi: ROI = (Manfaat Biaya)/Biaya. Tetapi dengan program kecerdasan buatan, manfaatnya tidak segera jelas. Lembaga diusulkan bahwa manfaat yang mereka harapkan dan hargai berdasarkan data historis, dan bahwa mereka realistis tentang total biaya Amnesty International, termasuk mempekerjakan, menerapkan dan memelihara, dan memahami bahwa itu harus lama.
Dengan model kecil, para ahli berpendapat bahwa ini mengurangi biaya implementasi dan pemeliharaan, terutama ketika merumuskan model untuk memberikannya dalam konteks yang lebih besar ke institusi Anda.
Arijit Sengupta, pendiri dan CEO AobleDia mengatakan bagaimana orang membawa konteks model yang menentukan jumlah penghematan biaya yang bisa mereka dapatkan. Untuk individu yang membutuhkan konteks tuntutan tambahan, seperti instruksi panjang dan kompleks, ini dapat menyebabkan biaya tinggi dari simbol yang khas.
Dia berkata: “Anda harus memberikan model konteks dengan satu atau lain cara; tidak ada makan siang gratis. Tetapi dengan model besar, ini biasanya dilakukan dengan menempatkannya di klaim.” “Pikirkan pemurnian dan setelah pelatihan sebagai cara alternatif untuk memberikan model konteks. Saya mungkin menanggung $ 100 dari biaya pelatihan pasca, tetapi itu bukan astronomi.”
Sengupta mengatakan mereka melihat sekitar 100x biaya hanya dari pasca -pelatihan saja, dan biaya penggunaan model sering dibatalkan “dari jutaan dua angka menjadi hampir 30.000 dolar.” Dia telah mengindikasikan bahwa nomor ini mencakup biaya operasi perangkat lunak dan biaya berkelanjutan dari database model dan aturan data vektor.
Dia berkata: “Berkenaan dengan biaya pemeliharaan, jika Anda melakukannya secara manual dengan para ahli manusia, itu mungkin mahal karena model kecil perlu dilatih setelah mencapai hasil yang sama untuk model besar.”
Eksperimen Saya dilakukan Tunjukkan bahwa model yang sangat khusus, bekerja dengan baik untuk beberapa kasus penggunaan, seperti LLMS, yang membuat situasi yang menerbitkan banyak model untuk digunakan alih -alih model besar untuk melakukan segala sesuatu yang lebih efektif.
Perusahaan membandingkan versi pasca-pelatihan LLAMA-3.3-70B-instruksi dengan opsi parameter 8B yang lebih kecil dari formulir yang sama. Model 70B, yang dilatih setelah $ 11,30, adalah 84 % akurat dalam penilaian otomatis dan 92 % dalam penilaian manual. Setelah alasan biaya $ 4,58, model 8B mencapai 82 % dalam evaluasi manual, yang akan cocok untuk situasi penggunaan yang sederhana dan paling bertarget.
Faktor biaya cocok untuk tujuan tersebut
Model yang benar tidak boleh mengorbankan kinerja. Hari-hari ini, organisasi memahami bahwa memilih model tidak hanya berarti memilih antara GPT-4O atau LLAMA-3.1; Dia tahu bahwa beberapa kasus penggunaan, seperti meringkas atau menghasilkan kode, lebih baik disajikan oleh model kecil.
Daniel Hosk, karyawan Teknologi Senior di Pusat Kontak AI puncakDia mengatakan peluncuran pengembangan dengan LLMS lebih baik.
Dia berkata: “Anda harus mulai dengan gaya paling banyak untuk melihat apakah apa yang Anda bayangkan bekerja sama sekali, karena jika tidak berhasil dengan model terbesar, ini tidak berarti bahwa itu akan dengan model yang lebih kecil.”
Ramping mengatakan bahwa LinkedIn mengikuti pola yang sama karena model awal adalah satu -satunya cara masalah ini dapat mulai muncul.
“Pendekatan khas kami untuk penggunaan pekerjaan LLM untuk tujuan umum dimulai karena generalisasi yang luas memungkinkan kami untuk dengan cepat model awal, memeriksa hipotesis dan mengevaluasi kesesuaian pasar produk.” “Dengan pematangan produk dan kami menghadapi pembatasan kualitas, biaya, atau jintan, kami beralih ke solusi yang lebih disesuaikan.”
Pada tahap eksperimen, lembaga dapat menentukan perkiraan yang paling banyak dari aplikasi kecerdasan buatan. Menemukan ini memungkinkan pengembang untuk merencanakan apa yang ingin mereka berikan dan menentukan ukuran model yang sesuai dengan tujuan dan anggaran mereka.
Para ahli telah memperingatkan bahwa meskipun penting untuk dibangun dengan model yang bekerja lebih baik dengan apa yang mereka kembangkan, LLM guru yang tinggi akan selalu lebih mahal. Model besar akan selalu membutuhkan daya komputasi yang hebat.
Namun, penggunaan yang berlebihan dari model kecil dan yang dimaksudkan juga menimbulkan masalah. Rahul Pathak, Wakil Presiden Data dan AI GTM di AWSDan, dia mengatakan dalam publikasi blog bahwa peningkatan biaya tidak hanya berasal dari menggunakan model rendah -kebutuhan untuk akun, tetapi dari mencocokkan model dengan tugas. Model yang lebih kecil mungkin tidak mengandung jendela besar yang cukup untuk memahami instruksi yang lebih kompleks, yang meningkatkan beban kerja bagi karyawan manusia dan meningkatkan biaya.
Sengupta juga telah memperingatkan bahwa beberapa model suling mungkin rapuh, sehingga penggunaan jangka panjang mungkin tidak disediakan.
Evaluasi Konstan
Terlepas dari ukuran model, pemain industri menekankan fleksibilitas dalam menangani kemungkinan masalah atau kasus penggunaan baru. Jadi, jika mereka mulai dengan model besar dan model yang lebih kecil dengan kinerja yang serupa atau lebih baik dan biaya yang lebih rendah, lembaga -lembaga tersebut tidak dapat berharga tentang model yang mereka pilih.
Tessa Burg, CTO dan Kepala Inovasi di Perusahaan Pemasaran Merek Terhadap di atasTell VentureBeat bahwa organisasi harus memahami bahwa semua yang Anda adopsi sekarang akan selalu diselesaikan dengan versi yang lebih baik.
“Kami telah memulai dengan pola pikir bahwa teknik di bawah alur kerja yang kami buat, dan proses yang kami buat lebih efisien, akan berubah. Kami tahu bahwa model apa pun yang kami gunakan akan menjadi versi terburuk dari formulir. “
Burg mengatakan bahwa model yang lebih kecil membantu menyelamatkan perusahaan dan agennya dalam mencari dan mengembangkan konsep. Dia mengatakan bahwa waktu telah disimpan mengarah pada penghematan anggaran dari waktu ke waktu. Dia menambahkan bahwa itu baik untuk memecahkan penggunaan model ringan dan frekuensi tinggi.
Sengupta mencatat bahwa penjual sekarang memfasilitasi perubahan antara model secara otomatis, tetapi mereka memperingatkan pengguna untuk tidak menemukan platform yang juga memfasilitasi kontrol kinerja, sehingga mereka tidak menanggung biaya tambahan.