Artikel ini adalah bagian dari jumlah khusus VentureBeat, “Biaya sebenarnya dari Amnesty International: Kinerja, Efisiensi dan Investasi Skala Besar.” Baca lebih lanjut dari nomor khusus ini.
Kecerdasan buatan telah menjadi Piala Suci perusahaan modern. Apakah itu layanan pelanggan atau sesuatu seperti ini seperti pemeliharaan pipa, lembaga di setiap bidang sekarang menerapkan teknik kecerdasan buatan – dari dasar ke VLA – untuk membuat hal -hal lebih efisien. Tujuannya jelas dan langsung: untuk mengotomatiskan tugas untuk memberikan hasil lebih efisien dan menghemat uang dan sumber daya pada saat yang sama.
Namun, dengan transfer proyek -proyek ini dari pilot ke tahap produksi, tim menghadapi hambatan yang tidak mereka rencanakan: biaya awan yang marginnya terkikis. Kejutan stiker sangat buruk sehingga apa yang saya rasakan sebelumnya adalah cara tercepat untuk berinovasi dan keunggulan kompetitif menjadi lubang yang tidak perlu dalam anggaran – kapan saja.
Ini memanggil CIO untuk memikirkan kembali segalanya – dari arsitektur khas hingga model penerbitan – untuk mengembalikan kontrol aspek keuangan dan operasional. Terkadang, mereka bahkan menutup proyek, mulai dari awal.
Tapi ini adalah kebenaran: Sementara cloud dapat mengambil biaya ke level yang tak tertahankan, mereka bukan kejahatan. Anda hanya perlu memahami jenis kendaraan (infrastruktur internasional amnesti) untuk memilih untuk pergi ke cara apa pun (beban kerja).
Kisah Cloud – tempat Anda bekerja
Awan sangat mirip dengan transportasi umum (kereta bawah tanah dan bus Anda). Anda bisa mendapatkan model sewa sederhana, dan segera memberi Anda semua sumber daya – dari rekan GPU hingga penskalaan cepat di berbagai wilayah geografis – untuk membawa Anda ke tujuan, semua dengan pekerjaan dan persiapan minimal.
Akses yang cepat dan mudah ke formulir layanan memastikan awal yang lancar, dan membuka cara untuk menghapus proyek dari tanah dan melakukan pengalaman cepat tanpa pengeluaran kapitalis yang sangat besar untuk mendapatkan unit pemrosesan grafis khusus.
Sebagian besar startup pada tahap awal menemukan bahwa model ini menguntungkan karena membutuhkan perubahan cepat lebih dari apa pun, terutama ketika mereka masih memverifikasi bentuk model dan menentukan kesesuaian pasar produk.
Suara audio AI tampil di BerbicaraBeri tahu VentureBeat.
Biaya “kemudahan”
Meskipun cloud sepenuhnya logis untuk digunakan pada tahap awal, matematika infrastruktur menjadi gelap ketika proyek bergerak dari tes dan memeriksa kesehatan unit penyimpanan di dunia nyata. Ukuran beban kerja membuat tagihan brutal – sejauh biaya dapat naik lebih dari 1000 % dalam semalam.
Ini terutama benar jika terjadi penalaran, yang tidak harus berjalan hanya 24/7 untuk memastikan waktu layanan tetapi juga dengan permintaan pelanggan.
Pada sebagian besar kesempatan, Sarin menjelaskan bahwa mutasi permintaan untuk penalaran ketika pelanggan lain juga meminta GPU, yang meningkatkan persaingan untuk sumber daya. Dalam kasus seperti itu, perbedaan tersebut mempertahankan kemampuan yang dipesan untuk memastikan bahwa mereka mendapatkan apa yang mereka butuhkan-yang mengarah pada waktu GPU untuk menempatkan ketidakaktifan dalam beberapa jam selain puncak-atau menderita dari waktu kemajuan, yang mempengaruhi pengalaman muara.
Christian Khoury, CEO Kepatuhan dengan Amnesty International Easaudit aiDia menggambarkan kesimpulan sebagai “pajak cloud” baru, untuk memberi tahu VentureBeat sebagai perusahaan yang berkisar antara 5 ribu dolar hingga 50 ribu dolar per bulan semalam, hanya dari gerakan inferensi.
Perlu juga dicatat bahwa beban inferensi yang mencakup LLM, dengan harga pada simbol yang khas, dapat menyebabkan peningkatan biaya yang paling parah. Ini karena model -model ini tidak spesifik dan dapat menghasilkan output yang berbeda saat berhadapan dengan tugas jangka panjang (termasuk jendela konteks besar). Dengan pembaruan berkelanjutan, sulit untuk memprediksi biaya atau mengontrol LLM.
Melatih model -model ini, untuk bagiannya, adalah “ledakan” (terjadi dalam kelompok), yang menyisakan ruang untuk kapasitas untuk ditangkap. Namun, bahkan dalam kasus -kasus ini, terutama dengan menghilangkan kekuatan kompetisi yang meningkat, lembaga dapat memiliki tagihan besar dari saat unit pemrosesan grafis yang tidak aktif, yang berasal dari pendaftaran yang berlebihan.
“Kredit pelatihan pada platform cloud mahal, dan pelatihan yang sering dapat meningkat selama kursus pengulangan yang cepat. Pelatihan panjang membutuhkan akses ke mesin besar, dan sebagian besar penyedia layanan cloud masih menjamin hanya akses jika Anda telah memesan periode satu tahun atau lebih.
Ini bukan hanya itu. Penutupan awan sangat nyata. Misalkan Anda telah memesan reservasi jangka panjang dan membeli kredit dari penyedia. Dalam hal ini, Anda tertutup dalam sistem lingkungan mereka dan Anda harus menggunakan semua yang mereka miliki, bahkan ketika penyedia layanan lain pindah ke infrastruktur yang lebih baru dan lebih baik. Akhirnya, ketika Anda mendapatkan kemampuan untuk bergerak, Anda mungkin harus menahan biaya keluar yang sangat besar.
“Tidak hanya akun biaya. Saya mendapat … otomatis yang tidak terduga, dan biaya keluar gila jika Anda mentransfer data antara daerah atau penjual. Ada satu tim yang membayar untuk mentransfer data lebih dari melatih model mereka,” Sarin mengkonfirmasi.
Jadi, apa solusinya?
Melihat permintaan terus-menerus untuk infrastruktur untuk memperluas ruang lingkup kesimpulan kecerdasan buatan dan sifat pelatihan yang gagal, lembaga bergerak untuk membagi beban keuntungan pengambilan kerja dari cerobong asap atau cerobong internal, sambil meninggalkan pelatihan awan dengan rekan-rekan topikal.
Ini bukan hanya teori – ini adalah gerakan yang meningkat di antara para pemimpin teknik yang mencoba menempatkan kecerdasan buatan dalam produksi tanpa membakar di landasan pacu.
Khoury menambahkan: “Kami telah membantu perbedaan dalam mengonversi ke kelompok dari menyimpulkan penggunaan server GPU khusus yang mereka kendalikan. Mereka tidak menarik, tetapi mereka mengurangi pengeluaran bulanan sebesar 60-80 %,” tambah Khoury. “Hibrida tidak hanya lebih murah – itu lebih cerdas.”
Dia mengatakan bahwa dalam satu kasus, SaaS telah mengurangi tagihan infrastruktur bulanan dari kecerdasan buatan dari sekitar 42.000 dolar menjadi hanya 9.000 dolar dengan mentransfer beban pekerjaan inferensi dari cloud. Transformator berbayar untuk dirinya sendiri dalam waktu kurang dari dua minggu.
Tim lain yang membutuhkan respons tetap terhadap sub-50ms yang ditemukan untuk alat kecerdasan buatan dukungan pelanggan bahwa waktu inferensi berdasarkan kelompok rekan tidak cukup. Konversi inferensi lebih dekat dengan pengguna melalui colocation tidak hanya hambatan kinerja – tetapi juga setengah dari biaya.
Persiapan biasanya berfungsi dengan cara ini: inferensi, yang selalu sensitif dan sensitif terhadap spesifikasi, bekerja pada unit pemrosesan grafis khusus baik di pusat data terdekat (pengumpulan). Sementara itu, pelatihan, yang ditandai dengan akunnya tetapi terputus -putus, tetap di cloud, di mana Anda dapat memutar kelompok yang kuat atas permintaan, berjalan selama beberapa jam atau hari, dan menutupnya.
Secara luas, perkiraan menunjukkan bahwa sewa penyedia layanan cloud superior dapat menelan biaya tiga hingga empat kali setiap GPU lebih dari bekerja dengan penyedia layanan yang lebih kecil, meskipun tim lebih penting dibandingkan dengan infrastruktur lokal.
Hadiah besar lainnya? Kemampuan untuk memprediksi.
Dengan On-Prem atau Collection, tim juga memiliki kendali penuh atas jumlah sumber daya yang ingin mereka berikan atau tambahkan ke jalur fondasi yang diharapkan untuk beban kerja inferensi. Ini membawa kemampuan untuk memprediksi biaya infrastruktur – dan menghilangkan tagihan mendadak. Ini juga menuruni upaya rekayasa agresif untuk mengendalikan penskalaan dan mempertahankan biaya infrastruktur cloud dalam batas yang wajar.
Pengaturan hibrida juga membantu mengurangi waktu akses untuk aplikasi kecerdasan buatan untuk waktu dan memungkinkan kepatuhan lebih baik, terutama untuk tim yang bekerja di industri yang sangat terorganisir seperti pembiayaan, perawatan kesehatan dan pendidikan di mana tempat tinggal data dan tata kelola tidak dapat dinegosiasikan.
Kompleksitas campuran itu nyata – tetapi jarang berurusan
Seperti yang selalu terjadi, transformasi pengaturan hibrida hadir dengan pajak OPS -nya. Mempersiapkan perangkat Anda sendiri atau menyewa fasilitas Kings membutuhkan waktu, dan mengelola unit pemrosesan grafis membutuhkan berbagai jenis otot rekayasa.
Namun, para pemimpin berpendapat bahwa kompleksitas sering dibesar -besarkan dan biasanya dikelola di rumah atau melalui dukungan eksternal, kecuali orang tersebut bekerja dalam skala besar.
“Akun kami menunjukkan bahwa server GPU di kepalanya harganya sekitar enam hingga sembilan bulan sewa yang sama -sama dari AWS, Azure atau Google Cloud, bahkan dengan tingkat satu tahun yang dicadangkan. Karena perangkat alat biasanya bertahan di ibukota yang menghindari formulir selama lebih dari lima tahun. Sarin menjelaskan bahwa sumber kekhawatiran.
Berikan prioritas sesuai kebutuhan
Untuk perusahaan mana pun, apakah itu perusahaan yang muncul atau lembaga, kunci keberhasilan saat mengajar itu-atau pemulihan pekerjaan arsitektur-dapat bekerja sesuai dengan beban pekerjaan tertentu.
Jika Anda tidak yakin dengan beban beban berbagai kecerdasan buatan, mulailah dengan cloud dan memantau dengan cermat biaya yang terkait dengan tanda pada setiap sumber daya dengan tim yang bertanggung jawab. Anda dapat berbagi laporan biaya ini dengan semua manajer dan melakukan penyelaman mendalam dalam apa yang mereka gunakan dan pengaruhnya terhadap sumber daya. Data ini kemudian akan memberikan kejelasan dan membantu membuka jalan bagi efisiensi.
Namun, ingatlah bahwa itu bukan masalah meninggalkan awan sepenuhnya; Muncul untuk meningkatkan penggunaannya untuk meningkatkan efisiensi secara maksimal.
Khoury menambahkan: “Cloud masih bagus untuk uji coba dan Busher.” Perlakukan awan seperti model awal, bukan rumah permanen. Jalankan matematika. Bicaralah dengan insinyur Anda. Cloud tidak akan pernah memberi tahu Anda kapan alat yang salah. Tapi tagihan AWS Anda. “