Berita
Ops Fast Rise: Perawatan Biaya Kecerdasan Buatan Tersembunyi dari Input Buruk dan Konteks Puffing
Artikel ini adalah bagian dari jumlah khusus VentureBeat, “Biaya sebenarnya dari Amnesty International: Kinerja, Efisiensi dan Investasi Skala Besar.” Baca lebih lanjut dari nomor khusus ini.
Penyedia model terus meluncurkan model bahasa yang semakin canggih (LLM) dengan jendela konteks yang lebih panjang dan kemampuan berpikir yang ditingkatkan.
Ini memungkinkan pemrosesan bahan dan “berpikir” lebih banyak, tetapi juga meningkatkan akun: semakin jelas modelnya, semakin besar energi yang Anda habiskan dan biaya tinggi.
Hubungkan ini dengan semua absurditas yang terlibat dalam klaim – mungkin perlu beberapa upaya untuk mencapai hasil yang dimaksudkan, dan kadang -kadang pertanyaannya hanyalah membutuhkan model yang dapat berpikir seperti gelar doktor – dan akun pengeluaran dapat di luar kendali.
Ini mengarah ke OPS cepat, yang merupakan spesialisasi yang sama sekali baru di era fajar kecerdasan buatan.
“Rekayasa cepat mirip dengan tulisan, dan penciptaan aktual, sementara program yang cocok mirip dengan penerbitan, saat konten berkembang,” Crowford del Pretty, IDC Presiden, beri tahu VentureBeat. “Kontennya hidup, kontennya berubah, dan Anda ingin memastikan untuk memperbaiki ini dari waktu ke waktu.”
Tantangan menggunakan akun biaya dan biaya
David Emerson, Dunia Aplikasi di Vektor. Secara umum, harga pengguna membayar langkah -langkah berdasarkan jumlah kode input (apa yang diminta pengguna) dan jumlah simbol output (apa yang ditawarkan model). Namun, itu belum diubah ke prosedur di belakang panggung seperti pameran deskriptif, instruksi panduan, atau generasi pengambilan (RAG).
Dia menjelaskan bahwa konteks terpanjang memungkinkan model untuk membahas lebih banyak teks secara bersamaan, tetapi diterjemahkan langsung menjadi lebih banyak fluktuasi (menghitung pengukuran energi). Beberapa aspek model transformator sampai panjangnya berkisar dengan panjang input jika tidak dikelola dengan baik. Respons panjang yang tidak perlu juga dapat memperlambat waktu perawatan dan membutuhkan akun tambahan dan biaya untuk membangun dan memelihara algoritma untuk respons pemrosesan pasca dalam jawaban yang diharapkan pengguna.
Emerson mengatakan lingkungan konteks terpanjang memotivasi penyedia layanan untuk dengan sengaja memberikan tanggapan yang sangat baik. Misalnya, banyak model berpikir yang lebih berat (O3 atau O1 OpenAi, misalnya) memberikan respons panjang terhadap pertanyaan sederhana, menimbulkan biaya komputasi yang berat.
Ini adalah contoh:
pintu masuk: Jawab masalah matematika berikut. Jika saya memiliki apel dan membeli 4 lainnya Simpan setelah makan 1, berapa banyak apel yang saya miliki?
Keluaran: Jika Anda makan 1, saya hanya memiliki 1 yang tersisa. Saya akan memiliki 5 apel jika saya membeli 4 lainnya.
Model tidak hanya menghasilkan simbol khas dari sebelumnya, saat ia mengubur jawabannya. Insinyur kemudian dapat dipaksa untuk merancang metode perangkat lunak untuk mengekstrak jawaban akhir atau mengajukan pertanyaan -pertanyaan tindak lanjut seperti “Apa jawaban akhir Anda?” Yang memiliki lebih banyak biaya antarmuka aplikasi.
Sebaliknya, klaim untuk mengarahkan formulir dapat dirancang ulang untuk menghasilkan jawaban langsung. Misalnya:
pintu masuk: Jawab masalah matematika berikut. Jika saya memiliki apel dan membeli 4 orang lain diE Simpan setelah makan 1, berapa banyak apel yang saya miliki? Mulailah tanggapan Anda dengan “jawabannya adalah” …
atau:
pintu masuk: Jawab masalah matematika berikut. Jika saya memiliki apel dan membeli 4 orang lain di toko setelah saya makan 1, berapa banyak apel yang saya miliki? Bungkus jawaban terakhir Anda untuk tanda -tanda tebal .
“Cara pertanyaan yang diajukan dapat mengurangi upaya atau biaya dalam mencapai jawaban yang diperlukan,” kata Emerson. Dia juga menunjukkan bahwa teknologi seperti beberapa kemajuan (memberikan beberapa contoh dari apa yang dicari pengguna) dapat membantu menghasilkan output yang lebih cepat.
Satu bahaya adalah tidak mengetahui kapan harus menggunakan teknologi canggih seperti seri ide (COT) yang membayar (generasi jawaban dalam langkah -langkah) atau pengulangan diri, yang mendorong model secara langsung untuk menghasilkan banyak simbol atau melewati banyak pengulangan ketika menghasilkan respons.
Tidak setiap pertanyaan membutuhkan model untuk analisis dan analisis sebelum memberikan jawaban, seperti yang ia tekankan; Itu dapat sepenuhnya dapat menjawab dengan benar ketika langsung untuk merespons. Selain itu, komposisi API yang salah (seperti OpenAI O3, yang membutuhkan tegangan tinggi dalam pemikiran), akan menanggung biaya lebih tinggi ketika meminta lebih sedikit upaya dan lebih murah.
“Dengan konteks yang lebih lama, pengguna juga dapat dirayu menggunakan” semuanya kecuali wastafel dapur “, saat Anda melemparkan jumlah teks terbesar yang mungkin dalam konteks model dengan harapan bahwa ini akan membantu melakukan ini dalam melakukan tugas lebih akurat.” “Meskipun lebih banyak konteks dapat membantu model dalam tugas, mereka tidak selalu lebih baik atau lebih efisien.”
Pengembangan untuk menuntut judul operasi
Tidak sulit untuk menjadi sulit untuk mendapatkan infrastruktur yang lebih baik dari AI hari ini; IDC del Prete menunjukkan bahwa lembaga harus dapat mengurangi jumlah kelesuan dalam GPU dan mengisi lebih banyak kueri dalam siklus tidak aktif antara permintaan GPU.
“Bagaimana cara mengklik lebih banyak barang yang sangat berharga ini?” “Karena saya harus meningkatkan penggunaan sistem saya, karena saya tidak mendapat manfaat dari hanya melemparkan lebih banyak kapasitas dalam masalah ini.”
Ops pesanan dapat memiliki jalan panjang untuk menghadapi tantangan ini, pada akhirnya siklus klaim. Del Bretti menjelaskan bahwa rekayasa permintaan berkisar pada kualitas klaim, klaim tersebut adalah tempat yang diulangnya.
Dia berkata, “Ini lebih otomatis.” “Saya memikirkannya sebagai pengaturan pertanyaan dan pengaturan bagaimana Anda berinteraksi dengan kecerdasan buatan untuk memastikan bahwa Anda mendapatkan sebaik -baiknya.”
Dia mengatakan bahwa model -model itu cenderung mendapatkan “kelelahan”, bersepeda dalam cincin di mana kualitas output terurai. OPS membantu mengelola, mengukur, memantau, dan mengendalikan klaim. “Saya pikir ketika kita melihat ke belakang tiga atau empat tahun dari sekarang, ini akan menjadi spesialisasi penuh. Itu akan menjadi keterampilan.”
Meskipun masih merupakan bidang yang sebagian besar muncul, penyedia layanan pertama termasuk QueryPal, Diseberangi, Resfuff dan Trueles. Dengan pengembangan formulir OPS, platform ini akan terus mengulang, meningkatkan dan memberikan catatan dalam waktu yang sebenarnya untuk memberi pengguna lebih banyak kapasitas untuk menetapkan klaim dari waktu ke waktu, ditunjukkan oleh DEP Prete.
Pada akhirnya, ia berharap bahwa agen akan dapat mengendalikan, menulis, dan menyusun klaim saja. “Tingkat otomatisasi akan meningkat, tingkat reaksi manusia menurun, dan itu akan dapat membuat faktor yang bekerja lebih mandiri dalam klaim yang mereka buat.”
Kesalahan Bersama
Sampai OPS benar -benar terpenuhi, tidak ada router yang sempurna pada akhirnya. Beberapa kesalahan terbesar yang dilakukan oleh orang -orang, menurut Emerson:
- Jangan cukup spesifik tentang masalah yang harus diselesaikan. Ini termasuk bagaimana pengguna menginginkan model untuk memberikan jawabannya, apa yang harus diamati ketika merespons, pembatasan yang harus Anda pertimbangkan dan faktor -faktor lainnya. “Dalam banyak pengaturan, model membutuhkan banyak konteks untuk memberikan respons yang memenuhi harapan pengguna,” kata Emerson.
- Kegagalan untuk memperhitungkan metode yang melaluinya masalah dapat disederhanakan untuk mempersempit ruang lingkup respons. Haruskah jawabannya berada dalam kisaran tertentu (dari 0 hingga 100)? Haruskah jawaban sebagai masalah pilihan ganda alih -alih sesuatu yang terbuka? Bisakah pengguna memberikan contoh yang baik untuk memberikan konteks pada penyelidikan? Bisakah masalah dibagi menjadi beberapa langkah untuk informasi yang terpisah dan lebih sederhana?
- Tidak mendapat manfaat dari struktur. LLMS sangat baik dalam mengidentifikasi pola, dan banyak yang dapat memahami kodenya. Selama penggunaan poin timbal, mungkin tampak bahwa menu terperinci atau indikator tebal (****) dapat “sedikit mengganggu” mata manusia, seperti yang ditunjukkan Emerson bahwa penjelasan ini mungkin berguna untuk LLM. Output yang terorganisir (seperti JSON atau Markdown) juga dapat membantu pengguna untuk secara otomatis mengatasi respons.
Emerson mencatat bahwa ada banyak faktor lain yang harus diperhitungkan dalam mempertahankan pipa produksi, berdasarkan praktik rekayasa terbaik. Ini termasuk:
- Pastikan bahwa produktivitas pipa tetap konsisten;
- Pantau kinerja klaim dari waktu ke waktu (dimungkinkan terhadap kelompok verifikasi kesehatan);
- Siapkan tes dan temukan peringatan dini untuk menentukan masalah pipa.
Pengguna juga dapat memanfaatkan alat yang dirancang untuk mendukung proses siswa. Misalnya, open source Dspy Ini dapat secara otomatis disusun dan ditingkatkan tuntutan untuk tugas muara berdasarkan beberapa contoh yang disebut. Meskipun ini mungkin merupakan contoh yang agak canggih, ada banyak penawaran lain (termasuk beberapa alat dalam alat seperti chatgpt, google, dll.) Yang dapat membantu dalam desain cepat.
Pada akhirnya, Emerson berkata: “Saya pikir salah satu hal paling sederhana yang dapat dilakukan pengguna adalah mencoba untuk tetap sadar akan metode yang efektif, perkembangan khas dan cara -cara baru untuk membuat dan berinteraksi dengan mereka.”