Berita
Anda sekarang dapat menyesuaikan versi organisasi Anda sendiri dari pemikiran O4-mini Openai dengan pembelajaran penguatan
Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Openai Hari ini saya mengumumkan Akun yang berfokus pada pengembang di jejaring sosial x Pengembang pihak ketiga di luar perusahaan sekarang dapat mengakses penguatan (RFT) dari model pemikiran linguistik O4-Mini yang baru. Ini memungkinkan mereka untuk mengalokasikan versi khusus baru berdasarkan pada produk -produk dari lembaga unik mereka, istilah internal, tujuan, karyawan, operasi, dan banyak lagi.
Pada dasarnya, kemampuan ini memungkinkan pengembang untuk mengambil model yang tersedia untuk publik dan memodifikasinya agar lebih sesuai dengan kebutuhan mereka Panel Informasi Platform Openai.
Selanjutnya, mereka dapat mempostingnya melalui antarmuka aplikasi OpenAI (API), bagian lain dari platform pengembangnya, dan menghubungkannya ke komputer internal, basis data, dan aplikasi.
Setelah diterbitkan, jika seorang karyawan atau pemimpin perusahaan ingin menggunakannya melalui ruang khusus yang didedikasikan atau Openai GPT Didedikasikan Untuk memulihkan pengetahuan perusahaan khusus, menjawab pertanyaan spesifik tentang produk dan kebijakan perusahaan, atau membuat kontak dan asosiasi baru dalam suara perusahaan, mereka dapat melakukan ini dengan lebih mudah dengan versi RFT dari formulir.
Namun, satu catatan peringatan: Penelitian telah menunjukkan bahwa model yang disita mungkin lebih cenderung pecah dan halusinasi, jadi lanjutkan dengan hati -hati!
Peluncuran ini memperluas alat peningkatan model perusahaan bersama dengan kontrol SFT dan kontrol yang lebih fleksibel dari tugas -tugas kompleks lapangan.
Selain itu, Openai mengumumkan bahwa kontrol pengawasan sekarang didukung oleh model Nano GPT-4.1, yang merupakan harga perusahaan yang paling terjangkau dan lebih cepat.
Bagaimana cara membantu organisasi dan institusi instalasi augmented (RFT)?
RFT membuat versi baru dari model Thinking Openai OniI, yang secara otomatis disesuaikan dengan tujuan atau institusi/institusi pengguna.
Ini melakukan ini dengan menerapkan cincin umpan balik selama pelatihan, pengembang di perusahaan besar (atau bahkan pengembang independen yang bekerja secara mandiri) dapat dimulai dengan sederhana, mudah dan terjangkau melalui Platform Pengembang Openai melalui Internet.
Alih -alih melatih serangkaian pertanyaan dengan jawaban tetap yang benar – yang merupakan apa yang dilakukan oleh pembelajaran untuk pengawasan tradisional – RFT menggunakan model untuk merekam beberapa tanggapan untuk setiap mentor.
Algoritma pelatihan kemudian menyesuaikan bobot bobot untuk membuat output -grade tinggi lebih mungkin.
Struktur ini memungkinkan pelanggan untuk menyelaraskan model dengan target yang akurat seperti “gaya rumah” dari lembaga untuk komunikasi dan ketentuan, aturan keselamatan, akurasi realistis, atau kepatuhan dengan kebijakan internal.
Untuk melakukan RFT, pengguna perlu:
- Tentukan fungsi nilai atau penggunaan siswa kelas berbasis openai.
- Unduh satu set data dengan klaim verifikasi kesehatan.
- Buat pelatihan API atau micro -dashboard.
- Pantau kemajuan, tinjau pos pemeriksaan dan pengulangan data atau logika.
RFT saat ini mendukung model berpikir hanya dalam seri O dan tersedia untuk model O4-Mini.
Lembaga awal menggunakan kasus
Di platformnya, Openai yang paling menonjol banyak pelanggan pertama Mereka yang mengadopsi RFT melalui berbagai industri:
- Perjanjian Kecerdasan Buatan Gunakan RFT untuk menyesuaikan bentuk tugas analisis pajak yang kompleks, tingkatkan akurasi 39 % dan melebihi semua model terkemuka pada standar pemikiran pajak.
- Suasana Perawatan Kesehatan RFT diterapkan pada kode kode ICD-10, meningkatkan kinerja model sebesar 12 poin pada jalur dokter di set data panel.
- Harvey RFT digunakan untuk menganalisis dokumen hukum, meningkatkan nilai F1 untuk mengekstraksi kutipan sebesar 20 % dan mencocokkan akurasi GPT-4O sambil mencapai inferensi lebih cepat.
- Runloop Model yang diatur untuk membuat memo ikon strip API, menggunakan siswa kelas penting dalam kalimat dan logika validasi AST, yang mencapai peningkatan 12 %.
- Milo RFT telah diterapkan pada tugas penjadwalan, yang meningkatkan hak dalam situasi yang sangat kompleks sebesar 25 poin.
- Safykit RFT digunakan untuk memaksakan kebijakan moderat konten mikro dan meningkatkan model F1 dari 86 % menjadi 90 % dalam produksi.
- ChipstackDan Reuters ThompsonMitra lain juga menunjukkan keuntungan dalam kinerja dalam menghasilkan data, tugas perbandingan hukum dan fungsi verifikasi.
Kasus-kasus ini seringkali merupakan karakteristik umum: definisi tugas yang jelas, format output terorganisir dan kriteria evaluasi yang andal-yang semuanya diperlukan untuk meningkatkan pemberantasan yang efektif.
RFT sekarang tersedia untuk organisasi terverifikasi. Untuk membantu meningkatkan model masa depan, OpenAI menawarkan tim yang berbagi grup data pelatihan mereka dengan diskon 50 %. Pengembang yang tertarik dapat mulai menggunakan Dokumen RFT dari Openai Dan Dasbor.
Struktur dan pengisian harga
Tidak seperti kontrol atau kontrol yang disukai, yang merupakan tagihan untuk setiap simbol, RFT dijelaskan berdasarkan waktu pelatihan dihabiskan secara aktif. khususnya:
- $ 100 per jam waktu pelatihan dasar (waktu dinding selama model, gelar, pembaruan dan verifikasi kesehatan).
- Waktu dikencangkan oleh yang kedua, hampir menjadi dua puluh tempat (jadi 1,8 jam pelatihan akan menelan biaya $ 180).
- Biaya hanya berlaku untuk pekerjaan yang memodifikasi formulir. Daftar tunggu, pemeriksaan keselamatan, dan tahap tidak aktif tidak dilakukan.
- Jika pengguna menggunakan model OpenAI sebagai pilot (misalnya, GPT-4.1), tagihan yang dikonsumsi selama nilai dilepaskan secara terpisah pada tingkat API standar di OpenAI. Jika tidak, perusahaan dapat menggunakan model eksternal, termasuk model open source, sebagai siswa di kelas.
Di bawah ini adalah contoh keruntuhan biaya:
skenario | Waktu pahit | Menetapkan |
---|---|---|
4 jam pelatihan | 4 jam | 400 dolar |
1,75 jam (konsistensi) | 1,75 jam | 175 dolar |
Pelatihan selama dua jam + satu jam (karena kegagalan) | Dua jam | $ 200 |
Model penetapan harga memberikan transparansi ini dan hadiah desain fungsional yang efektif. Untuk mengontrol biaya, Openai mendorong perbedaan pada:
- Gunakan siswa kelas ringan atau efektif jika memungkinkan.
- Hindari validasi yang berlebihan kecuali itu perlu.
- Mulailah dengan koleksi data yang lebih kecil atau jalankan ekspektasi singkat untuk mengkalibrasi.
- Pantau pelatihan menggunakan API atau dasbor sementara dan berhenti sementara sesuai kebutuhan.
Openai menggunakan metode persiapan tagihan yang disebut “kemajuan progresif”, yang berarti bahwa pengguna hanya tagihan untuk langkah -langkah pelatihan model yang telah diselesaikan dan berhasil disimpan.
Haruskah Anda menginvestasikan organisasi Anda dalam menerbitkan versi khusus O4-Mini Openai atau tidak?
Peningkatan kontrol memberikan cara yang lebih ekspresif dan terkontrol untuk mengadaptasi model bahasa untuk kasus penggunaan di dunia nyata.
Dengan dukungan output terorganisir, siswa kelas berbasis kode, dan kontrol penuh API, RFT menawarkan tingkat kustomisasi baru dalam menerbitkan formulir. Startup Openai menekankan desain tugas yang dipelajari dan evaluasi yang kuat sebagai kunci untuk sukses.
Pengembang yang tertarik untuk mengeksplorasi metode ini dapat mengakses dokumen dan contoh melalui dasbor OpenAI.
Untuk lembaga yang memiliki masalah yang jelas spesifik dan jawaban yang diverifikasi, RFT menyediakan metode yang meyakinkan untuk menyelaraskan model dengan tujuan operasi atau kepatuhan – tanpa membangun infrastruktur RL dari awal.
Tautan sumber