Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut
Proyek visi komputer jarang berjalan sesuai rencana, dan pengecualian ini tidak. Idenya sederhana: Buat model yang dapat melihat gambar laptop dan menentukan kerusakan fisik – hal -hal seperti layar retak, kunci yang hilang atau engsel yang rusak. Itu tampak seperti keadaan penggunaan langsung untuk model foto dan model bahasa besar (LLM), tetapi dengan cepat berubah menjadi sesuatu yang lebih rumit.
Sepanjang jalan, kami menghadapi masalah dengan halusinasi, output, dan gambar yang tidak dapat diandalkan yang bahkan bukan laptop. Untuk menyelesaikannya, kami akhirnya menerapkan kerangka kerja pada agen -agen di Athuma – bukan untuk mengotomatiskan tugas, tetapi untuk meningkatkan kinerja model.
Dalam posting ini, kami akan melalui apa yang kami coba, kecuali berhasil dan bagaimana kami membantu kami serangkaian metode di akhir membangun sesuatu yang dapat diandalkan.
Di mana kami mulai: klaim yang homogen
Pendekatan awal kami agak standar untuk model multimedia. Kami menggunakan satu router besar untuk meneruskan gambar ke LLM yang mampu dari gambar dan memintanya untuk menentukan kerusakan yang terlihat. Strategi homogen ini mudah diimplementasikan dan berfungsi dengan baik untuk tugas yang bersih dan ditentukan dengan baik. Tetapi data di dunia nyata jarang dimainkan.
Kami menghadapi tiga masalah utama lebih awal:
- HalusinogenikModel tersebut kadang -kadang dapat menemukan kerusakan yang tidak ada atau mencalonkan apa yang dilihatnya.
- Deteksi gambar yang tidak diinginkanItu tidak memiliki cara yang dapat diandalkan untuk merek foto yang bahkan bukan laptop, seperti kantor, dinding, atau orang -orang terkadang menerima laporan kerusakan irasional.
- Tidak konsisten: Campuran masalah ini membuat model tidak dapat diandalkan untuk penggunaan operasional.
Inilah poin yang menjadi jelas bahwa kita akan membutuhkan pengulangan.
Perbaikan Pertama: Mencampur Keputusan Foto
Satu hal yang kami perhatikan adalah jumlah kualitas gambar yang mempengaruhi hasil model. Pengguna telah mengunduh semua jenis gambar mulai dari akurasi tajam dan tinggi hingga kabut. Ini mendorong kami untuk merujuk riset Menyoroti bagaimana akurasi gambar mempengaruhi model pembelajaran yang mendalam.
Kami melatih dan menguji model menggunakan campuran gambar resolusi tinggi. Idenya adalah untuk membuat model lebih fleksibel dalam berbagai karakteristik gambar yang akan dihadapi dalam praktiknya. Ini membantu meningkatkan konsistensi, tetapi masalah dasar halusinasi dan berurusan dengan gambar yang tidak diinginkan berlanjut.
The Multimodal Detour: Text-only LLM Goes Multimedia
Mendorong pengalaman modern dalam bentuk jamak KelompokDi mana ilustrasi dibuat dari gambar dan kemudian ditafsirkan melalui model bahasa, kami memutuskan untuk mencobanya.
Inilah cara bekerja:
- LLM dimulai dengan menghasilkan beberapa komentar yang mungkin untuk gambar.
- Model lain, yang disebut model inklusi multimedia, memeriksa kesesuaian setiap komentar pada gambar. Dalam hal ini, kami menggunakan Siglip untuk merekam kesamaan antara gambar dan teks.
- Sistem ini mempertahankan jumlah ilustrasi tertinggi berdasarkan gelar ini.
- LLM menggunakan ilustrasi atas ini untuk menulis yang baru, mencoba mendekati apa yang sudah ditunjukkan oleh gambar.
- Proses ini diulangi sampai penunjukan penjelasan menghentikan peningkatan, atau mencapai batas tertentu.
Saat teori pintar, pendekatan ini menyajikan masalah baru dengan keadaan penggunaan kami:
- Halusinasi terus menerus: Terkadang ilustrasi termasuk kerusakan palsu, yang telah diberitahu dengan percaya diri tentang LLM.
- Cakupan yang tidak lengkap: Bahkan dengan beberapa komentar, beberapa masalah sepenuhnya terlewatkan.
- Peningkatan kompleksitas, manfaat minimalLangkah -langkah tambahan membuat sistem lebih rumit tanpa andal unggul atas persiapan sebelumnya.
Itu adalah pengalaman yang menarik, tetapi pada akhirnya itu bukan solusi.
Penggunaan kerangka kerja yang kreatif
Ini adalah titik balik. Sementara kerangka kerja biasanya digunakan untuk mengoordinasikan aliran tugas (diyakini bahwa agen undangan kalender atau prosedur layanan pelanggan), kami telah bertanya apakah akan melanggar tugas menafsirkan gambar menjadi agen yang lebih kecil dan khusus yang dapat membantu.
Kami telah membangun kerangka kerja terorganisir seperti ini:
- Agen orkestrator: Periksa gambar dan identifikasi komponen laptop (layar, keyboard, struktur, port).
- Agen karcineFaktor -faktor yang ditunjuk memeriksa setiap komponen dari jenis kerusakan tertentu; Misalnya, satu untuk layar retak, dan yang lainnya untuk sakelar yang hilang.
- Penemuan yang tidak diinginkanAgen terpisah telah ditandai jika gambar adalah laptop di tempat pertama.
Pendekatan standar berbasis tugas ini telah menghasilkan hasil yang lebih akurat dan interpretatif. Halusinasi telah menurun secara signifikan, tanda gambar yang tidak diinginkan dibuat dengan andal dan tugas masing -masing agen sederhana dan cukup fokus untuk mengontrol kualitas dengan baik.
Bintik -bintik buta: Pendekatan Al -Wakeel
Buruknya efektif, itu tidak sempurna. Pembatasan utama muncul:
- Peningkatan jintan: Menjalankan beberapa faktor serial yang telah ditambahkan ke total waktu inferensi.
- Menutupi celahAgen hanya dapat menemukan masalah yang telah diprogram secara eksplisit untuk dicari. Jika sebuah gambar menunjukkan sesuatu yang tidak terduga bahwa tidak ada pekerja yang ditugaskan untuk definisi, itu akan tanpa ada yang menyadarinya.
Kami membutuhkan cara untuk menyeimbangkan akurasi dengan cakupan.
Solusi Campuran: Menggabungkan Agen dan Agen Terjemahan
Untuk kesenjangan, kami membuat sistem hybrid:
- itu Kerangka kerja Pertama, ia berlari, berhadapan dengan deteksi dengan cermat jenis kerusakan yang diketahui dan gambar yang tidak diinginkan. Kami telah membatasi jumlah agen pada faktor terpenting untuk meningkatkan jintan.
- Lalu, a Homoing photo router llm Bersihkan gambar hal lain yang dilewatkan oleh agen.
- Akhirnya, kami Atur formulir Menggunakan serangkaian foto gambar prioritas tinggi, seperti skenario kerusakan yang sering dilaporkan, untuk meningkatkan akurasi dan keandalan.
Campuran ini telah memberi kita keakuratan dan kemampuan persiapan agen, cakupan luas dari aplikasi homogen dan peningkatan kepercayaan pada instalasi yang tepat yang ditargetkan.
Apa yang kami pelajari
Beberapa hal menjadi jelas pada saat kami menyimpulkan proyek ini:
- Kerangka kerja musuh lebih beragam daripada yang Anda dikreditkan: Meskipun biasanya terkait dengan manajemen alur kerja, kami telah menemukan bahwa itu dapat meningkatkan kinerja model yang berguna saat menerapkannya dalam standar yang terorganisir.
- Campur pendekatan berbeda yang mengalahkan hanya satu: Campuran deteksi yang cermat berdasarkan agen di samping cakupan luas LLMS, selain sedikit kontrol karena lebih penting, memberi kami hasil yang jauh lebih dapat diandalkan daripada salah satu cara sendirian.
- Model visual rentan terhadap halusinasiBahkan pengaturan yang paling canggih dapat melompat ke kesimpulan atau melihat hal -hal yang tidak ada. Penting untuk merancang sistem yang bijaksana untuk menjaga kesalahan ini di bawah diperiksa.
- Berbagai kualitas gambar membuat perbedaanPelatihan dan pengujian dengan gambar -gambar yang jelas dan tinggi dan suara harian berkualitas rendah agar tetap fleksibel ketika menghadapi gambar yang tidak terduga di dunia nyata.
- Anda membutuhkan cara untuk mengambil gambar yang tidak diinginkan: Itu adalah gambar gambar yang tidak diinginkan atau tidak diinginkan yang telah kami buat, dan memiliki dampak besar pada keandalan sistem secara umum.
Ide akhir
Apa yang dimulai sebagai ide sederhana, menggunakan klaim LLM untuk mendeteksi kerusakan fisik pada gambar laptop, dengan cepat berubah menjadi pengalaman yang jauh lebih dalam dalam menggabungkan berbagai teknik kecerdasan buatan untuk mengatasi masalah yang tidak terduga dan realistis. Sepanjang jalan, kami menyadari bahwa beberapa alat yang paling berguna pada awalnya tidak dirancang untuk jenis pekerjaan ini.
Berbagai kerangka kerja, yang sering dipandang sebagai alat alur kerja, telah terbukti sangat efektif ketika digunakan kembali untuk tugas -tugas seperti mendeteksi kerusakan terorganisir dan memfilter gambar. Dengan sedikit kreativitas, mereka membantu kami membangun sistem yang tidak hanya lebih akurat, tetapi lebih mudah untuk dipahami dan dikelola dalam praktik.
Shruti Tiwari adalah manajer produk AI di Dell Technologies.
Vadiraj Kulkarni adalah dunia data di Dell Technologies.
Visi harian tentang kasus penggunaan bisnis dengan VB setiap hari
Jika Anda ingin membujuk bos Anda di tempat kerja, Anda telah membahas VB setiap hari. Kami memberi Anda prioritas jurnalistik internal atas apa yang dilakukan perusahaan dengan kecerdasan buatan kebidanan, dari transformasi organisasi hingga operasi penerbitan praktis, sehingga Anda dapat berbagi visi pengembalian investasi maksimum.
Baca Kebijakan Privasi Kami
Terima kasih telah berlangganan. Periksa lebih banyak buletin VB di sini.
Terjadi kesalahan.