Berita

Qwen-Disage adalah generator gambar sumber yang baru, kuat dan terbuka

Published

on

Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang


Setelah memanfaatkan musim panas dengan sekelompok model dan simbol yang kuat yang berfokus pada model open source baru dan pengkodean yang bertepatan atau dalam beberapa kasus, saya berhasil melakukannya pada pesaing tertutup/kerajaan Amerika, “Tim Qwen” dari AI Crack kembali dari Alibaba lagi hari ini dengan merilis generator gambar AI baru. – Sumbernya juga terbuka.

Qwen-taiage menonjol di bidang gambar kebidanan yang ramai karena Fokus pada penyajian teks secara akurat di dalam foto video – Area masih banyak pesaing yang berjuang.

Dengan dukungan dari kedua program alfabet dan pemukiman, model ini sangat disiapkan dalam manajemen pencetakan yang kompleks, multi -garis, semantik pada tingkat paragraf, dan Dial konten bahasa (misalnya, bahasa Inggris-Cina).

Dalam praktiknya, ini memungkinkan pengguna Buat konten seperti stiker film, irisan presentasi, adegan toko, rambut tulisan tangan, dan grafik bunga – dengan teks yang rapuh sesuai dengan klaim mereka.


AI Impact Series kembali ke San Francisco – 5 Agustus

Tahap selanjutnya dari kecerdasan buatan di sini – apakah Anda siap? Bergabunglah dengan para pemimpin dari Block, GSK dan SAP untuk mengambil tampilan eksklusif tentang cara memulai kembali agen independen dari tugas alur kerja yayasan-dari keputusan dalam waktu yang sebenarnya untuk otomatisasi komprehensif.

Mengamankan tempat Anda sekarang – ruang terbatas: https://bit.ly/3guPlf


Contoh output qwen-image mencakup berbagai kasus penggunaan di dunia nyata:

  • Pemasaran dan Merek: Orang -orang yang meledakkan bahasa dengan slogan merek, garis elegan, dan bentuk desain yang konsisten
  • Desain tampilanLantai, irisan yang akrab dengan perencanaan dengan serial hierarkis untuk judul dan pandangan topik yang sesuai
  • pendidikanMendapatkan subjek ruang kelas yang ditandai dengan biaya grafis dan teks pendidikan yang disajikan secara akurat
  • Ritel dan E -CommerceAdegan antarmuka toko tempat Anda harus membaca produk, spanduk, dan konteks lingkungan
  • Konten kreatifPuisi tulisan tangan, novel adegan, klarifikasi mirip dengan animasi dengan teks dari cerita ringkas

Pengguna dapat berinteraksi dengan formulir di Obrolan qwen Situs Web dengan menentukan mode “pembuatan gambar” dari tombol di bawah bidang penerimaan.

Namun, tes awal saya yang singkat mengungkapkan bahwa teks dan komitmen langsung tidak secara signifikan lebih baik daripada Midjourney, generator intelijen buatan terkenal dari perusahaan Amerika dengan nama yang sama. Sesi saya melalui obrolan Qwen telah menghasilkan banyak kesalahan dalam pemahaman yang cepat dan ketulusan teks, yang menimbulkan kekecewaan harapan saya, bahkan setelah upaya berulang dan reformulasi langsung:

Namun, Midjourney hanya menyediakan sejumlah generasi gratis dan membutuhkan kontribusi untuk informasi lebih lanjut, dibandingkan dengan Qwen, yang, berkat lisensi open source dan postulatnya yang diterbitkan di atasnya SulamanDapat diadopsi oleh lembaga atau penyedia mana pun yang berafiliasi dengan otoritas eksternal.

Lisensi dan Ketersediaan

Gambar Qwen didistribusikan di bawah Apache 2.0 lisensiIzinkan penggunaan komersial dan non-komersial, redistribusi, dan modifikasi-meskipun dukungan dan dimasukkannya teks lisensi diperlukan untuk pekerjaan yang diturunkan.

Ini mungkin membuatnya menarik bagi institusi yang mencari alat pembuatan gambar open source untuk digunakan dalam membuat jaminan internal atau eksternal seperti buletin, iklan, pemberitahuan, buletin dan kontak digital lainnya.

Tetapi fakta bahwa data pelatihan model masih secara diam -diam dirampas – Seperti kebanyakan generator foto terkemuka AI – Beberapa institusi mungkin merusak gagasan menggunakannya.

Qwen, tidak seperti Adobe Firefly atau Gambar asli GPT-4O dari openai, Misalnya, Itu tidak memberikan kompensasi untuk penggunaan komersial produknya (Yaitu, jika suatu gugatan diajukan terhadap pengguna karena pelanggaran hak cipta, Adobe dan Openai akan membantu mendukung mereka di pengadilan).

Bentuk dan aset terkait-termasuk laptop eksperimental, alat evaluasi dan program tekstual untuk kontrol-tersedia melalui beberapa gudang:

Selain itu, portal evaluasi langsung yang disebut AI Arena menyediakan pengguna untuk membandingkan generasi gambar dalam tur perkawinan, yang berkontribusi pada para pemimpin ELO.

Pelatihan dan pengembangan

Di balik kinerja qwen-dimage Proses pelatihan yang sangat luas didasarkan pada pembelajaran bertahap, menyelaraskan tugas multimedia, dan mengatur data agresifMenurut Makalah artistik yang dikeluarkan oleh tim peneliti hari ini.

Kelompok pelatihan mencakup miliaran pasangan gambar yang diperoleh dari empat area: gambar alami, gambar manusia, konten artistik dan desain (seperti stiker dan tata letak antarmuka pengguna), dan data yang berfokus pada teks buatan. Tim Qwen tidak menentukan ukuran kumpulan data pelatihanTerlepas dari “miliaran pasangan teks”. Mereka membuat runtuhnya persentase kasar dari masing -masing kategori konten yang termasuk:

  • alam: ~ 55 %
  • Desain (antarmuka pengguna, stiker, seni): ~ 27 %
  • Orang (gambar, aktivitas manusia): ~ 13 %
  • Data penyediaan teks buatan: ~ 5 %

Perlu dicatat bahwa Qwen mengkonfirmasi bahwa semua data buatan telah dibuat di rumah, dan tidak ada gambar yang dibuat oleh model kecerdasan buatan lainnya. Meskipun tahap terperinci dan likuidasi dijelaskan, Dokumen tidak mengklarifikasi apakah ada data yang dilisensikan atau diturunkan dari grup data publik atau properti.

Tidak seperti banyak model kebidanan yang mengecualikan teks buatan karena risiko kebisingan, Qwen-tagage menggunakan pipa tampilan buatan yang dikontrol dengan ketat untuk meningkatkan cakupan karakter-terutama untuk huruf frekuensi rendah di baki.

Strategi yang mirip dengan kurikulum digunakan: Model dimulai dengan gambar suspensi sederhana dan konten non -itasKemudian datang ke skenario teks yang sensitif, mencampur bahasa campuran, dan vertebra padat. ini Paparan bertahap untuk membantu model tampaknya beredar melalui program teks dan jenis pemformatan.

Qwen-disage menggabungkan tiga unit dasar:

  • Qwen2.5-vlModel bahasa multimedia, mengekstraksi makna kontekstual dan memandu generasi melalui klaim sistem.
  • Enkripsi/Decoder VAEPelatih dokumen resolusi tinggi dan perencanaan realistis di dunia nyata, menangani representasi visual yang terperinci, terutama teks kecil atau tebal.
  • MmditTulang punggung model proliferasi, mengoordinasikan pembelajaran bersama melalui metode gambar dan teks. Sistem MSROPE baru (pengkodean topikal yang dikembangkan) meningkatkan kompatibilitas spasial antara simbol.

Bersama-sama, bahan-bahan ini memungkinkan Amage Qwen bekerja secara efektif dalam tugas-tugas yang melibatkan pemahaman dan menghasilkan gambar dan pengeditan yang tepat.

Standar Kinerja

Gambar Qwen dievaluasi terhadap banyak standar umum:

  • Jenewa Dan Dpg Untuk menyetujui
  • Satu kursi bangku Dan ke Untuk pemikiran formatif dan pengabdian untuk desain
  • CVTG-2KDan ChinesewordDan Kursi teks panjang Untuk menyajikan teks, terutama dalam konteks multi -bahasa

Di hampir setiap kasus, gambar qwen-gambar atau melampaui model sumber tertutup seperti gambar GPT 1 (tinggi), seedream 3.0 dan fluks.1 kontext (Pro). Perlu dicatat bahwa kinerja teks Cina jauh lebih baik daripada semua sistem komparatif.

Pada AI Arena General Tersors berdasarkan lebih dari 10.000 perbandingan dari suami manusia-Qwen-tagage secara umum secara umum dan merupakan model open source.

Efek dari pembuat keputusan teknis dari lembaga

Untuk tim AI untuk lembaga yang mengelola alur kerja media yang kompleks, Qwen-Image menawarkan banyak keunggulan fungsional yang sejalan dengan kebutuhan operasional dari berbagai peran.

Mereka yang menjalankan siklus hidup model bahasa visi-dari pelatihan untuk diterbitkanCari nilai dalam kualitas output yang dibuat dari Qwen-AMGE dan bahannya siap untuk diintegrasikan. Sifat open source mengurangi biaya lisensi, sedangkan struktur standar (QWEN2.5-VL + VAE + MMDIT) memfasilitasi adaptasi dengan set data yang ditentukan atau memperbaiki mereka untuk output lapangan.

itu Data pelatihan, di sepanjang lini kurikulum studi dan hasil standar yang jelas, membantu perbedaan dalam mengevaluasi kebugaran untuk tujuan tersebut. Apakah penerbitan foto pemasaran, dokumen menawarkan atau grafik produk e-commerce, Qwen-Dise memungkinkan pengalaman cepat tanpa batasan kerajaan.

Insinyur Biaya membangun saluran pipa kecerdasan buatan atau model melalui sistem terdistribusi akan diperkirakan. Model ini telah dilatih untuk menggunakan struktur produk dan konsumen, dan mendukung pemrosesan multi-presis yang dikembangkan (256p hingga 1328p), dan dirancang untuk berjalan menggunakan Megatron-LM dan Tensor. ini Qwen-Amagage menjadikan kandidat untuk publikasi di lingkungan cloud campuran di mana keandalan dan produktivitas penting.

Selain itu, dukungan untuk alur kerja pengeditan foto ke gambar (TI2I) dan tuntutan tugas memungkinkan penggunaannya dalam aplikasi aktual atau interaktif.

Profesional berfokus pada menelan data, memverifikasi kesehatan dan transformasi Qwen-ismeage dapat digunakan sebagai alat untuk membuat set data buatan untuk melatih atau meningkatkan model visi komputer. Kemampuannya untuk menghasilkan gambar resolusi tinggi dengan komentar ilustratif multi -bahasa dapat meningkatkan dalam definisi, deteksi objek, atau tata letak.

Karena qwen-image adalah Latih juga untuk menghindari artefak seperti kode QRTeks dan tanda air yang dibedakan, dan memberikan input buatan berkualitas tinggi dari banyak tim lembaga yang membantu model umum untuk mempertahankan integritas kelompok pelatihan.

Mencari reaksi dan peluang untuk kerja sama

Tim Qwen menekankan keterbukaan dan kerja sama masyarakat dalam menerbitkan formulir.

Para pengembang didorong untuk menguji dan menetapkan gambar QWEN, mengirimkan permintaan penarikan, dan berbagi Dewan Evaluasi. Reaksi akan ada pada presentasi teks, kesetiaan pengeditan, dan kasus berjangka multi -bahasa untuk pengulangan di masa depan.

Dengan tujuan yang dinyatakan “mengurangi hambatan teknis di depan penciptaan konten visual”, tim berharap untuk melayani qwen-gambaran sebagai model saja, tetapi sebagai dasar untuk penelitian lebih lanjut dan penerbitan praktis melalui industri.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version