StudioKctus

Model Apple baru gabungkan pemahaman visual dan pembuatan gambar, hasilnya menawan.

Peneliti Apple merilis studi tentang Manzano, model multimodal yang menyatukan pemahaman visual dan pembuatan gambar dari teks, sambil menekan kompromi performa dan kualitas yang selama ini dialami. Berikut ringkasannya.

Dalam makalah berjudul MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer, tim hampir 30 peneliti Apple memaparkan pendekatan terpadu anyar yang mengizinkan satu model sekaligus memahami gambar dan membuat gambar dari teks.

Hal ini penting karena model multimodal terpadu yang ada kerap menanggung trade-off: mereka mengorbankan pemahaman visual demi kemampuan menghasilkan gambar, atau sebaliknya—jarang mahir di kedua bidang.

Penyebab utamanya, menurut peneliti:

Tokenisasi visual yang saling bertentingan. Pembuatan gambar oto-regresif umumnya butuh token diskrit, sedangkan pemahaman lebih optimal dengan embedding kontinu. Banyak model menempuh strategi “dua tokenizer”: encoder semantik untuk fitur kontinu kaya makna, plus tokenizer terkuantisasi (mis. VQ-VAE) untuk generasi. Akibatnya, bahasa model harus menangani dua jenis token sekaligus—dari ruang semantik tingkat tinggi versus ruang spasial rendah—menimbulkan konflik tugas. Solusi seperti Mixture-of-Transformers (MoT) memang bisa memisahkan jalur, tapi boros parameter dan sering tak cocok dengan arsitektur Mixture-of-Experts (MoE). Cara lain membekukan multimodal LLM lalu menambahkan dekoder difusi memang mempertahankan pemahaman, tapi memisahkan generasi sehingga keuntungan timbal balik hilang.

Sederhananya, arsitektur saat ini sulai memadukan kedua tugas karena representasi visualnya saling tarik-menarik.

Manzano mengatasinya: LLM oto-regresif memprediksi isi semantik gambar; prediksi ini lalu diserahkan ke diffusion decoder yang merender piksel sebenarnya.

Tiga komponen utama Manzano:

  • Tokenizer visual hibrida—menghasilkan token kontinu untuk pemahaman sekaligus token terkuantisasi untuk generasi.
  • LLM multimodal terpadu—memproses teks dan token visual secara bersamaan.
  • Diffusion decoder—menerima representasi semantik dari LLM lalu menghasilkan gambar.

Hasilnya, “Manzano mampu menangani perintah yang tak intuitif atau melanggar fisika (contoh: ‘burung terbang di bawah gajah’) selevel GPT-4o dan Nano Banana,” kata tim peneliti.

Di beragam benchmark, Manzano 3B dan 30B menunjukkan performa unggul atau kompetitif dibanding model multimodal terpadu mutakhir lain.

Apple menguji Manzano dalam berbagai ukuran: 300 juta hingga 30 miliar parameter. Skala ini dipakai meneliti peningkatan kemampuan saat model membesar.

Perbandingan singkat dengan model unggulan seperti Nano Banana (Google) dan GPT-4o (OpenAI) turut disertakan di makalah.

Selain membuat gambar baru, Manzano cukup andal untuk penyuntingan gambar: suntingan berbasis instruksi, style transfer, inpainting/outpainting, hingga estimasi kedalaman.

Untuk seluruh rincian teknis—latihan tokenizer hibrida, desain diffusion decoder, percobaan penskalaan, dan evaluasi manusia—baca makalah lengkap di sini.

Tertarik eksplorasi lebih jauh? Simak pula penjelasan kami tentang UniGen, model gambar terbaru lainnya dari peneliti Apple. Meski belum tersedia di perangkat, keduanya mengisyaratkan upaya Apple memperkuat kemampuan generasi gambar pada fitur seperti Image Playground.

FTC: Kami menggunakan tautan afiliasi otomatis yang berpotensi menghasilkan pendapatan. Selengkapnya.

Tautan Sumber Artikel

https://9to5mac.com/2026/01/14/apple-model-manzano-combines-vision-understanding-and-image-generation/

Leave a Reply

Your email address will not be published. Required fields are marked *

Di antara banyaknya opsi, situs slot gacor hari ini yang satu ini menawarkan bonus selamat datang yang menguntungkan.

Informasi lengkap mengenai aplikasi dapat dilihat di tobrut888 bagi yang ingin berlatih atau sekadar bersenang-senang.