Apple araştırmacıları, basit metin istemlerini kullanarak görüntüleri düzenleyebilen, MGIE adında, yapay zeka (AI) destekli bir görüntü düzenleme aracı yayınladı. MLLM-Guided Image Editing anlamına gelen MGIE, Photoshop tarzı düzenlemeler, global optimizasyon ve yerel düzenlemeler yapma yeteneğine sahiptir. Yapay zeka aracı, Apple’ın üç aylık kazanç açıklamasında üretken yapay zekaya “muazzam miktarda zaman ve çaba” harcadığını duyurmasından yalnızca birkaç gün sonra piyasaya sürüldü. Görüntü düzenleme modeli, mevcut yapay zeka düzenleme araçlarına göre bir gelişme gösteriyor.

Apple’dan ve California Üniversitesi, Santa Barbara’dan araştırmacılar, aracın geliştirilmesi çabalarında işbirliği yaptı. VentureBeat raporlar makalenin Uluslararası Öğrenme Temsilleri Konferansı’nda (ICLR) 2024 sunulduğunu. Araştırmanın ön basım versiyonu kağıt arXiv’de de barındırılmaktadır.

AI aracı, kırpma, yeniden boyutlandırma, döndürme, filtre ekleme ve daha fazlasını içeren Photoshop tarzı düzenlemeler yapma yeteneğine sahiptir. Ayrıca parlaklığı, kontrastı, keskinliği, renk dengesini değiştirebildiği ve hatta görüntüye üretken öğeler ekleyebildiği global optimizasyonu da ekleyebilir. Ek olarak, görüntüdeki belirli bir nesneyi veya öğeyi ekleyerek, kaldırarak veya değiştirerek yerel düzenlemeler gerçekleştirebilir.

Bir düzenleme yapmak için kullanıcılar basitçe “gökyüzünü daha parlak yap” veya “evi büyüt” gibi düz metin istemleri yazabilirler; bu daha sonra bir görüntü komutu olarak yorumlanır ve parlaklığı belirli bir yüzde oranında veya daha fazla artırmak için kullanılır. evin büyüklüğü belirli bir ölçüye göre. Kullanıcılar ayrıca “yaprakların ve ağaç gövdesinin ayrıntılarını ortaya çıkarmak için karanlık ve açık alanlar arasında ayarlama yapma” gibi daha karmaşık ve ayrıntılı düzenlemeler de sağlayabilirler. Bir istem ne kadar ayrıntılı olursa, istenen sonuca o kadar yakın olur.

Photoshop’un Generative Fill’i ve test aşamasında olan FireFly, Canva’nın Magic Design ve Luminar Neo’su gibi yapay zeka tabanlı fotoğraf düzenleme araçları halihazırda mevcut olsa da bunların tümü, düzenleme konumunu haritalandırmak veya ayrıntılı değişiklikler yapmak için kullanıcının yazılımla etkileşime girmesini gerektirir. Apple’ın MGIE’si ise düzenlemeyi tamamen kendi başına yapabiliyor. Yapay zeka çerçevelerine benzersiz bir yaklaşım getirerek mümkün kılan “talimat tabanlı görüntü düzenleme” veya “metin kılavuzlu görüntü düzenleme”yi kullanır.

Yapay Zeka modeli, Üretken Çekişmeli Ağ (GAN) çerçevesine güvenmek yerine, gerçekçi fotoğraf oluşturma ve talimatlara uyma söz konusu olduğunda daha gelişmiş bir mimari olan yayılma modelini kullanıyor. Daha sonra araştırmacılar, doğal dili görüntülere çevirebildiğinden ve istenen etkiyi gösterebildiğinden emin olmak için çok modlu bir geniş dil modeli kullanmaya yöneldiler. Ayrıca, süreç boyunca düzenlemeleri sıralamak için insan değerlendiriciler de kullanıldı ve geri bildirim, modeli daha da geliştirmek için kullanıldı.

Teknoloji devi, MGIE AI görüntü düzenleme aracını kullanıma sundu indirmek GitHub aracılığıyla açık kaynaklı bir proje olarak. Şu an için Apple’ın bu teknolojiyi cihazlarında kullanmayı planlayıp planlamadığı bilinmiyor. Ancak Apple CEO’su Tim Cook, şirketin üzerinde çalıştığı üretken yapay zeka özelliklerini bu yılın sonlarında açıklayacağını söylerken, Apple’ın bu yılın sonlarında gelmesi beklenen iOS 18 güncellemesi için yeni yapay zeka destekli özellikler üzerinde çalıştığı bildiriliyor. yıl.


Bağlı kuruluş bağlantıları otomatik olarak oluşturulabilir; ayrıntılar için etik bildirimimize bakın.



genel-8