Apple araştırmacıları yeni bir model çıkardı Bu, kullanıcıların fotoğraf düzenleme yazılımına hiç dokunmadan, bir fotoğrafta neyi değiştirmek istediklerini sade bir dille açıklamalarına olanak tanır.

Apple’ın Santa Barbara’daki California Üniversitesi ile birlikte çalıştığı MGIE modeli, metin komutları aracılığıyla görselleri kırpabiliyor, yeniden boyutlandırabiliyor, çevirebiliyor ve filtreler ekleyebiliyor.

MLLM Kılavuzlu Görüntü Düzenleme anlamına gelen MGIE, bir fotoğraftaki belirli nesneleri farklı bir şekle sokmak veya daha parlak hale getirmek için değiştirmek gibi basit ve daha karmaşık görüntü düzenleme görevlerine uygulanabilir. Model, çok modlu dil modellerinin iki farklı kullanımını harmanlamaktadır. İlk olarak kullanıcı istemlerinin nasıl yorumlanacağını öğrenir. Daha sonra düzenlemenin nasıl görüneceğini “hayal eder” (örneğin, bir fotoğrafta daha mavi bir gökyüzü istemek, görüntünün gökyüzü kısmının parlaklığını artırmaya dönüşür).

MGIE ile bir fotoğrafı düzenlerken, kullanıcıların resimde neyi değiştirmek istediklerini yazmaları yeterlidir. Makalede biberli pizza görselinin düzenlenmesi örneği kullanıldı. “Daha sağlıklı hale getirin” komutunu yazmak sebze soslarını ekler. Sahra’daki kaplanların fotoğrafı karanlık görünüyor, ancak modele “daha fazla ışığı simüle etmek için daha fazla kontrast eklemesi” söylendikten sonra resim daha parlak görünüyor.

MGIE makalesinin ekran görüntüsü.
Resim: Elma

“Kısa ama belirsiz rehberlik yerine, MGIE açık görsel bilinçli niyet elde eder ve makul görüntü düzenlemeye yol açar. Çeşitli düzenleme yönlerinden kapsamlı çalışmalar yürütüyoruz ve MGIE’mizin rekabetçi verimliliği korurken performansı etkili bir şekilde artırdığını gösteriyoruz. Araştırmacılar makalede ayrıca MLLM destekli çerçevenin gelecekteki vizyon ve dil araştırmalarına katkıda bulunabileceğine de inanıyoruz” dedi.

Apple, MGIE’yi GitHub aracılığıyla indirilebilir hale getirdi ancak aynı zamanda Hugging Face Spaces’ta bir web demosu da yayınladı. raporlar VentureBeat. Şirket, modele yönelik planlarının araştırmanın ötesinde ne olduğunu söylemedi.

OpenAI’nin DALL-E 3’ü gibi bazı görüntü oluşturma platformları, metin girişleri yoluyla oluşturdukları resimler üzerinde basit fotoğraf düzenleme görevlerini gerçekleştirebilir. Çoğu kişinin görüntü düzenleme için başvurduğu Photoshop yaratıcısı Adobe’nin de kendi AI düzenleme modeli vardır. Firefly AI modeli, oluşturulan arka planları fotoğraflara ekleyen üretken dolguyu destekler.



genel-2