Apple ve Kaliforniya Üniversitesi’nden araştırmacılar yayınladı MGI, görüntülerin kullanıcı tarafından istemde sağlanan doğal dil talimatlarına göre düzenlenmesine olanak tanıyan yeni bir açık kaynaklı yapay zeka modeli. THEyapay zeka modeli Dünyanın en önemli yapay zeka araştırma konferansı olan Uluslararası Öğrenme Temsilleri Konferansı (ICLR) 2024’te sunuldu.

MGIE nedir ve ne vaat ediyor?

MLLM-Guided Image Editing’in kısaltması olan MGIE, Photoshop tarzı düzenleme, fotoğraf optimizasyonu ve yerelleştirilmiş değişiklikler gibi düzenlemenin çeşitli yönlerini sezgisel olarak yönetme yeteneğine sahiptir. MGIE özellikle görüntü düzenleme sürecinde geliştirilen LLaVA multimodal dil modelini kullanır. Geliştiricilere göre makale, bazılarının proje üzerinde MGIE’nin avantajı, belirli teknik beceriler ve manuel beceriler gerektiren, geleneksel yazılımlarla eşi benzeri olmayan bir düzenleme kolaylığı ile görüntü düzeltmeyi demokratikleştirmesidir. Ayrıca, model yüksek kaliteli sonuçlar üretme ve yapılan değişikliklere ilişkin açıklamalar sunma, şeffaflığı ve kullanıcı güvenini artırma yeteneğine sahiptir.Uygulama kapsamı oldukça geniştir: fotoğrafları geliştirmek, kolaj oluşturmak, görüntüleri farklı tarzlara dönüştürmek için kullanılabilir. , yaratıcı öğeler ekleyin, görüntü düzenleme ilkelerini öğretin ve çok daha fazlasını yapın. Model aynı zamanda mesajlaşma uygulamaları, sosyal medya, web siteleri ve akıllı cihazlar gibi diğer platform ve hizmetlerle de entegre edilebiliyor.

MGIE nasıl çalışır?

MGIE’yi kullanmak için kaynak kodunu şuradan indirmeniz yeterlidir: GitHub deposu bağımlılıkları yüklemek ve şablonu başlatmak için talimatları izleyin. MGIE, Python 3.8 ile uyumludur ve en az 16 GB belleğe sahip bir NVIDIA GPU gerektirir. MGIE başlatıldığında, bir giriş görüntüsü ve görüntüyü düzenlemek için bir metin istemi sağlayabilir. Şablon, talimatlara göre değiştirilmiş bir çıktı görüntüsünün yanı sıra ne yaptığına dair bir açıklama döndürecektir. Şablon aynı zamanda çıktı görüntüsünü daha da değiştirmek için birden fazla metin istemi sağlayabileceğiniz etkileşimli modu da destekler. Örneğin: “Gökyüzünü daha mavi yap ve kalp şeklinde bir bulut ekle” komutu verildiğinde model, görüntüyü ve şu açıklamayı döndürür: “Gökyüzü alanının doygunluğunu %20 artırdım ve kullanarak bir bulut kalp şekli ekledim. Ganilla görüntü oluşturma modeli”.



genel-18