Apple, bu yılın sonlarında iPhone’lara üretken yapay zeka özelliklerini sunmayı planladığını açıkladı. Bunların ne olduğu bilinmiyor, ancak yakın zamanda yayınlanan bir araştırma makalesi, bunlardan birinin, metin komutları yoluyla görüntüleri değiştirebilen yeni bir tür düzenleme yazılımı olabileceğini gösteriyor.
Buna MGIE veya MLLM Kılavuzlu (çok modlu büyük dil modeli) Görüntü Düzenleme adı verilir. Teknoloji şu bir işbirliğinin sonucu Apple ile Santa Barbara’daki California Üniversitesi’nden araştırmacılar arasında. Makalede MGIE’nin “Photoshop tarzı” yeteneğine sahip olduğu belirtiliyor [modifications]Kırpma gibi basit ince ayarlardan, bir resimdeki nesneleri kaldırmak gibi daha karmaşık düzenlemelere kadar uzanan bir yelpazede. Bu, hem “metni hem de görüntüleri” aynı anda işleyebilen bir tür yapay zeka olan MLLM (çok modlu büyük dil modeli) sayesinde mümkün oluyor.
VentureBeat raporunda MLLM’lerin “modeller arası anlayışta dikkate değer yetenekler” sergilediğini, ancak sözde etkinliklerine rağmen görüntü düzenleme yazılımında yaygın olarak uygulanmadıklarını açıklıyor.
Halka açık gösteri
MGIE’nin çalışma şekli oldukça basittir. Yapay zeka motoruna bir görüntü yüklersiniz ve ona yapmasını istediğiniz değişikliklerle ilgili net, kısa talimatlar verirsiniz. VentureBeat, insanların “açık rehberlik sağlaması” gerektiğini söylüyor. Örnek olarak, parlak, güneşli bir günün resmini yükleyebilir ve MGIE’ye “gökyüzünü daha mavi yap” diyebilirsiniz. Gökyüzünün rengini biraz doygunlaştıracak ancak istediğiniz kadar canlı olmayabilir. İstediğiniz sonuçları elde etmek için onu daha da yönlendirmeniz gerekecek.
MGIE şu anda şu adreste mevcuttur: Açık kaynaklı bir proje olarak GitHub. Araştırmacılar “kod, veri, [pre-trained models]”ve insanlara yapay zekayı düzenleme görevleri için nasıl kullanacaklarını öğreten bir not defteri. Ayrıca bir tane var halka açık web demosu işbirlikçi teknoloji platformu Hugging Face’te. Bu demoya erişim sayesinde Apple’ın yapay zekasını bir denemeye karar verdik.
Testimizde Unsplash’tan aldığımız bir kedinin resmini yükledik ve ardından MGIE’ye birkaç değişiklik yapması talimatını verdik. Deneyimlerimize göre sorun olmadı. Bir keresinde arka planı maviden kırmızıya değiştirmesini söyledik. Ancak MGIE bunun yerine arka planı statik benzeri dokularla daha koyu bir mavi tonu haline getirdi. Bir diğerinde, motordan yıldırımların olduğu mor bir arka plan eklemesini istedik ve bu çok daha dinamik bir şey yarattı.
Gelecekteki iPhone’lara dahil olma
Bu yazının yazıldığı sırada, içerik oluşturmaya çalışırken uzun kuyruk süreleri yaşayabilirsiniz. İşe yaramazsa, Hugging Face sayfasında şuna bir bağlantı vardır: Gradio’da barındırılan aynı yapay zeka bizim kullandığımız da buydu. İkisi arasında herhangi bir fark yok gibi görünüyor.
Şimdi soru şu: Bu teknoloji gelecekteki bir iPhone’a veya iOS 18’e çıkacak mı? Belki. Başlangıçta da belirtildiği gibi şirket CEO’su Tim Cook, yatırımcılara yapay zeka araçlarının yılın ilerleyen dönemlerinde cihazlarına geleceğini söyledi ancak herhangi bir ayrıntı vermedi. Kişisel olarak MGIE’nin Google’ın Magic Editor’ının iPhone sürümüne dönüştüğünü görebiliriz; bir resmin içeriğini tamamen değiştirebilen bir özellik. arXiv hakkındaki araştırma makalesini okursanız, Apple’ın yapay zeka konusunda izlediği yol kesinlikle bu gibi görünüyor.
MGIE hala devam eden bir çalışmadır. Çıktılar mükemmel değil. Örnek görsellerden biri yavru kedinin bir canavara dönüştüğünü gösteriyor. Ancak tüm hataların eninde sonunda çözülmesini bekliyoruz. Daha uygulamalı bir yaklaşımı tercih ediyorsanız TechRadar’ın 2024’ün en iyi fotoğraf editörleri rehberine göz atın.