Google’un Yeni Gemini 2.5 Flash Image Modelinin Özellikleri
Google, yeni Gemini 2.5 Flash Image modeliyle, kullanıcılarına fotoğraflarda daha ince ayarlar yapma imkânı sunan güncellemelerini duyurdu. Bu güncelleme, OpenAI’nin popüler görüntü araçlarıyla rekabet etmek ve ChatGPT kullanıcılarını çekmek amacıyla geliştirildi.
Güncelleme, Gemini uygulamasında tüm kullanıcılara, ayrıca geliştiricilere Gemini API, Google AI Studio ve Vertex AI platformları üzerinden erişimle birlikte, Salı gününden itibaren kullanıma sunulacak.
Gemini 2.5’in AI Görüntü Modeli
Gemini’nin yeni AI görüntü modeli, kullanıcıların doğal dil taleplerine dayalı olarak görsellerde daha hassas düzenlemeler yapabilmesini sağlıyor. Bu model, özellikle yüzler, hayvanlar ve diğer detayların tutarlılığını korurken, rakip araçların çoğunun başaramadığı bir özellik olarak öne çıkıyor. Örneğin, ChatGPT veya xAI’nin Grok aracına, bir fotoğraftaki birinin tişörtünün rengini değiştirmesini istediğinizde, sonuç genellikle bozulmuş bir yüz veya değiştirilmiş bir arka plan içeriyor.
Gemini 2.5 Flash’ın yerel görüntü düzenleyici aracı, bir köpek ve insan fotoğrafını harmanlayarak, her birinin benzerliğini koruyor. Bu özellik, Google’ın yeteneklerini gösteriyor.
Kullanıcı Geri Bildirimleri
Son haftalarda, sosyal medya kullanıcıları, topluluk temelli değerlendirme platformu LMArena’da etkileyici bir AI görüntü düzenleyici ile ilgili övgü dolu yorumlar yaptı. Bu model, kullanıcılara anonim olarak “nano-banana” takma adıyla görünüyordu. Google’ın bu modelin arkasında olduğu, tüm muz temalı ipuçlarıyla oldukça bariz bir şekilde ortaya çıktı.
Google, yeni AI görüntü modelinin LMArena ve diğer kriterlerde en ileri düzeyde olduğunu iddia ediyor. Nicole Brichtova, Google DeepMind’da görsel üretim modelleri üzerinde ürün lideri olarak yaptığı bir röportajda, “Görsel kaliteyi ve modelin talimatları izleme yeteneğini ileriye taşıyoruz,” dedi.
Rekabet Ortamı
AI görüntü modelleri, büyük teknoloji şirketleri arasındaki kritik bir savaş alanı haline geldi. OpenAI, GPT-4’ün yerel görüntü üreteci ile Mart ayında piyasaya sürüldüğünde, ChatGPT’nin kullanımını patlattı. OpenAI CEO’su Sam Altman, AI ile üretilen Studio Ghibli temalı meme’lerin şirketin GPU‘larını “erittiğini” belirtmişti.
Meta, OpenAI ve Google ile rekabet edebilmek için, geçtiğimiz hafta Midjourney isimli startup’tan AI görüntü modellerini lisanslayacağını açıkladı. Diğer yandan, a16z destekli Alman unicorn Black Forest Labs, FLUX AI görüntü modelleriyle ölçüm tablolarında hâlâ önde gidiyor.
Gemini’nin etkileyici AI görüntü düzenleyicisi, Google’ın kullanıcı boşluğunu kapatmasına yardımcı olabilir. ChatGPT şu anda haftada 700 milyondan fazla kullanıcıya sahipken, Google’ın Temmuz ayındaki kazanç çağrısında CEO Sundar Pichai, Gemini’nin aylık 450 milyon kullanıcıya ulaştığını açıkladı; bu da haftalık kullanıcı sayısının daha düşük olduğunu düşündürüyor.
Kullanıcı Odaklı Tasarım
Brichtova, Google’ın görüntü modelini tüketici kullanım alanlarını göz önünde bulundurarak tasarladığını belirtti. Model, kullanıcılara, ev ve bahçe projelerini görselleştirmelerine yardımcı olmayı amaçlıyor. Ayrıca, model daha iyi bir “dünya bilgisi” sunabiliyor ve tek bir istemde birden fazla referansı birleştirebiliyor. Örneğin, bir koltuk resmi, bir oturma odası fotoğrafı ve bir renk paletini bir araya getirerek uyumlu bir render ortaya çıkarabiliyor.
Gemini 2.5 Flash Image, kullanıcılara AI görüntü modelinin “çoklu dönüşlü” sohbetler gerçekleştirme imkânı sunuyor. Kullanıcıların gerçekçi görüntüler oluşturmasını ve düzenlemesini kolaylaştıran bu yeni AI görüntü üretici, Google’ın oluşturduğu güvenlik önlemleri ile belirli yaratıcı denetimlere de tabi tutuluyor.
Güvenlik Önlemleri ve Etik Konular
Google, AI görüntü üretici güvenlik önlemleri konusunda geçmişte zorluklar yaşamıştı. Bir dönem, Gemini’nin tarih açısından yanlış fotoğraflar üretmesi nedeniyle özür dilemek zorunda kalmıştı. Şimdi ise Google, daha iyi bir dengeyi sağladığını düşünüyor. Brichtova, “Kullanıcılara yaratıcı kontrol sunmak istiyoruz, böylece modellerden istediklerini elde edebilsinler,” dedi. “Fakat her şey serbest değil.”
Google’ın hizmet şartlarının generatif AI kısmı, kullanıcıların “rızaya dayanmayan özel görüntüler” üretmelerini yasaklıyor. Grok için bu tür güvenlik önlemlerinin olmadığı görülüyor. Grok, kullanıcıların ünlüler gibi görünen AI üretimli açık görüntüler oluşturmalarına olanak tanıdı.
Dijital sahtekarlık görüntülerin artışı nedeniyle, kullanıcıların çevrimiçi ortamda neyin gerçek olduğunu ayırt etmekte zorluk çekmelerine neden olduğunu vurgulayan Brichtova, Google’ın AI ile üretilen görüntülere görsel filigranlar uyguladığını ve meta verilerinde tanımlayıcı bilgiler kullandığını belirtti. Ancak, sosyal medyada bir görüntüye göz atan biri bu tür tanımlayıcıları aramayabilir.


