2020 yılında piyasaya sürülen Gemini ile Google, çok modlu büyük dil modeli oluşturma hedefini benimsemişti. Bu model, metin, resim, ses ve video üzerinde eğitim alarak bu formatlarda içerik üretebiliyordu.
Bugün Google I/O geliştirici konferansında, şirket bu hedefe somut bir adım daha attı. Gemini Omni, Google CEO’su Sundar Pichai’ye göre, “herhangi bir girdiyle her şeyi üretebilen” yeni bir çok modlu model ailesinin ilk üyesi olarak tanıtıldı.
Omni, video ile başlayacak. Kullanıcılar artık resim, ses, video ve metni birleştirerek, sadece bu girdileri bir araya getirmekle kalmayacak, tüm girdiler üzerinde mantık yürüterek tutarlı bir çıktı üretecek. Sonuç, fizik, kültür, tarih ve bilim anlayışını yansıtan yüksek kaliteli videolar olacak.
Omni ayrıca kullanıcıların, karmaşık düzenleme yazılımları yerine basit metin komutlarıyla fotoğrafları düzenlemelerine olanak tanıyacak; bu, Google’ın Nano Banana uygulamasına benzer bir özellik.
Google’ın metin ve resimleri videolara dönüştüren Veo adında bir video modeli zaten mevcut; ancak Google DeepMind ürün yönetimi direktörü Nicole Brichtova, bugün tanıtımının bir Veo güncellemesinden daha fazlası olduğunu belirtti: “Bu, Gemini’nin zekâsı ile medya modellerimizin render yeteneklerini birleştirme yönündeki ilerlemenin bir sonraki adımıdır.”
DeepMind’ın baş teknisyeni Koray Kavukcuoglu, bir medya brifinginde Omni’nin, “protein katlanmasını anlatan bir kilimasyon” gibi basit bir istem aldığında, “Amino asitleri zinciri olarak başlayan proteinler, alfa sarmalı ve beta tabakası adı verilen düz bölümler gibi desenlere katlanarak mükemmel bir üç boyutlu şekil oluşturur.” şeklinde sesli anlatımla bir video oluşturduğunu açıkladı.
Omni’nin uzun vadeli vizyonu, modeli ses ve video gibi çeşitli girdilerden çıktı üretecek şekilde genişletmek üzerine odaklanıyor.
Pichai, “Gemini’yi ilk tanıttığımızda, bu model bizim yerel çok modlu ilk yapay zeka modelimizdi,” dedi. “Metin, kod, ses, görüntü ve video karışımı üzerinde eğitmenin, dünyayı daha derin bir şekilde anlamasını sağlayacağını biliyorduk. Dünya modelleri ile yapay zeka, metin tahmin etmekten gerçekliği simüle etmeye geçiyor. Gemini Omni, bu yöndeki bir sonraki adım.”
Bu tanıtım kapsamında, kullanıcılar kendi dijital avatarlarıyla videolar da oluşturabilecekler. OpenAI, bu özelliği artık kullanımdan kaldırılmış Sora uygulamasında Cameos ile popüler hale getirmişti. Derin sahtekarlıkları önlemek amacıyla, kullanıcıların kayıtlı bir onboarding sürecinden geçmesi gerekecek; bu süreçte kendilerini kaydedecek ve bir dizi sayıyı telaffuz edecekler. Ardından avatar gelecekte kullanmak üzere kaydedilecek.
Ayrıca Omni ile oluşturulan tüm videolar, Google’ın SynthID dijital su işaretini içerecek ve bu, kullanıcıların videoların Gemini ürünleri aracılığıyla üretilip üretilmediğini doğrulamasına olanak tanıyacak.
Ailedeki ilk model Gemini Omni Flash, bugün Gemini uygulamasında, YouTube Shorts ve AI yaratıcı stüdyosu Flow’da kullanıma sunulacak. Flash, 10 saniyelik video üretimi yapabilecek. Brichtova, bunun model sınırlaması değil, daha fazla kullanıcıya ulaşma isteği ve çoğu kullanıcının şu anda çok daha uzun videolar istemeyeceğini tahmin etme kararı olduğunu belirtti. Ancak daha uzun video süreleri yakın gelecekte planlanıyor.
Google, Omni Flash’ı daha çok bir tüketici aracı olarak tanıtıyor. Brichtova ve DeepMind araştırma mühendisi Gabe Barth-Maron, TechCrunch ile yaptıkları görüşmede dijital avatarların kullanım örnekleri olarak kişisel konuları ele aldılar: Kendi ödülünü kazanırken veya aya giderken çekilmiş bir video yapma veya tatilde çekilen bir videonun arka planından geçici bir geçişi kaldırma gibi. Barth-Maron bunu daha basit bir şekilde ifade etti: “Bunlar kişisel doğada meme gibidir.”
Brichtova, “Tüketiciler için kullanılabilirliği kolay hale getirmeye odaklandık,” dedi. “Pek çok video modeli, tüketicilere ulaşmayı başaramadı, bu yüzden bu bizim bu alanda bir girişimimiz.”
Kullanım kolaylığı, bir caveat ile birlikte geliyor: Brichtova ve Barth-Maron, düzenleme istemlerinin oldukça spesifik olması gerektiğini, aksi takdirde Omni’nin aşırı düzenleme yapma veya kullanıcının korumak istediği unsurları istemeden değiştirme riski taşıdığını belirttiler; bu da Nano Banana kullanıcılarının karşılaştığı bir sorun olabilirdi.
Kısa vadede tüketici odaklı bir yaklaşım benimseyen Omni’nin iş ve yaratıcı alanlarda oldukça geniş etkileri bulunuyor ve Google, Omni’yi önümüzdeki haftalarda API aracılığıyla sunmayı planlıyor. Avatar oluşturma aracı — bu özellik bugün Shorts’ta mevcut — içerik üreticileri tarafından benimsenmesi bekleniyor. Ancak daha geniş bir bağlamda, uçtan uca çok modlu bir çalışma akışı, reklamcılar ve film yapımcıları için dönüştürücü olabilir.
Luma AI, kısaca bir brifing ve bir ürün resmi ile tüm bir reklam kampanyası oluşturabilen benzer bir ajans aracı geliştirmekte. Brichtova, “Modelin metin render yetenekleri ile oldukça gururluyuz. Bu, reklamcılık gibi alanlarda çok faydalı,” dedi. “Bir ürün bir yerde veya hatta sadece bir slogan istiyorsanız, bu kesin olmalı… Film yapımcılarının ve diğer yaratıcıların bu modeli kullanmasını bekliyoruz.”
Daha profesyonel kullanım durumları, tüm Omni görevlerinde daha iyi performans göstermesi beklenen Omni Pro modeli ile daha iyi bir şekilde karşılanabilir. Google henüz Pro modelinin ne zaman piyasaya sürüleceğini açıklamadı, ancak Brichtova, “Flash’ın üzerinde bir adım değişikliği sağladığımızda bunu gerçekleştireceğiz.” dedi.
Makale içindeki bağlantılardan satın alımlar yaptığınızda, küçük bir komisyon kazanabiliriz. Bu durum, editoryal bağımsızlığımızı etkilemez.


