Google Gemini Pro 1.5, çok modlu yapay zeka için oyunun kurallarını değiştiren bir andır. Bir video, ses veya görüntü dosyasını beslemenize ve içerikler hakkında sorular sormanıza olanak tanır.
Ne kadar iyi performans gösterdiğini görmek için Gemini Pro 1.5’e, Kuzey Amerika’da görülebilen son tam güneş tutulmasından tamlık anının tamamen sessiz bir videosunu verdim.
Google Cloud platformu VertexAI’de çalışırken, Gemini’ye video kliple birlikte bazı talimatlar da verebildim. Ondan şarkı sözlerini yazmasını ve yapay zeka müzik oluşturucunun videonun içeriğinden esinlenerek bir şarkı yaratmasını istedim.
Daha sonra şarkıyı oluşturmak için istemi ve şarkı sözlerini Udio’ya koydum ve parçanın tamamını Gemini Pro 1.5’e geri gönderdim ve parçayı dinleyip bir müzik videosu hazırlamasını istedim.
Google Gemini Pro 1.5 nedir?
Google, bazı Android telefonlarda bulunan minik Nano’dan başlayarak Kasım ayında Gemini model ailesini piyasaya sürdü. Daha sonra artık Gemini sohbet robotuna güç veren Pro’yu bıraktı ve nihayet Ocak ayında güçlü, GPT-4 düzeyindeki Gemini Ultra’yı piyasaya sürdü.
Geçtiğimiz ay arama devi, Gemini ailesine yönelik ilk güncellemesini yayınladı; devasa bir milyon token bağlam penceresine, yanıt verme ve doğruluğu artırmaya yönelik uzman mimarisinin bir karışımına ve ayrıca gerçek çok modlu yeteneklere sahip olan Gemini Pro 1.5’i tanıttı.
Şu anda yalnızca geliştiricilerin bir API çağrısı veya VertexAI bulut platformu aracılığıyla kullanılabilmesine rağmen, bu gelişmiş işlevselliğin yakında Gemini sohbet robotunda da görünmesi bekleniyor.
Özelliklerden bazıları arasında bir şarkı veya konuşma gibi bir ses dosyasını, egzersiz yapan birinin video dosyasını veya güneş tutulmasını yükleyebilme ve Gemini’ye dosya hakkında sorular sorabilme yer alıyor.
Videodan şarkı oluşturma
Gemini Pro 1.5’i kullanarak doğrudan bir müzik parçası oluşturamasanız da – Google’ın hem müzik hem de video yapmak için başka AI modelleri var – istemler ve şarkı sözleri oluşturabilirsiniz.
AI modeline, ABD’den görülebilen son tam güneş tutulmasından tamlık anını gösteren 25 saniyelik kısa bir klip verdim ve ondan bana hem şarkı sözlerini hem de ilham verici bir şarkı oluşturmak için bir AI müzik oluşturucusuna besleyebileceğim bir komut vermesini istedim. video tarafından.
Yeni @Google geliştirici lansmanı bugün:- Gemini 1.5 Pro artık 180’den fazla ülkede Gemini API aracılığıyla genel önizlemede sunuluyor- Sesi (konuşmayı) anlama özelliğini ve dosyaları yönetmeyi kolaylaştırmak için yeni bir Dosya API’sini destekler- Yeni yerleştirme modeli !https://t.co/wJk1e1BG1E9 Nisan 2024
Bana Udio için bir ipucu olarak şunu verdi: “Üç farklı hareketi olan destansı bir orkestra parçası; ilk bina tutulma bütünlüğe yaklaşırken gerilim ve beklenti içerisinde, ikincisi yavaşlayarak bütünlük sırasında ruhani ve gizemli hale geliyor ve üçüncü bina yine Güneş ayın arkasından çıkarken muzaffer bir kreşendoya doğru.”
Koronun sözleri şöyleydi: “Tutulma burada, göksel bir gösteri Işık büyümeden önce bir anlık karanlık Yıldızlar oyun oynamak için ortaya çıkıyor, öğle vakti gökyüzünde Dünya geçerken, ömürde bir kez görülen bir manzara .”
Gemini Pro 1.5’in Claude 3, ChatGPT veya Gemini Ultra kadar yaratıcı olduğunu düşünmüyorum. Bu platformlardaki şarkı sözleri daha yaratıcı olma eğilimindedir ancak bir videoyu analiz etme yeteneği çok büyüktür. Videodaki farklı anları değerlendirip değişiklikleri yakalayıp şarkı sözlerine yansıtmayı başardı.
Bir şarkıdan müzik videosu oluşturma
Google Gemini 1.5’in en son güncellemelerinden biri, bir şarkıyı veya herhangi bir ses parçasını alıp içeriğini analiz edebilme yeteneğidir. Bunu özellikle o şarkıya eşlik edecek bir müzik videosu için fikir planlarken yararlı buldum; özellikle de hızlı çalışıyorsam.
Gemini Pro 1.5 istemini ve sözlerini kullanarak Udio’da oluşturduğum şarkıyı aldım ve yapay zeka modelinden ses dosyasına dayalı olarak kare kare bir müzik videosu çizmesini istedim.
Giriş ve nakarat da dahil olmak üzere şarkının her bölümü için bana 5 saniyelik bir dizi çekim verdi. Her bölüm için bana “güneşin doğuşu ve kuşların uçtuğu güzel bir manzara yaratın” gibi bir ipucu verdi. Daha sonra istemleri Pika Laboratuvarlarına aktardım.
Bu, Gemini Pro 1.5’in nasıl kullanılacağına dair olağandışı bir örnek olsa da, neyin mümkün olabileceğinin ve hatta üçüncü taraf bir geliştirici tarafından neyin oluşturulabileceğinin bir göstergesidir. Örneğin Gemini Pro 1.5’i, tek tıklamayla bir şarkı ve müzik videosu oluşturmak için bir AI müzik oluşturucu ile LTX Studio veya Runway gibi bir AI video platformu arasında bir ara katman olarak kullanabilirsiniz.
Daha geniş bağlam pencerelerinin asıl faydası, Meta’nın akıllı gözlükleri veya Rabbit R1 gibi yapay zeka uygulamalarının pazara çıktığını görmeye başladığımızda ortaya çıkacak. Google gecikme sorununu çözebilirse yapay zeka, gerçek dünya verilerinin büyük bir kısmını analiz edebilir ve canlı geri bildirim ve bilgi verebilir.
Bu, kör bir kişinin sesli açıklamaları görmesine yardımcı olmak, gerçek sürücüsüz araçlara doğru ilk adımı oluşturmak veya bir robota, yalnızca bir mikrofon ve kamera kullanarak tamamen bağımsız hareket etme yeteneği kazandırmak için kullanılabilir.