Google ve Meta Perşembe günü kayda değer yapay zeka (AI) duyuruları yaparak önemli ilerlemeler içeren yeni modelleri tanıttı. Arama devi, farklı yöntemlerde uzun bağlam anlayışıyla birlikte gelen güncellenmiş bir yapay zeka modeli olan Gemini 1.5’i tanıttı. Bu arada Meta, görsel medya aracılığıyla gelişmiş makine öğrenimi (ML) için üretken olmayan bir öğretim yöntemi olan Video Ortak Gömme Tahmini Mimarisi (V-JEPA) modelinin yayınlandığını duyurdu. Her iki ürün de yapay zeka yeteneklerini keşfetmenin daha yeni yollarını sunuyor. OpenAI ayrıca perşembe günü ilk metinden videoya dönüştürme modeli Sora’yı tanıttı.

Google Gemini 1.5 model ayrıntıları

Google DeepMind CEO’su Demis Hassabis, Gemini 1.5’in yayınlanacağını bir mesaj aracılığıyla duyurdu. Blog yazısı. Yeni model, Trafo ve Uzmanlar Karışımı (MEB) mimarisi üzerine inşa edilmiştir. Farklı versiyonlarının olması beklenirken şu an için sadece Gemini 1.5 Pro modeli erken test için piyasaya sürüldü. Hassabis, orta büyüklükteki multimodal modelin, şirketin en büyük üretken modeli olan ve Google One AI Premium planıyla Gemini Advanced aboneliği olarak sunulan Gemini 1.0 Ultra ile benzer düzeyde görevleri yerine getirebileceğini söyledi.

Gemini 1.5’teki en büyük gelişme, uzun bağlam bilgilerini işleme yeteneğidir. Standart Pro sürümü 1.28.000 token içerik penceresiyle birlikte gelir. Karşılaştırıldığında, Gemini 1.0’ın 32.000 tokenlik bir bağlam penceresi vardı. Belirteçler, bilgilerin bir temel model tarafından işlenmesi için yapı taşları görevi gören kelimelerin, görüntülerin, videoların, sesin veya kodun tüm parçaları veya alt bölümleri olarak anlaşılabilir. Hassabis, “Bir modelin bağlam penceresi ne kadar büyük olursa, belirli bir komut isteminde o kadar fazla bilgi alabilir ve işleyebilir; bu da çıktısını daha tutarlı, alakalı ve kullanışlı hale getirir” diye açıkladı.

Standart Pro sürümünün yanı sıra Google, 1 milyon token’a kadar içerik penceresine sahip özel bir model de yayınlıyor. Bu, sınırlı sayıda geliştiriciye ve kurumsal müşterilerine özel bir önizlemeyle sunuluyor. Bunun için özel bir platform olmasa da, üretken yapay zeka modellerini test etmek için bir bulut konsolu aracı olan Google’ın AI Studio’su ve Vertex AI aracılığıyla denenebilir. Google, bu sürümün tek seferde bir saatlik videoyu, 11 saatlik sesi, 30.000’den fazla kod satırına sahip kod tabanlarını veya 7.00.000’den fazla kelimeyi işleyebileceğini söylüyor.

İçinde postalamak Meta, X’te (eski adıyla Twitter olarak biliniyordu) V-JEPA’yı halka açık olarak yayınladı. Üretken bir yapay zeka modeli değil, ML sistemlerinin videoları izleyerek fiziksel dünyayı anlamasını ve modellemesini sağlayan bir öğretim yöntemidir. Şirket bunu, ‘Yapay Zekanın Babalarından’ biri olan Yann LeCun’un vizyonu olan gelişmiş makine zekasına (AMI) doğru önemli bir adım olarak nitelendirdi.

Özünde, tamamen görsel medyadan öğrenen, tahmine dayalı bir analiz modelidir. Yalnızca videoda neler olduğunu anlamakla kalmıyor, aynı zamanda bundan sonra ne olacağını da tahmin edebiliyor. Şirket, bunu eğitmek için videonun bazı bölümlerinin hem zaman hem de mekan açısından maskelendiği yeni bir maskeleme teknolojisi kullandığını iddia ediyor. Bu, bir videodaki bazı karelerin tamamen kaldırıldığı, diğer bazı karelerin ise karartılmış parçalara sahip olduğu anlamına gelir; bu da modeli hem mevcut kareyi hem de bir sonraki kareyi tahmin etmeye zorlar. Şirkete göre model her ikisini de verimli bir şekilde yapabiliyordu. Modelin uzunluğu 10 saniyeye kadar olan videoları tahmin edip analiz edebilmesi dikkat çekicidir.

“Örneğin, modelin birinin kalemi bırakması, kalemi alması ve kalemi bırakıyormuş gibi yapması ama aslında bunu yapmaması arasında ayrım yapabilmesi gerekiyorsa, V-JEPA bunun için önceki yöntemlere kıyasla oldukça iyi. yüksek dereceli eylem tanıma görevi” dedi Meta. Blog yazısı.

Şu anda V-JEPA modeli yalnızca görsel verileri kullanıyor, bu da videoların herhangi bir ses girişi içermediği anlamına geliyor. Meta artık ML modelinde videonun yanı sıra sesi de dahil etmeyi planlıyor. Şirketin bir diğer hedefi ise daha uzun videolardaki yeteneklerini geliştirmek.


Bağlı kuruluş bağlantıları otomatik olarak oluşturulabilir; ayrıntılar için etik bildirimimize bakın.





genel-8