Google Gemini 1.5'i Tanıttı, Meta Tahmine Dayalı Görsel Makine Öğrenimi Modeli V-JEPA'yı Tanıttı - Dünyadan Güncel Teknoloji Haberleri

Google ve Meta Perşembe günü kayda değer yapay zeka (AI) duyuruları yaparak önemli ilerlemeler içeren yeni modelleri tanıttı. Arama devi, farklı yöntemlerde uzun bağlam anlayışıyla birlikte gelen güncellenmiş bir yapay zeka modeli olan Gemini 1.5’i tanıttı. Bu arada Meta, görsel medya aracılığıyla gelişmiş makine öğrenimi (ML) için üretken olmayan bir öğretim yöntemi olan Video Ortak Gömme Tahmini Mimarisi (V-JEPA) modelinin yayınlandığını duyurdu. Her iki ürün de yapay zeka yeteneklerini keşfetmenin daha yeni yollarını sunuyor. OpenAI ayrıca perşembe günü ilk metinden videoya dönüştürme modeli Sora’yı tanıttı.

Google Gemini 1.5 model ayrıntıları

Google DeepMind CEO’su Demis Hassabis, Gemini 1.5’in yayınlanacağını bir mesaj aracılığıyla duyurdu. Blog yazısı. Yeni model, Trafo ve Uzmanlar Karışımı (MEB) mimarisi üzerine inşa edilmiştir. Farklı versiyonlarının olması beklenirken şu an için sadece Gemini 1.5 Pro modeli erken test için piyasaya sürüldü. Hassabis, orta büyüklükteki multimodal modelin, şirketin en büyük üretken modeli olan ve Google One AI Premium planıyla Gemini Advanced aboneliği olarak sunulan Gemini 1.0 Ultra ile benzer düzeyde görevleri yerine getirebileceğini söyledi.

Gemini 1.5’teki en büyük gelişme, uzun bağlam bilgilerini işleme yeteneğidir. Standart Pro sürümü 1.28.000 token içerik penceresiyle birlikte gelir. Karşılaştırıldığında, Gemini 1.0’ın 32.000 tokenlik bir bağlam penceresi vardı. Belirteçler, bilgilerin bir temel model tarafından işlenmesi için yapı taşları görevi gören kelimelerin, görüntülerin, videoların, sesin veya kodun tüm parçaları veya alt bölümleri olarak anlaşılabilir. Hassabis, “Bir modelin bağlam penceresi ne kadar büyük olursa, belirli bir komut isteminde o kadar fazla bilgi alabilir ve işleyebilir; bu da çıktısını daha tutarlı, alakalı ve kullanışlı hale getirir” diye açıkladı.

Standart Pro sürümünün yanı sıra Google, 1 milyon token’a kadar içerik penceresine sahip özel bir model de yayınlıyor. Bu, sınırlı sayıda geliştiriciye ve kurumsal müşterilerine özel bir önizlemeyle sunuluyor. Bunun için özel bir platform olmasa da, üretken yapay zeka modellerini test etmek için bir bulut konsolu aracı olan Google’ın AI Studio’su ve Vertex AI aracılığıyla denenebilir. Google, bu sürümün tek seferde bir saatlik videoyu, 11 saatlik sesi, 30.000’den fazla kod satırına sahip kod tabanlarını veya 7.00.000’den fazla kelimeyi işleyebileceğini söylüyor.

İçinde postalamak Meta, X’te (eski adıyla Twitter olarak biliniyordu) V-JEPA’yı halka açık olarak yayınladı. Üretken bir yapay zeka modeli değil, ML sistemlerinin videoları izleyerek fiziksel dünyayı anlamasını ve modellemesini sağlayan bir öğretim yöntemidir. Şirket bunu, ‘Yapay Zekanın Babalarından’ biri olan Yann LeCun’un vizyonu olan gelişmiş makine zekasına (AMI) doğru önemli bir adım olarak nitelendirdi.

Özünde, tamamen görsel medyadan öğrenen, tahmine dayalı bir analiz modelidir. Yalnızca videoda neler olduğunu anlamakla kalmıyor, aynı zamanda bundan sonra ne olacağını da tahmin edebiliyor. Şirket, bunu eğitmek için videonun bazı bölümlerinin hem zaman hem de mekan açısından maskelendiği yeni bir maskeleme teknolojisi kullandığını iddia ediyor. Bu, bir videodaki bazı karelerin tamamen kaldırıldığı, diğer bazı karelerin ise karartılmış parçalara sahip olduğu anlamına gelir; bu da modeli hem mevcut kareyi hem de bir sonraki kareyi tahmin etmeye zorlar. Şirkete göre model her ikisini de verimli bir şekilde yapabiliyordu. Modelin uzunluğu 10 saniyeye kadar olan videoları tahmin edip analiz edebilmesi dikkat çekicidir.

“Örneğin, modelin birinin kalemi bırakması, kalemi alması ve kalemi bırakıyormuş gibi yapması ama aslında bunu yapmaması arasında ayrım yapabilmesi gerekiyorsa, V-JEPA bunun için önceki yöntemlere kıyasla oldukça iyi. yüksek dereceli eylem tanıma görevi” dedi Meta. Blog yazısı.

Şu anda V-JEPA modeli yalnızca görsel verileri kullanıyor, bu da videoların herhangi bir ses girişi içermediği anlamına geliyor. Meta artık ML modelinde videonun yanı sıra sesi de dahil etmeyi planlıyor. Şirketin bir diğer hedefi ise daha uzun videolardaki yeteneklerini geliştirmek.

Bağlı kuruluş bağlantıları otomatik olarak oluşturulabilir; ayrıntılar için etik bildirimimize bakın.

genel-8

Google Gemini 1.5’i Tanıttı, Meta Tahmine Dayalı Görsel Makine Öğrenimi Modeli V-JEPA’yı Tanıttı

Byteknomers

Google Gemini 1.5 model ayrıntıları

By teknomers

Benzer İçerikler

Mod, ROG Ally’yi günümüzün Nintendo DS’sine dönüştürüyor — ikinci ekran aynı zamanda elde taşınan oyun konsolu için bir stand görevi görüyor

Jar Jar Binks Aktör Ahmed ‘Star Wars: Phantom Menace’de En İyi Tepki: “Herkes Üzerime Geldi”

192 MB L3 önbelleğe sahip Ryzen 9 7950X3D yüzeyleri, perakende CPU’dan 64 MB daha fazla – bir ES CPU veya yazılım algılama hatası olabilir

Apex Legends, Yetenekleri Değiştiriyor ve “Upheaveal”dan Neler Beklenecek?

Star Wars The Acolyte’ın Resmi Fragmanı Geliyor

Sızan Marvel’s Wolverine PS5 Test Oynanış Özellikleri Açılış Ara Sahnesi, Patron Dövüşleri, Öfke Modu ve Daha Fazlası

Ark Survival Ascending en iyi dinozor modlarını resmileştiriyor

iPhone için ekran altı Face ID’nin geciktiği bildirildi (yine)

Mystery premium segment ABD akıllı telefonu, amiral gemisi MediaTek yonga setinden güç alacak

Snapdragon 8 Gen 4, performansta büyük bir sıçrama olabilir ancak Apple A18 Pro’yu geçemez

Hayranların favorisi JBL Flip 5, bu harika fırsat sayesinde sıcak kek gibi satılıyor

MIT Yeni Bir Uzay Molekülünü Keşfetti

Boeing’in Starliner’ı seçkin ABD uzay gemileri kulübüne katıldı

Boeing’in Starliner’ı nihayet ilk mürettebatlı göreve hazır

NASA ve Boeing Tarihi Starliner Test Görevine “Gidiyor”

İlginizi Çekebilir

Radeon RX 7900 XT, Ryzen 7 8700G’den 8 Kat Daha Hızlı

Mod, ROG Ally’yi günümüzün Nintendo DS’sine dönüştürüyor — ikinci ekran aynı zamanda elde taşınan oyun konsolu için bir stand görevi görüyor

Tempur-Cloud ve Tempur-Adapt: Sizin için en iyi Tempur-Pedic yatak hangisi?

Manga Antolojisi Ön Siparişe Açık