Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Gemini’nin veri analiz yetenekleri Google’ın iddia ettiği kadar iyi değil
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Gemini’nin veri analiz yetenekleri Google’ın iddia ettiği kadar iyi değil

Liste

Gemini’nin veri analiz yetenekleri Google’ın iddia ettiği kadar iyi değil

teknomers
Son güncelleme: 30 Haziran 2024 01:37
teknomers
Paylaş
Paylaş


Contents
  • Gemini’nin bağlam penceresi eksik
  • Google Gemini ile aşırı vaatlerde bulunuyor

Google’ın amiral gemisi üretken AI modelleri Gemini 1.5 Pro ve 1.5 Flash’ın satış noktalarından biri, sözde işleyebilecekleri ve analiz edebilecekleri veri miktarıdır. Google, basın brifinglerinde ve demolarında, modellerin “uzun bağlamları” sayesinde daha önce imkansız olan görevleri başarabileceğini, örneğin yüzlerce sayfalık belgeleri özetleyebileceğini veya film görüntülerinde sahneler arasında arama yapabileceğini defalarca iddia etti.

Ancak yeni araştırmalar, modellerin aslında bu konularda pek de iyi olmadığını öne sürüyor.

İki ayırmak çalışmalar Google’ın Gemini modelleri ve diğerlerinin muazzam miktarda veriden ne kadar iyi anlam çıkardığını araştırdı — “Savaş ve Barış” uzunluğundaki çalışmaları düşünün. Her ikisi de Gemini 1.5 Pro ve 1.5 Flash’ın büyük veri kümeleriyle ilgili soruları doğru şekilde yanıtlamakta zorlandığını buldu; belge tabanlı testlerin bir serisinde, modeller yalnızca %40-%50 oranında doğru yanıtı verdi.

UMass Amherst’te doktora sonrası araştırmacısı ve bunlardan birinin ortak yazarı Marzena Karpinska, “Gemini 1.5 Pro gibi modeller teknik olarak uzun bağlamları işleyebilirken, modellerin aslında içeriği ‘anlamadığını’ gösteren birçok durum gördük” dedi. TechCrunch’a konuşan çalışmalar.

Gemini’nin bağlam penceresi eksik

Bir modelin bağlamı veya bağlam penceresi, modelin çıktı (örneğin ek metin) üretmeden önce dikkate aldığı girdi verilerini (örneğin metin) ifade eder. Basit bir soru — “2020 ABD başkanlık seçimlerini kim kazandı?” — bağlam olarak kullanılabilir, bir film senaryosu, gösteri veya ses klibi de öyle. Ve bağlam pencereleri büyüdükçe, bunlara sığdırılan belgelerin boyutu da büyür.

Gemini’nin en yeni sürümleri bağlam olarak 2 milyondan fazla jetonu alabiliyor. (“Jetonlar”, “fantastic” sözcüğündeki “fan”, “tas” ve “tic” heceleri gibi alt bölümlere ayrılmış ham veri parçalarıdır.) Bu yaklaşık 1,4 milyon kelimeye, iki saatlik videoya veya 22 saatlik sese eşdeğerdir. — piyasada bulunan herhangi bir modelin en geniş bağlamı.

Bu yılın başlarında yapılan bir brifingde Google, Gemini’nin uzun bağlam yeteneklerinin potansiyelini göstermeyi amaçlayan önceden kaydedilmiş birkaç demo gösterdi. Bunlardan biri Gemini 1.5 Pro’nun, Apollo 11’in aya iniş yayınının transkriptini (yaklaşık 402 sayfa) şakalar içeren alıntılar için aramasını ve ardından yayında karakalem taslağına benzeyen bir sahne bulmasını sağladı.

Brifingi yöneten Google DeepMind Araştırma Başkan Yardımcısı Oriol Vinyals, modeli “sihirli” olarak nitelendirdi.

“[1.5 Pro] “Bu tür muhakeme görevlerini her sayfada, her kelimede gerçekleştiriyor” dedi.

Bu bir abartı olabilir.

Bu yetenekleri karşılaştıran yukarıda bahsedilen çalışmalardan birinde Karpinska, Allen Yapay Zeka Enstitüsü ve Princeton’dan araştırmacılarla birlikte, modellerden İngilizce yazılmış kurgu kitaplar hakkındaki doğru/yanlış ifadeleri değerlendirmelerini istedi. Araştırmacılar, modellerin önceden bilgiye dayanarak “hile yapmaması” için son çalışmaları seçtiler ve ifadeleri, kitapları bütünüyle okumadan anlaşılması imkansız olan belirli ayrıntılara ve olay örgüsüne göndermelerle süslediler.

“Nusis, bir Apoth olarak becerilerini kullanarak, Rona’nın tahta sandığında bulunan reaktif anahtarının açtığı portalın türünü tersine mühendislik yoluyla oluşturabilir” gibi bir ifade verildiğinde, ilgili kitabı yutan Gemini 1.5 Pro ve 1.5 Flash, ifadenin doğru mu yanlış mı olduğunu söylemek ve gerekçelerini açıklamak zorundaydı.

Resim Kredisi: UMass Amherst

Yaklaşık 260.000 kelime (~520 sayfa) uzunluğundaki bir kitap üzerinde test edilen araştırmacılar, 1.5 Pro’nun doğru/yanlış ifadelerini %46,7 oranında doğru yanıtladığını, Flash’ın ise yalnızca %20 oranında doğru yanıt verdiğini buldu. Bu, bir madeni paranın kitapla ilgili soruları yanıtlamada Google’ın en son makine öğrenme modelinden önemli ölçüde daha iyi olduğu anlamına geliyor. Tüm kıyaslama sonuçlarının ortalaması alındığında, hiçbir model soru yanıtlama doğruluğu açısından rastgele şanstan daha yüksek bir değere ulaşamadı.

Karpinska, “Modellerin, kitabın daha büyük bölümlerinin, hatta kitabın tamamının dikkate alınmasını gerektiren iddiaları doğrulamada, cümle düzeyinde kanıt alınarak çözülebilecek iddialara kıyasla daha fazla zorluk yaşadığını fark ettik” dedi. “Niteliksel olarak, modellerin, insan okuyucu için açık olan ancak metinde açıkça belirtilmeyen örtülü bilgilere ilişkin iddiaları doğrulamakta zorlandığını da gözlemledik.”

UC Santa Barbara’daki araştırmacıların ortak yazdığı iki çalışmadan ikincisi, Gemini 1.5 Flash’ın (ancak 1.5 Pro değil) videolar üzerinde “akıl yürütme” (yani, içindeki içerikle ilgili soruları arama ve yanıtlama) yeteneğini test etti. .

Ortak yazarlar, modelin resimlerde tasvir edilen nesneler hakkında yanıt vermesi için sorularla (örneğin, “Bu pastanın üzerinde hangi çizgi film karakteri var?”) eşleştirilen resimlerden (örneğin, bir doğum günü pastasının fotoğrafı) oluşan bir veri seti oluşturdular. Modelleri değerlendirmek için görüntülerden birini rastgele seçtiler ve slayt gösterisi benzeri görüntüler oluşturmak için önüne ve arkasına “dikkat dağıtıcı” görüntüler eklediler.

Flash o kadar da iyi performans göstermedi. Modelin 25 görüntüden oluşan bir “slayt gösterisinden” el yazısıyla yazılmış altı rakamı yazıya döktüğü bir testte Flash, çevirilerin yaklaşık %50’sini doğru yaptı. Doğruluk sekiz haneli olarak %30 civarına düştü.

UC Santa Barbara’da doktora öğrencisi ve çalışmanın ortak yazarlarından biri olan Michael Saxon, TechCrunch’a “Görüntüler üzerinden gerçek soru-cevap görevlerinde, test ettiğimiz tüm modeller için özellikle zor görünüyor” dedi. “Bu küçük miktardaki akıl yürütme – bir sayının bir çerçevede olduğunu fark etmek ve onu okumak – modeli bozan şey olabilir.”

Google Gemini ile aşırı vaatlerde bulunuyor

Çalışmaların hiçbiri hakem denetiminden geçmedi ve Gemini 1.5 Pro ve 1.5 Flash’ın 2 milyon token içerikli sürümlerini incelemiyorlar. (Her ikisi de 1 milyon token içerikli sürümleri test etti.) Ve Flash’ın performans açısından Pro kadar yetenekli olması beklenmiyor; Google bunu düşük maliyetli bir alternatif olarak tanıtıyor.

Bununla birlikte, ikisi de Google’ın Gemini ile başından beri aşırı vaatlerde bulunduğu ve yetersiz kaldığı ateşe benzin döküyor. Araştırmacıların test ettiği modellerin hiçbiri, OpenAI’nin GPT-4o ve Anthropic’in Claude 3.5 Sonnet’i dahil, iyi performans göstermedi. Ancak Google, reklamlarında bağlam penceresine en üst sırayı veren tek model sağlayıcısı.

Saxon, “Nesnel teknik ayrıntılara dayanarak ‘Modelimiz X sayıda token alabilir’ şeklindeki basit iddiada yanlış bir şey yok” dedi. “Ama soru şu ki, onunla ne gibi yararlı şeyler yapabilirsiniz?”

İşletmeler (ve yatırımcılar) teknolojinin sınırlamalarından dolayı hayal kırıklığına uğradıkça, genel olarak üretken yapay zeka giderek daha fazla inceleme altına alınıyor.

Boston Consulting Group’un yakın zamanda gerçekleştirdiği bir dizi ankette, katılımcıların yaklaşık yarısı (hepsi üst düzey yöneticiler) üretken yapay zekanın önemli üretkenlik kazanımları sağlamasını beklemediklerini ve üretken yapay zeka destekli araçlardan kaynaklanan hatalar ve veri ihlalleri konusunda endişe duyduklarını söyledi. PitchBook yakın zamanda rapor edildi En erken aşamalardaki üretken yapay zeka anlaşmalarının üst üste iki çeyrek boyunca azaldığı ve 2023’ün üçüncü çeyreğindeki zirve noktasına göre %76 oranında düşüş yaşandığı görülüyor.

İnsanlar hakkında kurgusal ayrıntılar ortaya çıkaran toplantı özetleyen sohbet robotları ve temelde intihal üreteçleri olan AI arama platformlarıyla karşı karşıya kalan müşteriler, umut vadeden farklılaştırıcılar peşinde. Üretken AI rakiplerine yetişmek için zaman zaman beceriksizce yarışan Google, Gemini’nin bağlamını bu farklılaştırıcılardan biri yapmak için can atıyordu.

Ama görünen o ki bu bahis erkendi.

Karpinska, “Uzun belgeler üzerinde ‘akıl yürütme’ veya ‘anlama’nın gerçekleştiğini gerçekten göstermenin bir yolunu henüz belirlemedik ve temelde bu modelleri yayınlayan her grup, bu iddiaları ortaya koymak için kendi özel değerlendirmelerini bir araya getiriyor,” dedi. “Bağlam işlemenin ne kadar uzun süre uygulandığı bilgisi olmadan – ve şirketler bu ayrıntıları paylaşmıyor – bu iddiaların ne kadar gerçekçi olduğunu söylemek zor.”

Google yorum talebine yanıt vermedi.

Hem Saxon hem de Karpinska, üretken AI etrafındaki abartılı iddialara karşı panzehirlerin daha iyi kıstaslar ve aynı şekilde üçüncü taraf eleştirilerine daha fazla vurgu olduğuna inanıyor. Saxon, uzun bağlam için daha yaygın testlerden birinin (Google’ın pazarlama materyallerinde bolca alıntılanan) “samanlıkta iğne arama”nın yalnızca bir modelin veri kümelerinden adlar ve numaralar gibi belirli bilgileri alma yeteneğini ölçtüğünü ve bu bilgilerle ilgili karmaşık soruları yanıtlamadığını belirtiyor.

Saxon, “Bu modelleri kullanan tüm bilim insanları ve mühendislerin çoğu, mevcut kıyaslama kültürümüzün bozuk olduğu konusunda temelde hemfikir,” dedi ve ekledi: “Bu nedenle, kamuoyunun ‘kıyaslamalar genelinde genel zeka’ gibi sayılar içeren bu devasa raporları büyük bir şüpheyle karşılaması önemlidir.”



genel-24

Rapor: İsrail, Gazze’deki hedefleri seçmek için Lavender adlı yapay zeka aracını kullandı
Yaklaşan Rom-Com Filminde Sydney Sweeney Gerçek Bir Örümcek Tarafından Isırıldı
EMBO Genç Araştırmacı Programına Başvurular İçin Son Tarih 1 Nisan 2024!
3 teknoloji şirketi karmaşık bir makro ortamda nasıl geziniyor?
L&T Technology Services tarafından açılan Fransız mühendislik tasarım merkezi
ETİKETLENDİ:#googleAnalizDeğilettiğiGeminininGoogleıniddiaikizler burcuiyikadarÖzelÜretken AIVeriyapay zekayetenekleri
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale YouTube yakında kendi video oynatma listesi kapaklarınızı yüklemenize izin verebilir
Sonraki Makale Riot, Ağustos 2024’te 2XKO Alpha Lab Beta Testi Düzenliyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Persona 6 Karşımızda, Bildiğimiz Tek Şey Bu
Liste
Doom: Karanlık Çağlar’da Kalkan Yerini Etkileyici Mızrağa Bırakıyor
Oyun
Notion, hizmet kesintisinden sonra Anthropic erişimini yeniden sağladı
Yapay Zeka
ASML, Avrupa’nın En Değerli Şirketi: Pazar Değeri 674 Milyar Dolar
Donanım
GM’nin 900 Milyon Doları ile Elektrikli Araçlarda Büyük Hamlesi
Genel
Fable Şubat Sonunda Beklentileri Karşılayacak mı?
Liste
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?