Google’ın amiral gemisi üretken AI modelleri Gemini 1.5 Pro ve 1.5 Flash’ın satış noktalarından biri, sözde işleyebilecekleri ve analiz edebilecekleri veri miktarıdır. Google, basın brifinglerinde ve demolarında, modellerin “uzun bağlamları” sayesinde daha önce imkansız olan görevleri başarabileceğini, örneğin yüzlerce sayfalık belgeleri özetleyebileceğini veya film görüntülerinde sahneler arasında arama yapabileceğini defalarca iddia etti.

Ancak yeni araştırmalar, modellerin aslında bu konularda pek de iyi olmadığını öne sürüyor.

İki ayırmak çalışmalar Google’ın Gemini modelleri ve diğerlerinin muazzam miktarda veriden ne kadar iyi anlam çıkardığını araştırdı — “Savaş ve Barış” uzunluğundaki çalışmaları düşünün. Her ikisi de Gemini 1.5 Pro ve 1.5 Flash’ın büyük veri kümeleriyle ilgili soruları doğru şekilde yanıtlamakta zorlandığını buldu; belge tabanlı testlerin bir serisinde, modeller yalnızca %40-%50 oranında doğru yanıtı verdi.

UMass Amherst’te doktora sonrası araştırmacısı ve bunlardan birinin ortak yazarı Marzena Karpinska, “Gemini 1.5 Pro gibi modeller teknik olarak uzun bağlamları işleyebilirken, modellerin aslında içeriği ‘anlamadığını’ gösteren birçok durum gördük” dedi. TechCrunch’a konuşan çalışmalar.

Gemini’nin bağlam penceresi eksik

Bir modelin bağlamı veya bağlam penceresi, modelin çıktı (örneğin ek metin) üretmeden önce dikkate aldığı girdi verilerini (örneğin metin) ifade eder. Basit bir soru — “2020 ABD başkanlık seçimlerini kim kazandı?” — bağlam olarak kullanılabilir, bir film senaryosu, gösteri veya ses klibi de öyle. Ve bağlam pencereleri büyüdükçe, bunlara sığdırılan belgelerin boyutu da büyür.

Gemini’nin en yeni sürümleri bağlam olarak 2 milyondan fazla jetonu alabiliyor. (“Jetonlar”, “fantastic” sözcüğündeki “fan”, “tas” ve “tic” heceleri gibi alt bölümlere ayrılmış ham veri parçalarıdır.) Bu yaklaşık 1,4 milyon kelimeye, iki saatlik videoya veya 22 saatlik sese eşdeğerdir. — piyasada bulunan herhangi bir modelin en geniş bağlamı.

Bu yılın başlarında yapılan bir brifingde Google, Gemini’nin uzun bağlam yeteneklerinin potansiyelini göstermeyi amaçlayan önceden kaydedilmiş birkaç demo gösterdi. Bunlardan biri Gemini 1.5 Pro’nun, Apollo 11’in aya iniş yayınının transkriptini (yaklaşık 402 sayfa) şakalar içeren alıntılar için aramasını ve ardından yayında karakalem taslağına benzeyen bir sahne bulmasını sağladı.

Brifingi yöneten Google DeepMind Araştırma Başkan Yardımcısı Oriol Vinyals, modeli “sihirli” olarak nitelendirdi.

“[1.5 Pro] “Bu tür muhakeme görevlerini her sayfada, her kelimede gerçekleştiriyor” dedi.

Bu bir abartı olabilir.

Bu yetenekleri karşılaştıran yukarıda bahsedilen çalışmalardan birinde Karpinska, Allen Yapay Zeka Enstitüsü ve Princeton’dan araştırmacılarla birlikte, modellerden İngilizce yazılmış kurgu kitaplar hakkındaki doğru/yanlış ifadeleri değerlendirmelerini istedi. Araştırmacılar, modellerin önceden bilgiye dayanarak “hile yapmaması” için son çalışmaları seçtiler ve ifadeleri, kitapları bütünüyle okumadan anlaşılması imkansız olan belirli ayrıntılara ve olay örgüsüne göndermelerle süslediler.

“Nusis, bir Apoth olarak becerilerini kullanarak, Rona’nın tahta sandığında bulunan reaktif anahtarının açtığı portalın türünü tersine mühendislik yoluyla oluşturabilir” gibi bir ifade verildiğinde, ilgili kitabı yutan Gemini 1.5 Pro ve 1.5 Flash, ifadenin doğru mu yanlış mı olduğunu söylemek ve gerekçelerini açıklamak zorundaydı.

Resim Kredisi: UMass Amherst

Yaklaşık 260.000 kelime (~520 sayfa) uzunluğundaki bir kitap üzerinde test edilen araştırmacılar, 1.5 Pro’nun doğru/yanlış ifadelerini %46,7 oranında doğru yanıtladığını, Flash’ın ise yalnızca %20 oranında doğru yanıt verdiğini buldu. Bu, bir madeni paranın kitapla ilgili soruları yanıtlamada Google’ın en son makine öğrenme modelinden önemli ölçüde daha iyi olduğu anlamına geliyor. Tüm kıyaslama sonuçlarının ortalaması alındığında, hiçbir model soru yanıtlama doğruluğu açısından rastgele şanstan daha yüksek bir değere ulaşamadı.

Karpinska, “Modellerin, kitabın daha büyük bölümlerinin, hatta kitabın tamamının dikkate alınmasını gerektiren iddiaları doğrulamada, cümle düzeyinde kanıt alınarak çözülebilecek iddialara kıyasla daha fazla zorluk yaşadığını fark ettik” dedi. “Niteliksel olarak, modellerin, insan okuyucu için açık olan ancak metinde açıkça belirtilmeyen örtülü bilgilere ilişkin iddiaları doğrulamakta zorlandığını da gözlemledik.”

UC Santa Barbara’daki araştırmacıların ortak yazdığı iki çalışmadan ikincisi, Gemini 1.5 Flash’ın (ancak 1.5 Pro değil) videolar üzerinde “akıl yürütme” (yani, içindeki içerikle ilgili soruları arama ve yanıtlama) yeteneğini test etti. .

Ortak yazarlar, modelin resimlerde tasvir edilen nesneler hakkında yanıt vermesi için sorularla (örneğin, “Bu pastanın üzerinde hangi çizgi film karakteri var?”) eşleştirilen resimlerden (örneğin, bir doğum günü pastasının fotoğrafı) oluşan bir veri seti oluşturdular. Modelleri değerlendirmek için görüntülerden birini rastgele seçtiler ve slayt gösterisi benzeri görüntüler oluşturmak için önüne ve arkasına “dikkat dağıtıcı” görüntüler eklediler.

Flash o kadar da iyi performans göstermedi. Modelin 25 görüntüden oluşan bir “slayt gösterisinden” el yazısıyla yazılmış altı rakamı yazıya döktüğü bir testte Flash, çevirilerin yaklaşık %50’sini doğru yaptı. Doğruluk sekiz haneli olarak %30 civarına düştü.

UC Santa Barbara’da doktora öğrencisi ve çalışmanın ortak yazarlarından biri olan Michael Saxon, TechCrunch’a “Görüntüler üzerinden gerçek soru-cevap görevlerinde, test ettiğimiz tüm modeller için özellikle zor görünüyor” dedi. “Bu küçük miktardaki akıl yürütme – bir sayının bir çerçevede olduğunu fark etmek ve onu okumak – modeli bozan şey olabilir.”

Google Gemini ile aşırı vaatlerde bulunuyor

Çalışmaların hiçbiri hakem denetiminden geçmedi ve Gemini 1.5 Pro ve 1.5 Flash’ın 2 milyon token içerikli sürümlerini incelemiyorlar. (Her ikisi de 1 milyon token içerikli sürümleri test etti.) Ve Flash’ın performans açısından Pro kadar yetenekli olması beklenmiyor; Google bunu düşük maliyetli bir alternatif olarak tanıtıyor.

Bununla birlikte, ikisi de Google’ın Gemini ile başından beri aşırı vaatlerde bulunduğu ve yetersiz kaldığı ateşe benzin döküyor. Araştırmacıların test ettiği modellerin hiçbiri, OpenAI’nin GPT-4o ve Anthropic’in Claude 3.5 Sonnet’i dahil, iyi performans göstermedi. Ancak Google, reklamlarında bağlam penceresine en üst sırayı veren tek model sağlayıcısı.

Saxon, “Nesnel teknik ayrıntılara dayanarak ‘Modelimiz X sayıda token alabilir’ şeklindeki basit iddiada yanlış bir şey yok” dedi. “Ama soru şu ki, onunla ne gibi yararlı şeyler yapabilirsiniz?”

İşletmeler (ve yatırımcılar) teknolojinin sınırlamalarından dolayı hayal kırıklığına uğradıkça, genel olarak üretken yapay zeka giderek daha fazla inceleme altına alınıyor.

Boston Consulting Group’un yakın zamanda gerçekleştirdiği bir dizi ankette, katılımcıların yaklaşık yarısı (hepsi üst düzey yöneticiler) üretken yapay zekanın önemli üretkenlik kazanımları sağlamasını beklemediklerini ve üretken yapay zeka destekli araçlardan kaynaklanan hatalar ve veri ihlalleri konusunda endişe duyduklarını söyledi. PitchBook yakın zamanda rapor edildi En erken aşamalardaki üretken yapay zeka anlaşmalarının üst üste iki çeyrek boyunca azaldığı ve 2023’ün üçüncü çeyreğindeki zirve noktasına göre %76 oranında düşüş yaşandığı görülüyor.

İnsanlar hakkında kurgusal ayrıntılar ortaya çıkaran toplantı özetleyen sohbet robotları ve temelde intihal üreteçleri olan AI arama platformlarıyla karşı karşıya kalan müşteriler, umut vadeden farklılaştırıcılar peşinde. Üretken AI rakiplerine yetişmek için zaman zaman beceriksizce yarışan Google, Gemini’nin bağlamını bu farklılaştırıcılardan biri yapmak için can atıyordu.

Ama görünen o ki bu bahis erkendi.

Karpinska, “Uzun belgeler üzerinde ‘akıl yürütme’ veya ‘anlama’nın gerçekleştiğini gerçekten göstermenin bir yolunu henüz belirlemedik ve temelde bu modelleri yayınlayan her grup, bu iddiaları ortaya koymak için kendi özel değerlendirmelerini bir araya getiriyor,” dedi. “Bağlam işlemenin ne kadar uzun süre uygulandığı bilgisi olmadan – ve şirketler bu ayrıntıları paylaşmıyor – bu iddiaların ne kadar gerçekçi olduğunu söylemek zor.”

Google yorum talebine yanıt vermedi.

Hem Saxon hem de Karpinska, üretken AI etrafındaki abartılı iddialara karşı panzehirlerin daha iyi kıstaslar ve aynı şekilde üçüncü taraf eleştirilerine daha fazla vurgu olduğuna inanıyor. Saxon, uzun bağlam için daha yaygın testlerden birinin (Google’ın pazarlama materyallerinde bolca alıntılanan) “samanlıkta iğne arama”nın yalnızca bir modelin veri kümelerinden adlar ve numaralar gibi belirli bilgileri alma yeteneğini ölçtüğünü ve bu bilgilerle ilgili karmaşık soruları yanıtlamadığını belirtiyor.

Saxon, “Bu modelleri kullanan tüm bilim insanları ve mühendislerin çoğu, mevcut kıyaslama kültürümüzün bozuk olduğu konusunda temelde hemfikir,” dedi ve ekledi: “Bu nedenle, kamuoyunun ‘kıyaslamalar genelinde genel zeka’ gibi sayılar içeren bu devasa raporları büyük bir şüpheyle karşılaması önemlidir.”



genel-24