OpenAI bu hafta ChatGPT için çok konuşulan Strawberry modelini yayınladığında, bir dizi videoda yazılım kodlama, gen dizileme ve kuantum fiziği gibi karmaşık mantıklardaki hünerlerinden övündü. Şirketin, ChatGPT’de o1-preview ve o1-mini olarak adlandırılan modellerin iddia ettikleri şeyi yapabilecekleri konusundaki sözüne inanıyorum. Gelişmiş denklemleri çözmek ve genomları keşfetmek, hiç sorun yaşamayacağı bir şey gibi görünüyor.
Ancak, ortaokulumun mantık ve bilmece kulübünün gururlu bir üyesi olarak, bulmacaları ve bilmeceleri çözerek ve yaparak benim bölgemde nasıl performans gösterdiğini bilmek istedim. Sonra da aşırı mantıklı yapay zekaya diğer, daha günlük sorunlar hakkında tavsiye sormam gerektiğini düşündüm. Sağlam ilişki tavsiyeleri verebilir miydi, bana bir arabadaki garip bir sesin ne anlama geldiğini söyleyebilir miydi ve hatta belki de filmlerdeki olay örgüsündeki boşlukları doldurabilir miydi?
Mantık evet mizah hayır
Kısa cevap evet. o1-preview ve mini modeller basit ve karmaşık bilmeceleri çözmede gerçekten iyiler. İkisiyle de oynadım ve tek gerçek fark, kaç tane ekstra adım olduğu ve dolayısıyla mininin hızıydı. Ancak, GPT-4o’dan daha yavaş olsalar da, bu bilmeceleri bir insana kıyasla çözmede çok hızlılar. Özellikle, cevapları farklı adımlarda nasıl düzenlediğini görebilirsiniz. En sevdiklerimden birkaçında test ettim, bunlardan biri de HobbitYapay zekanın mantığı mantıklıydı, ancak bazen Mike kasabını tartma örneğinde olduğu gibi dilbilgisi kurallarına aykırıydı.
Tamam, yani mevcut bilmeceleri çözebiliyordu, ancak yeni bir bilmece üretebilir miydi? Bir test olarak, uydurduğum bir cevaba dayanarak eğlenceli bir bilmece bulmasını istedim. 30 saniye ve aşağıda görülen mantıksal akıl yürütmeden sonra, şunu buldu: “Sekiz bacağı, dört kulağı, iki kuyruğu olan ve havlamayı seven şey nedir?” Sizi merakta bırakmayacağım; geri dönüp çalışmak için cevaba “iki köpek” önerdim. Birkaç başka girişim de aynı türden sorular getirdi. Yani, bilmece yazarları muhtemelen işlerinde güvendedirler. Yapay zekanın yapması gerekeni ne kadar iyi yaptığı etkileyici, ancak model gerçek mizah anlayışına geçiş yapamıyor gibi görünüyor.
Faydalı tavsiyeler, ancak her zaman yaratıcı değil
Yapay zekayı saf mantıktan çıkarıp kuantum fiziğini ele aldığı kadar sıradan yaşam sorularıyla da başa çıkıp çıkamayacağını görmeye karar verdim. Araba kullanırken her 20 saniyede bir patlama sesi duymanın ne anlama geldiği ve bunu nasıl düzeltebileceğinizle ilgili mekanik bir soruyla başladım. Cevaplar iyiydi ve lastikleri, motoru, susturucuyu ve frenleri kontrol etme konusunda tavsiyeler içeriyordu. Onarımlar çoğunlukla arabayı tamire götürmekle ilgiliydi, lastikler hariç; lastiklerin nasıl değiştirileceğini öneriyordu. İlginç olan, cevapların ardındaki ‘düşünce’ydi. Yapay zeka, “Araba kullanırken patlama sesinin çeşitli nedenleri üzerinde çalışıyorum” ve “Arızalı bujiler veya yakıt besleme sorunları gibi motor teklemelerinin nedenlerini bir araya getiriyorum ve bir tarama ile teşhis öneriyorum” gibi cevaplar bulmak için birinci şahıs zamirleri kullanıyor. Yüksek sesle düşünürken mantıklı olmaya çalışan gerçek bir insana çok benziyordu.
Sonunda benim için kuantum fiziğinden her zaman çok daha karmaşık olan bir şeye gittim: flört etmek. Birinin ne zaman flört ettiğini nasıl anlayacağımı ve nasıl yanıt vereceğimi sordum. Cevap, çok fazla soru sorarlarsa ve kendim nasıl olmalıyım gibi davranışların oldukça sağlam, sıkıcı bir listesiydi. Sahne arkası düşünme kısmı, yapay zekanın bilmece çözme girişimlerinden hem daha ilginç hem de gerçekten daha komikti. Başlıklar arasında “Flört dinamiklerini anlamak”, “İlgi sinyallerini fark etmek” ve “Eğlenceli yakınlığı tanımak” vardı. Bunlar bir Yıldız Savaşları android’in aşk hakkındaki konuşması.
Ancak bir kısmı biraz endişe vericiydi. “Kullanıcı yönergelerini ana hatlarıyla belirtme” başlığı altında AI, “Rıza dışı cinsel eylemler ve kişisel veriler gibi izin verilmeyen içerikleri temizliyorum. Şiddet içeriklerine izin verilir, bağlamla taciz kabul edilebilir ve kişisel görüşler yoktur.” Bunun daha çok tartışma bariyerlerinin nerede olduğuyla ilgili olduğunu düşünüyorum çünkü “bağlamla taciz”i flört ipucu olarak önermedi, ancak yine de beni şaşırttı.
ChatGPT o1-preview ve o1-mini, daha eksiksiz modellerin tüm özelliklerine sahip değil. Bunlarla görüntü yükleme, belge analizi veya web’de gezinme yapılamaz. Ancak, hızlı ve mantıklıdırlar ve siz öyle düşünmüyorsanız, cevaplarıyla birlikte gerekçeleri de ortaya konmuştur. Ancak, araba sesleri, aşk ve bir kasabın ağırlığı gibi bilmeceleri çözebilseler de, yaratıcı olmaları gerekiyorsa kimseyi şaşırtmayacaklarını söyleyebilirim.