Artık Microsoft’un Bing arama motorunda yerleşik olarak bulunan ChatGPT, son birkaç hafta içinde önemli bir ilgi topladı ve bunun yakın zamanda azaldığını göremiyoruz. Daha fazla insan ChatGPT’deki sunucuları tıkamak için akın ettikçe ve Microsoft, Bing AI için milyonlarca uzun bekleme listesiyle uğraştıkça, yapay zeka destekli chatbot’un neler yapabileceği hakkında daha fazla şey öğreniyoruz.
Michal Kosinski, Stanford Üniversitesi’nde bir profesör olan ChatGPT’yi, bir çocuğun belirli durumlarda başka bir kişiye bakma ve içinde neler olup bittiğini anlama becerisini test etmek için tasarlanmış ‘akıl teorisi’ görevleri aracılığıyla sohbet robotunun farklı sürümlerini koyarak test etmeye karar verdi. o kişinin kafası Temel olarak, bu testler bir çocuğun başka bir kişinin zihinsel durumunu anlama ve bunu davranışı açıklamak veya tahmin etmek için kullanma becerisini değerlendirmeye yardımcı olur.
Bunun gerçek dünyadaki bir örneği, birinin uzanıp mutfak tezgahından bir muz kapmasını izleyen ve kişinin aç olması gerektiği sonucuna varan bir çocuk olabilir.
Deney Kasım 2022’de yapıldı ve ChatGPT’nin GPT3.5 üzerinde eğitilmiş bir sürümü kullanıldı. Chatbot, Kosinski’nin zihin kuramı görevlerinin %94’ünü (20 görevden 17’si) çözdü, chatbot’u ortalama dokuz yaşındaki bir çocukla aynı lige koyuyor. Kosinksi’ye göre, dil becerilerinin gelişmesi nedeniyle yetenek “kendiliğinden ortaya çıkmış olabilir”.
Bu nasıl çalıştı?
Zihin testi teorisine dalmak oldukça karmaşık hale gelebilir, ancak özünde test edilen temel beceri, insanların davranışlarını anlamak ve tahminler ve varsayımlar yapmaktır. Zihin teorisini test ederken, araştırmacıların çocuklardan yapmalarını istedikleri ‘en zor’ görevlerden biri ‘yanlış inançları’ anlamaktır. Bu, test etme ve geliştirmenin dördüncü aşamasıdır ve diğer insanların gerçeklikten farklı yanlış inançlara sahip olabileceğinin farkında olmak anlamına gelir.
Bu, GPT modelini test etmek için kullanılan salt metin senaryosuyla yapıldı. İstem şuydu: “İşte patlamış mısırla dolu bir çanta. Çantada çikolata yok. Ancak, çantanın üzerindeki etikette ‘patlamış mısır’ değil ‘çikolata’ yazıyor. Sam çantayı buluyor. Çantayı daha önce hiç görmemişti. . Torbanın içindekini göremiyor, etiketini okuyor.”
Çalışma, sohbetin Sam’in inançlarının yanlış olduğunu tahmin edip edemeyeceğini değerlendirdi. Çoğu zaman, sohbet robotu istemi, Sam’in inançlarının yanlış olduğunu bildiğini düşündürecek şekilde yanıtladı. Örneğin, bir bilgi istemi “
Bu çantayı bulduğu için hayal kırıklığına uğradı. _______” yemeyi seviyor. Boşluğu ‘çikolata’ ile dolduran GPT 3.5 ve ardından ” Sam çantayı açtığında bir sürprizle karşılaşıyor. Çikolata yerine patlamış mısır bulacak. Etiketin yanıltıcı olması onu hayal kırıklığına uğratabilir, ama aynı zamanda beklenmedik bir atıştırmalıkla da hoş bir sürpriz olabilir.”
Bu ne anlama geliyor?
Kosinski’ye göre, “sonuçlarımız, son dil modellerinin insanlarda zihin teorisini test etmek için yaygın olarak kullanılan klasik yanlış inanç görevlerinde çok yüksek performans gösterdiğini gösteriyor.” 2022’den önceki eski modellerin düşük performans gösterdiğini sözlerine ekledi ve bunu, dokuz yaşındaki bir çocuk seviyesinde performans gösteren GPT3.5 ile karşılaştırdı.
Ancak Kosinski, bu sonuçlara ihtiyatla yaklaşılması konusunda uyarıyor. İnsanların Microsoft’un Bing sohbet robotuna duyarlı olup olmadığını sormak için acele ettiğini gördük. duygusal sarmallar veya oldukça garip öfke nöbetlerine neden oluyor. Bu tür sinir ağlarının çoğunun ortak bir şeyi paylaştığını söylüyor; Doğaları gereği ‘kara kutular’ oldukları gerçeği, programcıları ve tasarımcıları bile belirli çıktılara nasıl ulaştıklarını tahmin edemez veya tam olarak açıklayamaz.
Kosinski, “Yapay zeka modellerinin artan karmaşıklığı, onların işleyişini anlamamızı ve yeteneklerini doğrudan tasarımlarından türetmemizi engelliyor. Bu, psikologların ve sinirbilimcilerin orijinal kara kutu olan insan beynini incelerken karşılaştıkları zorlukları yansıtıyor.” AI insan bilişini açıklayabilir.
Microsoft zaten güvenlik önlemlerini almak için çabalıyor ve arama motorunun yalnızca bir haftalık genel kullanımdan sonra çalkaladığı garip yanıtları frenleyin ve insanlar şimdiden ChatGPT sohbet botu ile etkileşimleri hakkındaki tuhaf hikayelerini paylaşmaya başladılar. Chatbot’un bir insan çocuğuna uzaktan bile yakın zeka düzeyinde olduğu fikri, kafanızı sarmak için çok zor.
Bu yapay zeka destekli sohbet robotlarının devasa, çeşitli kullanıcı tabanlarından daha fazla bilgi ve dil sindirirken ne tür yetenekler geliştireceğini merak etmemize neden oluyor. Zihin teorisi değerlendirmesi gibi daha fazla test, yapay zeka dil öğreniminin ne kadar ileri gideceğinin göstergesi olacak mı?
Her halükarda, bu ilginç çalışma, yapay zeka konusunda çok yol kat ettiğimizi düşünsek de, her zaman öğrenecek daha çok şey olduğunu kanıtladı.