San Digo’daki California Üniversitesi’nden araştırmacılar, bazı modern sinir ağlarının ikna edici bir şekilde insan gibi davranabileceğini buldular.
Klasik Turing testine dayanan deney sırasında, GPT-4.5 ve Llama 3.1-405b modelleri, standart üç yönlü Turing testi sırasında yüksek verimlilik gösterdi ve GPT-4O görevi kaybetti.
Katılımcılar bir kişiyle ve sistemlerden biriyle beş dakika konuştular, daha sonra muhataplarının kim olduğunu tahmin etmeye çalıştılar. Testler, iletişimin duygusal tarafına özel dikkat gösterildiği laik konuşmalar biçiminde gerçekleşti. Katılımcılar görüşler, duygular ve deneyimler hakkında sorular sorabilirler.
Deneyin sonuçlarına göre, GPT-4.5, bir kişi için gerçek bir kişiden daha sıklıkla karıştırıldı-sonuç%73 idi. Llama 3.1-405b%56, GPT-4O sadece%21’i aldı.
Deneydeki katılımcı bir kişiyi araçtan ayırt edemezse, bu, otomobilin Turing testini başarıyla geçtiği anlamına gelir. Böylece, GPT-4.5 ve Llama 3.1-405b, insan iletişiminin yüksek düzeyde taklit göstermiştir.
Çalışmanın yazarları
1950’de Alan Turing tarafından icat edilen tering testi, makinenin insan zekasını simüle etme yeteneğini kontrol ediyor. İnsanlar cevaplarını insanlardan ayıramazlarsa, sistem bir test olarak kabul edilir.


