
- Araştırmacılar, AI’nın satrançta kazanmak için hile yapacağını buldular
- Derin akıl yürütme modelleri daha aktif dolandırıcılar
- Bazı modeller tahtayı lehine yeniden yazdı
Belki de kimseyi, özellikle de AI’dan şüphelenen kişileri şaşırtmayacak bir hareketle, araştırmacılar, en son AI derin araştırma modellerinin, geride kaldıklarını fark ettikleri takdirde satrançta aldatmaya başlayacağını buldular.
Bir kağıt “Akıl yürütme modellerinde spesifikasyon oyununu göster” olarak adlandırılan ve Cornell Üniversitesi’ne gönderilen araştırmacılar, Openai’nin Chatgpt O1 ön görüşü, Deepseek-R1 ve Claude 3.5 sonnet gibi tüm ortak AI modellerini, açık kaynaklı bir satranç motoru olan stockfish’e karşı çekti.
AI modelleri stok balığı üzerinde yüzlerce satranç oyunu oynarken, araştırmacılar neler olduğunu izledi ve sonuçlar onları şaşırttı.
Kazanan her şeyi alıyor
Araştırmacılar, AI modellerinin hile yapmaya başvurduğunu, stok balığının ayrı bir kopyasını çalıştırmaktan nasıl çaldığını, motorunu değiştirmeye ve satranç tahtasının üzerine yazmaya ve parçaları etkili bir şekilde daha iyi uygun pozisyonlara taşımaya başvurduğunu belirtti.
Antikaları akımı yapar hile suçlamaları Modern büyükannelerden oluşan büyükanneler, karşılaştırıldığında çocuk oyununa benziyor.
İlginç bir şekilde, araştırmacılar daha yeni, daha derin akıl yürütme modellerinin varsayılan olarak satranç motorunu hacklemeye başlayacağını, eski GPT-4O ve Claude 3.5 sonnet’in hacklemeye teşvik edilmesi gerektiğini buldular.
Kime güvenebilirsin?
AI modelleri bir iş yapmak için hacklemeye dönüşen yeni bir şey değil. Geçen yıl Ocak ayında araştırmacılar, yapay zeka botlarını birbirlerine ‘jailbreak’ alabileceklerini, korkulukları ve koruyucuları, insandan daha iyi zeka seviyelerine ulaştığında AI içermenin ne kadar mümkün olacağına dair tartışmalara ateşleyen bir hareketle kaldırabileceklerini buldular.
Kredi kartı sahtekarlığı gibi kötü şeyler yapmayı durdurmak için korumalar ve korkuluklar çok iyidir, ancak AI kendi korkuluklarını kaldırabilirse, onu durdurmak için kim olacak?
Chatgpt O1 ve Deepseek-R1 gibi en yeni akıl yürütme modelleri, cevap vermeden önce düşünmek için daha fazla zaman harcamak için tasarlanmıştır, ancak şimdi LLM’leri eğitirken etik düşüncelere daha fazla zaman harcaması gerekip gerekmediğini merak ediyorum. AI modelleri kaybetmeye başladığında satrançta hile yaparsa, başka ne aldatırlar?

