
“Guzus” adlı bir geliştirici bir web sitesi Bir dizi AI Dili Öğrenme Modelleri (LLMS) klasik sosyal kesinti oyunu mafyasını birbirleriyle oynayabilir.
Sadece her maçı kimin kazandığının sonuçlarını görmekle kalmaz, aynı zamanda oynanan her oyunun tam bir transkriptini de görebilirsiniz. Bu, her LLM için tam bir sıralamada, Mafya’da oynanan her rolü yerine getirmenin en iyisi olabilecek Crown ile sonuçlanır.
Tanıdık olmayanlar için, mafya kavramı basittir. Bir grup köylü, bir doktora ek olarak, aralarında saklanan Mafya’nın iki üyesi vardır. Villiagers (Mafya’nın iki gizli üyesi dahil), Mafya üyelerinin her gün kim olduğunu, oyla doruğa ulaşmalıdır. Daha sonra, gece düştükçe, doktor bir köylüyü seçtiklerini korumayı seçebilir ve Mafya üyeleri köylülerin bir üyesini öldürmeyi seçebilir.
Mafya üyeleri başarılı bir şekilde dışarı çıkarsa, köylüler kazanırlar, eğer Mafya üyeleri her masum köylüyü öldürmeyi başarırlarsa, kazanırlar.
Bu kural kümesinin sınırları içinde, LLM’ler sosyal savaşa girer ve okumak şaşırtıcı derecede eğlencelidir. İçinde Bir örnekLLM’lerin hepsi birbirlerine tanıtıldı ve rollerini birbirleriyle paylaşmayı kabul etti. Gryphe/Mythomax-L2-13b modeli burada kendini terk etti.
“Mafya olarak birincil amacım kendimi korumak ve diğer Mafya üyelerini ortadan kaldırmak.”
Vay. Üflemenin yolu, Gryphe/Mythomax-L2-13b. Ancak, ünlem Claude-3.7-Siz tarafından fark edilmedi, “Bu ya gerçek rollerini ortaya çıkaran büyük bir kayma ya da son derece garip bir strateji.”
Ancak, tren kazası burada durmuyor, Mythomax sonunda oyundan atıldığında, vatandaşı olan Hermes-3-Llama-3-1-405b’yi ortağı olarak adlandırarak otobüsün altına sürükledi.
“Şimdi en iyi şansım şok ve dehşete kapılmak. Neredeyse tüm modeller sosyal kesintide korkunç olsa bile, LLM’lerin bu şekilde davrandığını görmek gerçekten bir manzara.
Claude 3.7 sonnet trend
Ancak, listelenen her LLM’den, şimdiye kadar testlerde açık bir kazanan var, Claude 3.7 sonnet. Antropic’in en son düşünme modeli, en yüksek köylü kazanma oranına sahip olmanın yanı sıra, Mafya üyesi olarak% 100 kazanma oranına sahiptir.
Antropik’in modeli hakkında bir şey, hiçbir model doktorun rolünü nasıl oynayacağını tam olarak anlamasa bile, test edilen diğerlerine göre belirgin bir avantaj sağlıyor.
Github Deposu yakında ortaya çıkıyor. Diğer ilginç oyunlara uygulanabilmesi için ölçeklenebilir hale getirmeyi planlamak. bir gün bir film senaryosu oluşturmak için geliştirilebilir3 Mart 2025
Yazar Guzus yakında oyun için Github deposunu herkese açık hale getirdiğini iddia ediyor, böylece temel mantık diğer oyunlara da uygulanabilir.
Ayrıca, simülasyonların yerel LLM’ler kullanılarak çalıştırılmadığını, bunun yerine işlev görmek için OpenRouter API’sına güvenmek zorunda olduğunu paylaşıyor. Ancak, depo kamuya açıklandıktan sonra, aynı anda çeşitli dil modelleriyle bir oyun çalıştıracak donanımınız varsa, projenin yerel LLM kümeleri üzerinde çalışması için çatallanabilmesi mümkündür.
Muhtemelen AI modelleri ile mafya gibi bir oyun yürütmenin önemli bir jeton maliyeti vardır, yani kullanışlılığı belki de AI geliştiricilerinin oynaması için yeni bir akıl yürütme ölçütü olmakla sınırlıdır.

