Yapay zeka, podcast kodlama veya oluşturma gibi belirli görevlerde başarılı olabilir. Ancak yeni bir makale, üst düzey bir tarih sınavını geçmekte zorlandığını ortaya çıkardı.
Bir araştırmacı ekibi, en iyi üç büyük dil modelini (LLM) (OpenAI’nin GPT-4’ü, Meta’nın Llama’sı ve Google’ın Gemini’si) tarihsel sorular üzerinde test etmek için yeni bir kıyaslama oluşturdu. Kriter olan Hist-LLM, eski Mısır bilgelik tanrıçasının adını taşıyan geniş bir tarihsel bilgi veritabanı olan Seshat Küresel Tarih Veri Bankası’na göre cevapların doğruluğunu test ediyor.
Sonuçlar, sunuldu Araştırma ekibine bağlı araştırmacılara göre geçen ay yüksek profilli NeurIPS konferansında yapılan deneyler hayal kırıklığı yarattı. Karmaşıklık Bilimi Merkezi (CSH), Avusturya merkezli bir araştırma enstitüsü. En iyi performansı gösteren Yüksek Lisans GPT-4 Turbo’ydu, ancak yalnızca %46 civarında doğruluk elde etti; bu da rastgele tahminden çok da yüksek değil.
“Bu çalışmadan çıkan ana sonuç, yüksek lisans eğitimlerinin etkileyici olmasına rağmen ileri tarih için gerekli anlayış derinliğine hâlâ sahip olmadığıdır. Temel gerçekler açısından harikalar, ancak daha incelikli, doktora düzeyindeki tarihsel araştırmalar söz konusu olduğunda henüz göreve hazır değiller” dedi makalenin ortak yazarlarından biri ve araştırma ortağı Maria del Rio-Chanona. University College London’da bilgisayar bilimi profesörü.
Araştırmacılar, yüksek lisans öğrencilerinin yanlış anladığı örnek tarihsel soruları TechCrunch ile paylaştı. Örneğin GPT-4 Turbo’ya eski Mısır’da belirli bir dönemde pullu zırhın mevcut olup olmadığı soruldu. LLM evet dedi ama teknoloji Mısır’da ancak 1500 yıl sonra ortaya çıktı.
Yüksek Lisans’lar kodlama gibi şeylerle ilgili çok karmaşık soruları yanıtlamada bu kadar iyi olabildikleri halde teknik tarihsel soruları yanıtlamada neden kötüler? Del Rio-Chanona, TechCrunch’a bunun büyük olasılıkla Yüksek Lisans’ların çok belirgin olan tarihsel verilerden çıkarım yapma eğiliminde olmasından ve daha belirsiz tarihsel bilgilere ulaşmanın zor olmasından kaynaklandığını söyledi.
Örneğin araştırmacılar GPT-4’e eski Mısır’ın belirli bir tarihsel dönemde profesyonel bir düzenli orduya sahip olup olmadığını sordu. Doğru cevap hayır olsa da LLM yanlış cevap verdi. Bunun nedeni muhtemelen Persler gibi diğer antik imparatorlukların daimi orduları olduğuna dair pek çok kamuya açık bilginin bulunmasıdır.
Del Rio-Chanona, “Eğer A ve B’ye 100 kez, C’ye ise 1 kez söylenirseniz ve ardından C hakkında bir soru sorulursa, yalnızca A ve B’yi hatırlayabilir ve bundan çıkarımda bulunmaya çalışabilirsiniz” dedi.
Araştırmacılar ayrıca OpenAI ve Llama modellerinin Sahra altı Afrika gibi belirli bölgelerde daha kötü performans göstermesi de dahil olmak üzere başka eğilimleri de belirlediler ve bu da eğitim verilerinde potansiyel önyargılara işaret etti.
Araştırmayı yöneten ve CSH’de öğretim üyesi olan Peter Turchin, sonuçların yüksek lisans eğitimlerinin belirli alanlarda hala insanların yerini alamayacağını gösterdiğini söyledi.
Ancak araştırmacılar yüksek lisans eğitimlerinin gelecekte tarihçilere yardımcı olabileceği konusunda hâlâ umutlu. Yeterince temsil edilmeyen bölgelerden daha fazla veri dahil ederek ve daha karmaşık sorular ekleyerek kıyaslamalarını geliştirmeye çalışıyorlar.
Makalede şöyle yazıyor: “Genel olarak, sonuçlarımız Yüksek Lisans’ın iyileştirilmesi gereken alanları vurgularken, aynı zamanda bu modellerin tarihsel araştırmalara yardımcı olma potansiyelinin de altını çiziyor.”

