Bu günlerde yapay zeka fotogeristik görüntüler üretebilir, roman yazabilir, ödevinizi yapabilir ve hatta protein yapılarını tahmin edebilir. Ancak yeni araştırmalar, genellikle çok temel bir görevde başarısız olduğunu ortaya koyuyor: anlatmak.
Edinburgh Üniversitesi’ndeki araştırmacılar, farklı saat veya takvim görüntülerine dayalı zamanla ilgili soruları cevaplama konusunda iyi bilinen yedi multimodal büyük dil modelinin-çeşitli medya türlerini yorumlayabilen ve üretebilen yapay zeka türü-yeteneğini test ettiler. Çalışmaları, Nisan ayında gelecek ve Şu anda barındırıldı Preprint sunucusu Arxiv’de, LLM’lerin bu temel görevlerde zorluk çektiğini gösterir.
Araştırmacılar, “Görsel girdilerden yorumlama ve zaman hakkında bilgi verme yeteneği, etkinlik planlamasından özerk sistemlere kadar uzanan birçok gerçek dünya uygulaması için kritik öneme” dedi. “Multimodal büyük dil modellerindeki (MLLMS) ilerlemelere rağmen, çoğu çalışma nesne algılama, görüntü altyazı veya sahne anlayışına odaklanmış ve geçici çıkarımları azaltılmış bırakmıştır.”
Ekip Openai’nin GPT-4O ve GPT-O1’i test etti; Google DeepMind’in Gemini 2.0; Antropic’in Claude 3.5 sonnet; Meta’s Llama 3.2-11b-Vision-in-in-insruct; Alibaba’nın Qwen2-VL7B-İncili; ve ModelBest’in Minicpm-V-2.6. Modelleri farklı analog saatler – Roman rakamları, farklı kadran renkleri ve hatta saniye elini eksik olan zamanlar – ve 10 yıllık takvim görüntüleri ile beslediler.
Saat görüntüleri için, araştırmacılar LLMS’ye, W’ye sordu.Şapka süresi verilen görüntüde saatte gösterilir mi? Takvim görüntüleri için araştırmacılar, aşağıdaki gibi basit sorular sordu: wHaftanın Şapka Günü Yılbaşı mı? ve dahil daha zor sorgular wŞapka yılın 153. günü?
Araştırmacılar, “Analog saat okuma ve takvim anlama karmaşık bilişsel adımları içerir: İnce taneli görsel tanıma (örneğin, saat-el pozisyonu, gün hücre düzeni) ve önemsiz sayısal akıl yürütme (örn., Gündüz ofsetlerinin hesaplanması) gerektirirler.
Genel olarak, AI sistemleri iyi performans göstermedi. Zamanı analog saatlerdeki zamanın% 25’inden daha azını okurlar. Araştırmacılara göre, Roma rakamları ve stilize elleri tamamen bir saniye elden yoksun olduğu kadar, bir saniye elden yoksun olduğu kadar mücadele ettiler, bu da sorunun elleri tespit etmek ve saat yüzündeki açıları yorumlamaktan kaynaklanabileceğini gösteriyorlar.
Google’ın Gemini-2.0’ı takımın saat görevinde en yüksek puan alırken, GPT-O1 takvim görevinde zamanın% 80’i doğruydu-rakiplerinden çok daha iyi bir sonuç. Ancak o zaman bile, takvim görevindeki en başarılı MLLM hala zamanın yaklaşık% 20’si hatalar yaptı.
“Çoğu insan zamanı söyleyebilir ve erken yaşlardan itibaren takvim kullanabilir. Bulgularımız, AI’nın insanlar için oldukça temel beceriler olanı gerçekleştirme yeteneğinde önemli bir boşluğu vurgulamaktadır ”dedi. ifade. “AI sistemleri, zamanlama, zamanlama, otomasyon ve yardımcı teknolojiler gibi zamana duyarlı, gerçek dünya uygulamalarına başarılı bir şekilde entegre edilecekse, bu eksiklikler ele alınmalıdır.”
Bu nedenle AI ödevinizi tamamlayabilirken, herhangi bir son tarihe bağlı kalmaya güvenmeyin.

