- BBC’den yeni bir çalışma, AI Chatbots’un haberleri doğru bir şekilde özetleyemediğini söylüyor
- Çalışma, BBC News makalelerini özetlemek için Chatgpt, Gemini, Copilot ve şaşkınlık sordu
- Yanıtların% 51’inde ‘önemli sorunlar’ vardı ve% 19’u olgusal hatalar getirdi
Yeni bir BBC’den çalışma Chatgpt dahil olmak üzere dünyanın en popüler AI chatbotlarından dördünün haber hikayelerini yanlış özetlediğini buldu.
BBC, Chatgpt, Copilot, İkizler ve şaşkınlık istedi ve haber çıkışından 100 haber hikayesini özetlemek için ve daha sonra AI yanıtlarının ne kadar doğru olduğunu belirlemek için her cevabı derecelendirdi.
Çalışma, “Haberlerle ilgili soruların tüm yapay zekalarının% 51’inin önemli bir şekilde önemli konulara sahip olduğu düşünüldü.” ve “BBC içeriğine atıfta bulunan AI cevaplarının% 19’u yanlış gerçek ifadeler, sayılar ve tarihler gibi olgusal hatalar getirdi.”
Çalışma, özetlediği haberlere farklı bilgileri sergileyen birçok yanlışlık örneği sergilemektedir. Örnekler, “Gemini yanlış bir şekilde NHS’nin sigarayı bırakmaya yardım olarak vaping önermediğini söyledi” ve “Chatgpt ve Copilot, Rishi Sunak ve Nicola Sturgeon’un ayrıldıktan sonra bile hala ofiste olduğunu söyledi.”
Yanlışlıklar bir yana, başka bir önemli bulgu daha var. Raporda, AI’nın “görüş ve gerçek arasında ayrım yapmak, editorize olmuş ve genellikle temel bağlamı içeremediği” bulundu.
Bu sonuçlar, Apple’ın iOS 18.3’teki özelliği geçici olarak kaldırmasına yol açan Apple Intelligence’ın karışımları da dahil olmak üzere şu anda haber özetleme araçlarıyla ilgili sorunları ne sıklıkta gördüğümüzü düşünürken, AI’dan okuduğunuz her şeye inanmamak iyi bir hatırlatıcıdır. .
Şaşırdın mı?
Çalışmadan BBC, “Microsoft’un Copilot ve Google’ın İkizleri Openai’nin Chatgpt ve şaşkınlığından daha önemli sorunları yaşadığı” sonucuna varıyor.
Bu araştırma bize mutlaka daha fazla bilgi vermese de, AI özet araçlarına karşı şüpheciliği doğrular ve AI chatbots’tan bir tutam tuzla bilgi almanın ne kadar önemli olduğunu vurgular. AI hızla gelişiyor ve büyük dil modelleri (LLM’ler) şu anda neredeyse haftalık olarak piyasaya sürülüyor, bu yüzden hataların olması bekleniyor. Bununla birlikte, kişisel testlerimden yanlışlıklar ve halüsinasyonların şimdi chatgpt gibi yazılımlarda birkaç ay öncesine göre daha az sık olduğunu buldum.
Sam Altman dün bir blog yazısında AI’nın Moore yasasından daha hızlı ilerlediğini ve bu da yazılımdaki sürekli iyileştirmeleri ve etrafındaki dünyayla nasıl etkileşime girdiğini görmeye devam edeceğimiz anlamına geliyor. Ancak şimdilik, günlük haberleriniz için AI’ya güvenmemek muhtemelen en iyisidir ve eğer teknoloji tabanlı ise Techradar’a bağlı kalabilirsiniz.


