Yapay zekaya olan güven krizi: OpenAI, Yüksek Lisansların %60 oranında yanlış yanıtlar ürettiğini gösteriyor

Son güncelleme: 4 Kasım 2024 01:15

OpenAI, kendi ve rakip AI modellerinin çıktılarının doğruluğunu değerlendirmek için SimpleQA adı verilen yeni bir kıyaslama başlattı. Ancak test sonuçları, modern büyük dil modelleri (LLM’ler) tarafından oluşturulan bilgilerin güvenilirliğiyle ilgili ciddi sorunları ortaya çıkardı.

Yeni kıyaslamanın amacı, eğitim ve yazılım geliştirmeden sağlık hizmetlerine ve kolluk kuvvetlerine kadar hayatın çeşitli alanlarında giderek daha fazla kullanılan Yüksek Lisans Derecelerinin doğruluğu ve güvenilirliğinin objektif bir değerlendirmesini sağlamaktır. Ancak testler, OpenAI’den o1 ve Anthropic’ten Claude-3.5-sonnet gibi en gelişmiş modellerin bile sırasıyla %42,7 ve %28,9 gibi son derece düşük başarı oranları gösterdiğini gösterdi.

Kaynak: Michael Dwyer/AP

Sorunu daha da karmaşık hale getiren modeller, “yeteneklerini abartma” eğilimi gösteriyor ve “halüsinasyonlar” olarak bilinen tamamen saçma cevaplar üretiyor. Bu eğilim iyi bir şekilde belgelenmiştir ve özellikle sağlık ve kolluk kuvvetleri gibi hassas alanlarda ciddi sonuçlara yol açabilir. Örneğin, hastanelerde kullanılan ve OpenAI teknolojisi üzerine inşa edilen bir yapay zeka modelinin, hastalarla etkileşimleri yazıya geçirirken sık sık halüsinasyonlara ve yanlışlıklara sahip olduğu kaydedildi. ABD’deki polis de yapay zekayı kullanmaya başlıyor, bu da masum olduğuna dair asılsız suçlamalara veya önyargıların artmasına yol açabilir.

Uzmanlara göre SimpleQA testinin sonuçları, mevcut LLM’lerin ne yazık ki güvenilir bir şekilde gerçeği söyleme konusunda yetersiz olduğuna dair bir uyandırma çağrısıdır. Bir OpenAI sözcüsü, “Bu etkinlik, herhangi bir LLM’den gelen herhangi bir çıktının ihtiyatla karşılanması ve oluşturulan metni incelemeye hazır olunması gerektiğini hatırlatmalı” dedi.

AI alanındaki liderlerin iddia ettiği gibi, LLM geçerlilik sorununun daha da büyük eğitim setleriyle çözülüp çözülemeyeceği sorusu hala devam ediyor. Ancak bazı uzmanlara göre, üretilen bilgilerin daha yüksek doğruluğunu ve güvenilirliğini sağlayacak yapay zeka modellerinin geliştirilmesinde yeni yaklaşımların aranması gerekiyor. Bir yapay zeka araştırmacısı, “Yalnızca makul yanıtlar üretebilecek değil, aynı zamanda bunları değerlendirebilecek ve gerçeklikten emin olmadıklarında yanıtları reddedebilecek modeller geliştirmeye odaklanmalıyız” dedi.

SimpleQA kıyaslaması üzerinde yapılan testlerin sonuçları, üretilen bilgilerin güvenilirliğini ve geçerliliğini sağlamak ve yüksek öğrenimin yaşamın çeşitli alanlarında kullanılmasının olası olumsuz sonuçlarını önlemek için yapay zeka alanında daha fazla araştırma ve geliştirmeye duyulan ihtiyacı vurgulamaktadır.

genel-22

ETİKETLENDİ:antropik Gösteriyor Güven krizi L.L.M.lisansların olan OpenAI oranında ürettiğini yanıtlar yanlış Yapay yapay zeka Yüksek zekaya

Bu Makaleyi Paylaş

Önceki Makale

Hızlı davranın! Apple’ın 9. Nesil iPad’i Kara Cuma öncesinde 200 dolara düştü

Sonraki Makale Amazon’da %40 İndirimle Bu Roomba Robot Elektrikli Süpürge AirPod’lardan Daha Ucuz ve Ömür Boyu Dayanacak

Yapay zekaya olan güven krizi: OpenAI, Yüksek Lisansların %60 oranında yanlış yanıtlar ürettiğini gösteriyor

Sanal Medya

Son Eklenenler

Sevilebilir şekilde bağlanan ters çevrilebilir fanlar ve yenilikçi AIO

Ninja Theory’nin Cesur Korku Projesi Senua Üzerine Yoğunlaşıyor

Microsoft’un Açık Kaynak Araçları AI Geliştiricilerin Şifrelerini Çaldı

Apple Cihazlarınızda Kaçırdığınız 44 Yeni Özellik

Femboy Kodlarıyla Oyun Deneyimini Yeniden Şekillendirin

Uzaktan Çalışmanın Zihinsel Sağlığa Etkisi İyi mi Kötü mü?

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer