OpenAI, 2022’de konuşmayı metne dönüştürebilen Whisper adlı bir yapay zeka (AI) aracını piyasaya sürdü. Ancak bir rapor, AI aracının halüsinasyonlara eğilimli olduğunu ve transkripsiyonlara hayali metinler eklediğini iddia etti. Aracın tıp ve erişilebilirlik gibi birçok yüksek riskli endüstride kullanıldığı söylendiğinden bu durum endişe vericidir. Bildirildiğine göre, halüsinasyonun potansiyel olarak zararlı bilgiler ekleyebileceği ve hastanın hayatını riske atabileceği doktor-hasta konsültasyonlarında bu aracın kullanımından kaynaklanan özel bir endişe var.
OpenAI Whisper’ın Halüsinasyonlara Eğilimli Olduğu Bildirildi
Associated Press rapor edildi OpenAI’nin otomatik konuşma tanıma (ASR) sistemi Whisper’ın halüsinasyonlu metin üretme potansiyeli yüksek. Çok sayıda yazılım mühendisi, geliştirici ve akademik araştırmacıyla yapılan röportajlara atıfta bulunan yayın, hayali metnin ırksal açıklamalar, şiddet, tıbbi tedaviler ve ilaçlar içerdiğini iddia etti.
Yapay zekanın tabiriyle halüsinasyon, yapay zeka sistemlerinin yanlış veya yanıltıcı yanıtlar üretmesine neden olan önemli bir sorundur. Whisper örneğinde yapay zekanın daha önce hiç kimse tarafından söylenmemiş bir metin icat ettiği söyleniyor.
Yayın tarafından doğrulanan bir örnekte konuşmacının şu cümlesi yer alıyor: “O çocuk şemsiyeyi alacaktı, tam olarak emin değilim.” “Haçtan büyük bir parça aldı, ufacık, küçük bir parça… Eminim terör bıçağı yoktu bu yüzden birçok insanı öldürmüştür.” Başka bir örnekte, Whisper’ın ırksal bilgileri hiç bahsetmeden eklediği bildirildi.
Halüsinasyon yapay zeka alanında yeni bir sorun olmasa da, bu özel aracın sorunu, açık kaynak teknolojisinin yüksek riskli endüstrilerde kullanılan çeşitli araçlar tarafından kullanılması nedeniyle daha etkilidir. Örneğin Paris merkezli Nabla, 30.000’den fazla klinisyen ve 40 sağlık sistemi tarafından kullanıldığı bildirilen Whisper tabanlı bir araç geliştirdi.
Nabla’nın aracı yedi milyondan fazla tıbbi ziyaretin yazıya geçirilmesi için kullanıldı. Şirket, veri güvenliğini korumak için orijinal kaydı da sunucularından siler. Bu, eğer bu yedi milyon transkripsiyonda herhangi bir halüsinasyon metni oluşturulmuşsa, bunları doğrulamanın ve düzeltmenin imkansız olduğu anlamına gelir.
Teknolojinin kullanıldığı bir diğer alan da sağır ve işitme güçlüğü çeken topluluk için erişilebilirlik araçlarının oluşturulmasıdır; burada da aracın doğruluğunun doğrulanması oldukça zordur. Halüsinasyonun çoğunun arka plandaki gürültülerden, ani duraklamalardan ve diğer çevresel seslerden kaynaklandığı söyleniyor.
Konunun boyutu da endişe verici. Bir araştırmacıya atıfta bulunan yayın, her 10 ses transkripsiyonundan sekizinin halüsinasyonlu metin içerdiğini iddia etti. Bir geliştirici yayına, “Whisper ile oluşturduğu 26.000 transkriptin her birinde” halüsinasyonun meydana geldiğini söyledi.
Özellikle, öğle yemeği Whisper’dan OpenAI, Whisper’ın aksan, arka plan gürültüsü ve teknik dil açısından insan düzeyinde sağlamlık sunduğunu söyledi. Bir şirket sözcüsü yayına, AI firmasının sürekli olarak halüsinasyonları azaltmanın yollarını aradığını ve geri bildirimi gelecekteki model güncellemelerine dahil etme sözü verdiğini söyledi.