Yeni bir araştırma, büyük dil modellerinin çeşitli tıbbi bağlamlardaki performansını inceliyor. Bu bağlamlar arasında, bir modelin insan doktorlardan daha doğru olduğu görülen acil durum odası vakaları da yer alıyor.
Araştırma, Science dergisinde bu hafta yayımlandı ve Harvard Tıp Fakültesi ile Beth Israel Deaconess Tıp Merkezi’nden doktorlar ve bilgisayar bilimcileri tarafından yönetilen bir araştırma ekibine ait. Araştırmacılar, OpenAI’nin modellerinin insan doktorlarla karşılaştırıldığı çeşitli deneyler gerçekleştirdiklerini belirtti.
Bir deneyde, araştırmacılar Beth Israel acil servisine gelen 76 hastayı inceledi ve iki hekim tarafından yapılan tanıları, OpenAI’nin o1 ve 4o modellerinin ürettiği tanılarla karşılaştırdı. Bu tanılar, hangi tanıların insanlardan hangi tanıların yapay zekadan geldiğini bilmeyen iki başka hekim tarafından değerlendirildi.
“Her tanı noktasında, o1 ya iki hekimden daha iyi performans gösterdi ya da onlarla eşit düzeydeydi,” diyor çalışma, ekleyerek “farkların, tanı için mevcut en az bilginin bulunduğu ve doğru karar vermek için en fazla aciliyetin olduğu ilk tanı noktasında özellikle belirgin olduğunu” belirtiyor.
Harvard Tıp Fakültesi’nin, araştırmanın basın bülteninde araştırmacılar, verileri “hiç ön işlemden geçirmediklerini” vurguladılar; yapay zeka modelleri, her tanı anındaki elektronik tıbbi kayıtlarda bulunan aynı bilgilerle karşılaştı.
Bu bilgilerle, o1 modeli, triage vakalarının %67’sinde “tam veya çok yakın tanı” sunmayı başardı. Bu oran, bir hekimin %55, diğerinin ise %50 doğruluk oranına sahip olduğu belirtiliyor.
“Yapay zeka modelini hemen hemen her kıyaslamaya karşı test ettik; hem önceki modellerden hem de hekim temel verilerinden daha iyi sonuçlar verdi,” diyor Harvard Tıp Fakültesi’nde bir yapay zeka laboratuvarı yöneten Arjun Manrai, basın bülteninde.
Araştırma, yapay zekanın acil serviste gerçek hayati tehlikeli kararlar alma aşamasında hazır olduğunu ileri sürmüyor. Bunun yerine, bulguların bu teknolojilerin gerçek dünyadaki hasta bakım ayarlarında değerlendirilebilmesi için “öncelikli denemelere acil bir ihtiyaç” gösterdiğini belirtiyor.
Araştırmacılar ayrıca, modelin yalnızca metin bazlı bilgilerin sağlandığında nasıl performans gösterdiğini incelediklerini ve “mevcut çalışmaların, mevcut temellerin metin dışı girdiler üzerinde daha sınırlı olabileceğini” öne sürdüğünü ifade ettiler.
Beth Israel’de çalışan ve aynı zamanda araştırmanın yazarlarından biri olan Adam Rodman, Guardian’a yaptığı açıklamada, yapay zeka tanıları etrafında şu anda “resmi bir hesap verebilirlik çerçevesinin olmadığını” ve hastaların hala “hayat veya ölüm kararlarında insanları yönlendirmesini” istediklerini belirtti.
Makalerimizdeki bağlantılar üzerinden yapacağınız alışverişlerde küçük bir komisyon kazanabiliriz. Bu, editoryal bağımsızlığımızı etkilemez.

