Üretken yapay zeka modelleri, sağlık hizmetleri ortamlarına giderek daha fazla, belki de bazı durumlarda erken getiriliyor. İlk benimseyenler, aksi takdirde gözden kaçacak öngörüleri ortaya çıkarırken artan verimliliğin kilidini açacaklarına inanıyorlar. Bu arada eleştirmenler, bu modellerin daha kötü sağlık sonuçlarına katkıda bulunabilecek kusurları ve önyargıları olduğuna dikkat çekiyor.

Ancak bir modelin hasta kayıtlarını özetlemek veya sağlıkla ilgili soruları yanıtlamak gibi şeylerle görevlendirildiğinde ne kadar yararlı veya zararlı olabileceğini bilmenin niceliksel bir yolu var mı?

Yapay zeka girişimi Hugging Face, bir çözüm öneriyor Open Medical-LLM adı verilen yeni yayınlanan kıyaslama testi. Kâr amacı gütmeyen Open Life Science AI ve Edinburgh Üniversitesi Doğal Dil İşleme Grubu’ndaki araştırmacılarla ortaklaşa oluşturulan Open Medical-LLM, üretken yapay zeka modellerinin tıbbi bir dizi görevdeki performansını değerlendirmeyi standartlaştırmayı amaçlıyor.

Açık Tıp-LLM bir sıfırdan kendi başına bir kıyaslama olmaktan ziyade, genel tıbbi bilgi ve anatomi, farmakoloji, genetik ve klinik uygulama gibi ilgili alanlara yönelik modelleri araştırmak üzere tasarlanmış mevcut test setlerinin (MedQA, PubMedQA, MedMCQA ve benzeri) bir araya getirilmesidir. Karşılaştırmalı değerlendirme, ABD ve Hindistan tıbbi lisans sınavları ve üniversite biyoloji testi soru bankaları dahil olmak üzere materyallerden yararlanılarak, tıbbi muhakeme ve anlayış gerektiren çoktan seçmeli ve açık uçlu sorular içermektedir.

“[Open Medical-LLM] Hugging Face bir blog yazısında, araştırmacıların ve uygulayıcıların farklı yaklaşımların güçlü ve zayıf yönlerini tespit etmelerine, alanda daha fazla ilerleme kaydetmelerine ve sonuçta daha iyi hasta bakımı ve sonuçlarına katkıda bulunmalarına olanak tanıyor” diye yazdı.

gen yapay zeka sağlık hizmetleri

Resim Kredisi: Sarılma Yüz

Hugging Face, referansı sağlık hizmetine bağlı üretken yapay zeka modellerinin “sağlam bir değerlendirmesi” olarak konumlandırıyor. Ancak sosyal medyadaki bazı tıp uzmanları, yanlış bilgilendirilmiş dağıtımlara yol açmaması için Open Medical-LLM’ye çok fazla stok konulmaması konusunda uyarıda bulundu.

Alberta Üniversitesi’nde nöroloji alanında asistan doktor olan Liam McCoy, X hakkında, tıbbi soru cevaplamanın “yapma ortamı” ile tıbbi soru cevaplama arasındaki boşluğa dikkat çekti. gerçek klinik uygulama oldukça geniş olabilir.

Blog yazısının ortak yazarı olan Hugging Face araştırma bilimcisi Clémentine Fourrier de aynı görüşte.

“Bu skor tabloları yalnızca ilk tahmin olarak kullanılmalı. [generative AI model] Belirli bir kullanım durumunu araştırmak için, ancak daha sonra modelin sınırlarını ve gerçek koşullardaki uygunluğunu incelemek için her zaman daha derin bir test aşamasına ihtiyaç vardır.” Fourrier yanıtladı X üzerinde. “Tıbbi [models] Kesinlikle hastalar tarafından tek başına kullanılmamalı, bunun yerine tıp doktorlarına destek aracı olacak şekilde eğitilmelidir.”

Tayland’daki sağlık sistemlerine diyabetik retinopati için bir yapay zeka tarama aracı getirmeye çalışan Google’ın deneyimini akla getiriyor.

Google, görme kaybının önde gelen nedenlerinden biri olan retinopatiye dair kanıt arayan, gözün görüntülerini tarayan bir derin öğrenme sistemi oluşturdu. Ancak yüksek teorik doğruluğa rağmen, aracın gerçek dünya testlerinde pratik olmadığı ortaya çıktıTutarsız sonuçlar ve sahadaki uygulamalarla genel uyum eksikliği nedeniyle hem hastaları hem de hemşireleri hayal kırıklığına uğratıyor.

ABD Gıda ve İlaç İdaresi’nin bugüne kadar onayladığı 139 yapay zeka ile ilgili tıbbi cihazdan, hiçbiri üretken yapay zeka kullanmıyor. Üretken bir yapay zeka aracının laboratuvardaki performansının hastanelere ve ayakta tedavi kliniklerine nasıl yansıyacağını ve belki daha da önemlisi sonuçların zaman içinde nasıl bir eğilim gösterebileceğini test etmek son derece zordur.

Bu, Open Medical-LLM’nin yararlı veya bilgilendirici olmadığı anlamına gelmez. Sonuç sıralama tablosu, başka hiçbir şey olmasa bile, nasıl olduğunu hatırlatıyor kötü modeller temel sağlık sorularına yanıt verir. Ancak Open Medical-LLM ve bu konuda başka hiçbir kriter, dikkatlice düşünülmüş gerçek dünya testlerinin yerini almaz.





genel-24