Hugging Face, sağlık görevlerinde üretken yapay zekayı test etmek için bir kıyaslama yayınladı

Üretken yapay zeka modelleri, sağlık hizmetleri ortamlarına giderek daha fazla, belki de bazı durumlarda erken getiriliyor. İlk benimseyenler, aksi takdirde gözden kaçacak öngörüleri ortaya çıkarırken artan verimliliğin kilidini açacaklarına inanıyorlar. Bu arada eleştirmenler, bu modellerin daha kötü sağlık sonuçlarına katkıda bulunabilecek kusurları ve önyargıları olduğuna dikkat çekiyor.

Ancak bir modelin hasta kayıtlarını özetlemek veya sağlıkla ilgili soruları yanıtlamak gibi şeylerle görevlendirildiğinde ne kadar yararlı veya zararlı olabileceğini bilmenin niceliksel bir yolu var mı?

Yapay zeka girişimi Hugging Face, bir çözüm öneriyor Open Medical-LLM adı verilen yeni yayınlanan kıyaslama testi. Kâr amacı gütmeyen Open Life Science AI ve Edinburgh Üniversitesi Doğal Dil İşleme Grubu’ndaki araştırmacılarla ortaklaşa oluşturulan Open Medical-LLM, üretken yapay zeka modellerinin tıbbi bir dizi görevdeki performansını değerlendirmeyi standartlaştırmayı amaçlıyor.

Yeni: Açık Tıbbi Yüksek Lisans Liderlik Tablosu! 🩺

Temel sohbet robotlarında hatalar can sıkıcıdır.
Tıbbi Yüksek Lisans’ta hataların yaşamı tehdit eden sonuçları olabilir 🩸

Bu nedenle, konuşlandırmayı düşünmeden önce tıbbi yüksek lisans eğitimlerindeki ilerlemeleri kıyaslamak/takip etmek hayati önem taşımaktadır.

Blog: https://t.co/pddLtkmhsz

— Clémentine Fourrier 🍊 (@clefourrier) 18 Nisan 2024

Açık Tıp-LLM bir sıfırdan kendi başına bir kıyaslama olmaktan ziyade, genel tıbbi bilgi ve anatomi, farmakoloji, genetik ve klinik uygulama gibi ilgili alanlara yönelik modelleri araştırmak üzere tasarlanmış mevcut test setlerinin (MedQA, PubMedQA, MedMCQA ve benzeri) bir araya getirilmesidir. Karşılaştırmalı değerlendirme, ABD ve Hindistan tıbbi lisans sınavları ve üniversite biyoloji testi soru bankaları dahil olmak üzere materyallerden yararlanılarak, tıbbi muhakeme ve anlayış gerektiren çoktan seçmeli ve açık uçlu sorular içermektedir.

“[Open Medical-LLM] Hugging Face bir blog yazısında, araştırmacıların ve uygulayıcıların farklı yaklaşımların güçlü ve zayıf yönlerini tespit etmelerine, alanda daha fazla ilerleme kaydetmelerine ve sonuçta daha iyi hasta bakımı ve sonuçlarına katkıda bulunmalarına olanak tanıyor” diye yazdı.

Resim Kredisi: Sarılma Yüz

Hugging Face, referansı sağlık hizmetine bağlı üretken yapay zeka modellerinin “sağlam bir değerlendirmesi” olarak konumlandırıyor. Ancak sosyal medyadaki bazı tıp uzmanları, yanlış bilgilendirilmiş dağıtımlara yol açmaması için Open Medical-LLM’ye çok fazla stok konulmaması konusunda uyarıda bulundu.

Alberta Üniversitesi’nde nöroloji alanında asistan doktor olan Liam McCoy, X hakkında, tıbbi soru cevaplamanın “yapma ortamı” ile tıbbi soru cevaplama arasındaki boşluğa dikkat çekti. gerçek klinik uygulama oldukça geniş olabilir.

Bu karşılaştırmaları bire bir görmek büyük bir ilerleme, ancak tıbbi soru yanıtlamanın yapmacık ortamı ile gerçek klinik uygulama arasındaki farkın ne kadar büyük olduğunu da hatırlamamız bizim için önemli! Bu ölçümlerin yakalayamadığı kendine özgü risklerden bahsetmiyorum bile.

— Liam McCoy, MD Yüksek Lisans (@LiamGMcCoy) 18 Nisan 2024

Blog yazısının ortak yazarı olan Hugging Face araştırma bilimcisi Clémentine Fourrier de aynı görüşte.

“Bu skor tabloları yalnızca ilk tahmin olarak kullanılmalı. [generative AI model] Belirli bir kullanım durumunu araştırmak için, ancak daha sonra modelin sınırlarını ve gerçek koşullardaki uygunluğunu incelemek için her zaman daha derin bir test aşamasına ihtiyaç vardır.” Fourrier yanıtladı X üzerinde. “Tıbbi [models] Kesinlikle hastalar tarafından tek başına kullanılmamalı, bunun yerine tıp doktorlarına destek aracı olacak şekilde eğitilmelidir.”

Tayland’daki sağlık sistemlerine diyabetik retinopati için bir yapay zeka tarama aracı getirmeye çalışan Google’ın deneyimini akla getiriyor.

Google, görme kaybının önde gelen nedenlerinden biri olan retinopatiye dair kanıt arayan, gözün görüntülerini tarayan bir derin öğrenme sistemi oluşturdu. Ancak yüksek teorik doğruluğa rağmen, aracın gerçek dünya testlerinde pratik olmadığı ortaya çıktıTutarsız sonuçlar ve sahadaki uygulamalarla genel uyum eksikliği nedeniyle hem hastaları hem de hemşireleri hayal kırıklığına uğratıyor.

ABD Gıda ve İlaç İdaresi’nin bugüne kadar onayladığı 139 yapay zeka ile ilgili tıbbi cihazdan, hiçbiri üretken yapay zeka kullanmıyor. Üretken bir yapay zeka aracının laboratuvardaki performansının hastanelere ve ayakta tedavi kliniklerine nasıl yansıyacağını ve belki daha da önemlisi sonuçların zaman içinde nasıl bir eğilim gösterebileceğini test etmek son derece zordur.

Bu, Open Medical-LLM’nin yararlı veya bilgilendirici olmadığı anlamına gelmez. Sonuç sıralama tablosu, başka hiçbir şey olmasa bile, nasıl olduğunu hatırlatıyor kötü modeller temel sağlık sorularına yanıt verir. Ancak Open Medical-LLM ve bu konuda başka hiçbir kriter, dikkatlice düşünülmüş gerçek dünya testlerinin yerini almaz.

genel-24

Byteknomers

By teknomers

Benzer İçerikler

Yeni bir risk sermayesi süper grubu oluşuyor

Devasa iPhone 16 Pro Max konusunda heyecanlıyım, o yüzden beni dinleyin

Anthropic sonunda Claude mobil uygulamasını yayınladı

Apex Legends Fragmanı, 21. Sezonun Boyut Atlayan Yeni Efsanesini Ortaya Çıkarıyor

No Man’s Sky Güncellemesi 4.65, Orbitals Yama Düzeltmeleri için 1 Mayıs’ta Çıktı

Xbox Games Showcase ve Direct Haziran 2024’te Açıklandı

Yeni Counter-Strike 2 yasaklama dalgası hilecileri gözlerinizin önünde öldürüyor

JBL Xtreme 3’ü Amazon’daki Black Friday fiyatıyla alın ve ucuza muhteşem şarkıların keyfini çıkarın

Amazon’un 2022 Echo Dot akıllı hoparlörü artık 2024’ün en düşük fiyatıyla satışta

Son derece can sıkıcı bir iPhone alarm hatası kontrol edilemeyen bir yangın gibi yayılıyor… yine

Google, Fitbit Pay’i kullanımdan kaldırıyor ve onu Google Cüzdan ile değiştiriyor

NASA, Dragon shuffle’ı Starliner lansmanı için hazırlıyor

Gyro Arızasından Sonra Hubble Uzay Teleskobu’nda Bilim Yenilendi

Webb Uzay Teleskobu, İkonik Atbaşı Bulutsusu’nun Gizli Katmanlarını Ortaya Çıkardı

Çinli astronotlar altı ay uzayda kaldıktan sonra dünyaya dönüyor

İlginizi Çekebilir

Yeni bir risk sermayesi süper grubu oluşuyor

2024’ün en iyi Asus oyun dizüstü bilgisayarları

Apex Legends Fragmanı, 21. Sezonun Boyut Atlayan Yeni Efsanesini Ortaya Çıkarıyor

AMD’nin mali sonuçları, GPU satışlarının düştüğünü ve yapay zeka bilgisayarların son derece önemli olduğunu gösteriyor; bunun bilgisayarların geleceği açısından anlamı şu: