Chatbots, yeni bir araştırmaya göre, teşhis akıl yürütmesinde insan hekimlerini hızla aştı – klinik bakımın önemli ilk adımı – dergide yayınlandı Doğa tıbbı.
Çalışma, üretken AI (Genai) chatbotları destekleyen büyük dil modellerine (LLMS) erişimi olan doktorların, teknolojiye erişimi olmayan meslektaşlarına kıyasla çeşitli hasta bakım görevlerinde gelişmiş performans gösterdiğini göstermektedir.
Çalışma ayrıca, chatbots kullanan doktorların hasta vakalarına daha fazla zaman harcadıklarını ve Genai araçlarına erişimi olmayanlardan daha güvenli kararlar verdiğini buldu.
Beth Israel Deaconess Tıp Merkezi’nde (BIDMC) bir düzineden fazla doktor tarafından üstlenilen araştırma, Genai’nin “açık uçlu karar verme” doktor ortağı olarak vaat ettiğini gösterdi.
BIDMC’deki AI programları direktörü Dr. Adam Rodman, “Ancak bu, LLM’lerin hasta bakımını geliştirme potansiyelini gerçekleştirmek için titiz bir doğrulama gerektirecek” dedi. “Teşhis akıl yürütmesinin aksine, genellikle tek bir doğru cevabı olan bir görev, yönetim akıl yürütmesinin doğru cevabı olmayabilir ve doğal olarak riskli eylem kursları arasındaki değişimlerin tartılmasını içerebilir.”
Sonuçlar, 92 hekimin beş varsayımsal hasta vakası üzerinde çalışırken karar verme yetenekleri hakkındaki değerlendirmelere dayanmaktadır. Test, tedavi, hasta tercihleri, sosyal faktörler, maliyetler ve riskler ile ilgili kararları içeren doktorların yönetim akıl yürütmesine odaklandılar.
Varsayımsal hasta vakalarına verilen yanıtlar puanlandığında, bir sohbet botu kullanan doktorlar sadece geleneksel kaynakları kullananlardan önemli ölçüde daha yüksek puan aldılar. Chatbot kullanıcıları da dava başına-yaklaşık iki dakika-daha fazla zaman harcadılar ve geleneksel kaynakları kullananlara kıyasla daha düşük bir hafif ila orta zarar riski vardı (% 3.7’ye karşı% 5,3). Bununla birlikte, ciddi zarar derecelendirmeleri gruplar arasında benzerdi.
“Teorim,” dedi Rodman, “[is] AI, hasta iletişiminde ve hasta faktörleri alanlarında yönetim muhakemesini geliştirdi; Komplikasyonları veya ilaç kararlarını tanımak gibi şeyleri etkilemedi. Zarar için yüksek bir standart kullandık – acil zarar – ve kötü iletişimin acil zarar vermesi olası değil. ”
Rodman ve meslektaşları tarafından yapılan daha önceki bir 2023’teki bir araştırma, Genai teknolojisinin rolü hakkında umut verici ama temkinli sonuçlar verdi. “Klinik vakanın evrimi boyunca insanlardan eşdeğer veya daha iyi bir akıl yürütmeyi gösterebildiğini” buldular.
Bu veriler, yayınlanan Amerikan Tıp Derneği Dergisi (JAMA), doktorların klinik akıl yürütmesini değerlendirmek için kullanılan ortak bir test aracı kullandı. Araştırmacılar, teşhis akıl yürütmesinin dört aşamasında 20 arşivlenmiş (yeni değil) klinik vakalarla çalışan 21 katılımcı hekim ve 18 sakini işe aldı, her aşamada ayırıcı tanılarını yazdı ve haklı çıkardı.
Araştırmacılar daha sonra aynı testleri GPT-4 LLM’ye dayanarak ChatGPT kullanarak gerçekleştirdiler. Chatbot aynı talimatları izledi ve aynı klinik vakaları kullandı. Sonuçlar hem umut vericiydi hem de endişeliydi.
Chatbot, test aracındaki bazı önlemlerde en yüksek puan aldı, medyan puan 10/10, hekimler için 9/10 ve sakinler için 8/10. Teşhis doğruluğu ve akıl yürütme insanlar ve bot arasında benzer olsa da, chatbot’un daha fazla yanlış akıl yürütme örneği vardı. “Bu, yapay zekanın en iyi şekilde, insan akıl yürütmesi için en iyi şekilde artmak için kullanıldığını vurgulamaktadır” dedi.
Basitçe söylemek gerekirse, bazı durumlarda “botlar da sadece yanlıştı” dedi rapor.
Rodman, Genai çalışmasının neden önceki çalışmada daha fazla hataya işaret ettiğinden emin olmadığını söyledi. “Kontrol noktası farklı [in the new study]böylece halüsinasyonlar gelişmiş olabilir, ama aynı zamanda göreve göre değişir ”dedi. “Orijinal çalışmamız, net ve yanlış cevaplara sahip bir sınıflandırma görevi olan teşhis akıl yürütmesine odaklandı. Öte yandan yönetim akıl yürütmesi son derece bağlama özgüdür ve bir dizi kabul edilebilir cevaplara sahiptir. ”
Orijinal çalışmadan önemli bir fark, araştırmacıların şimdi iki insan grubunu – biri AI ve diğeri kullanmayan – karşılaştırırken, orijinal çalışma AI’yı doğrudan insanlarla karşılaştırıyor. “Yalnızca küçük bir taban çizgisi topladık, ancak karşılaştırma çok efektli bir modelle yapıldı. Yani, bu durumda, her şey insanlar aracılığıyla aracılık ediyor ”dedi.
Araştırmacı ve baş çalışma yazarı, BIDMC’de üçüncü sınıf içi bir tıp sakini olan Dr. Stephanie Cabral, LLMS’nin klinik uygulamaya nasıl uyabileceği konusunda daha fazla araştırmaya ihtiyaç duyulduğunu, “ancak gözetim önlemek için zaten yararlı bir kontrol noktası olarak hizmet edebileceklerini söyledi.
“Nihai umudum, AI’nın şu anda sahip olduğumuz verimsizliklerin bazılarını azaltarak hasta-hekim etkileşimini iyileştireceği ve hastalarımızla yaptığımız konuşmaya daha fazla odaklanmamıza izin vereceği” dedi.
En son çalışma, GPT-4’ün daha yeni, yükseltilmiş bir versiyonunu içeriyordu ve bu da sonuçlardaki bazı varyasyonları açıklayabilir.
Rodman’a göre, bugüne kadar Healthcare’deki AI, portal mesajlaşma gibi görevlere odaklandı. Ancak sohbet botları, özellikle karmaşık görevlerde insan karar vermeyi geliştirebilir.
“Bulgularımız umut vaat ediyor, ancak hasta bakımını iyileştirme potansiyellerinin tamamen kilidini açmak için titiz bir doğrulama gereklidir” dedi. “Bu, LLM’ler için klinik yargıya yararlı bir yardımcı olarak gelecekteki bir kullanımı önermektedir. LLM’nin yalnızca kullanıcıları yavaşlamaya ve daha derinlemesine yansıtmaya teşvik edip etmediği veya akıl yürütme sürecini aktif olarak artırıp artırmadığı konusunda daha fazla araştırma değerli olacaktır. ”
Rodman, chatbot testi şimdi, birincisi araştırmacılar tarafından analiz edilecek yeni RAW verileri üreten iki takip aşamasının bir sonrakine gireceğini söyledi. Araştırmacılar, performansın nasıl etkilendiğini görmek için kontrollü ortamlarda LLM’leri (daha spesifik hızlı tasarım gibi) kullanma konusunda farklı sohbet botları, farklı kullanıcı arayüzleri ve doktor eğitimini inceledikleri değişen kullanıcı etkileşimine bakmaya başlayacaklar.
İkinci aşama ayrıca arşivlenmiş hasta vakalarını değil, gerçek zamanlı hasta verilerini de içerecektir.
“Ayrıca okuyoruz [human computer interaction] Güvenli LLM’leri kullanarak – [it’s] HIPAA şikayeti – bu etkilerin gerçek dünyada nasıl gerçekleştiğini görmek için ”dedi.


