Google MedPaLM Tıbbi Chatbot Nedir? Nasıl Kullanılır? Ne İşe Yarar?

Google MedPaLM Tıbbi Chatbot Nedir? Nasıl Kullanılır? Ne İşe Yarar? - Endustri.io

Google MedPaLM Tıbbi Chatbot Nedir? Nasıl Kullanılır? Ne İşe Yarar?

Yazar: Emre Seymenler - Tarih: 06 Ocak 2023 12:46 - Kategori: Teknoloji

Günümüzde yapay zeka büyük bir süratle ilerlemekte ve bu alanda öne çıkan önemli isimler gelecekte birçok işi yapay zekanın yapacağının en büyük kanıtı olarak karşımıza çıkmakta... Büyük veri kavramının hayatımıza girmesinden bu yana insanlık tarihinin bu son yılları, geçmiş dönemler boyunca üretmiş oldukları bilgiden kat ve kat daha fazlasını üretmekte ve bu da büyük veri için gerekli olan girdilerin sadece işlenmesine gereksinim bırakmakta ve bu yolculukta çok büyük aşamalar kat edildiği bir gerçek...

Bundan birkaç ay önce Midjourney isimli Discord botu, yazı olarak tarif edilen bir görseli yapay zeka sayesinde yapabilmekte. Bu olayı kafanızda canlandırmak isterseniz size bir örnek verebilirim. Aşağıdaki görselde yer alan santrifüj pompası tamamıyla yapay zeka tarafından hazırlandı, üstelik saniyeler içerisinde.

Santrifüj Pompası

Yapay zekaların en havalılarından biriside OpenAi tarafından GPT3 olarak isimlendirilen chatbot.

Milyarlarca parametre ile eğitilen bir dil modeli olan GPT3, kod yazmaktan, merak ettiğiniz sorulara kadar hemen hemen birçok işlevi gerçekleştirebilmekte ve üst düzey kullanımları için internette biraz arama yapmanızla harika şeylere rastlayacağınızı garanti edebilirim...

Yukarıda saydığım iki gelişmiş dil modeline bir de Google tarafından yapılan Med-PaLM tıbbi sohbet robotu eklendi. Bu yazımızın konusu olan MedPaLM bakalım nedir, nasıl çalışıyor, neler yapabiliyor hep beraber öğrenelim...

Google Research ve DeepMind, kısa bir süre önce tıbbi alana uyarlanmış büyük bir dil modeli olan MedPaLM'yi bundan birkaç gün önce piyasaya sürdü.

Tıp alanında güvenli ve faydalı cevaplar üretmeyi amaçlayan bu sohbet botu, internette aranan tıbbi soruların yeni bir serbest yanıt veri kümesi olan HealthSearchQA'yı, profesyonel tıbbi sınavları, araştırmaları ve tüketici sorgularını kapsayan altı mevcut açık soru yanıtlama veri kümesiyle birleştiriyor.

MedPaLM, çeşitli veri kümelerinin sunulması yoluyla tıp uzmanları ve profesyonel olmayanlar tarafından sorulan çoktan seçmeli ve normal soruları hedef alır. Bu veri kümeleri MedQA, MedMCQA, PubMedQA, LiveQA, MedicationQA ve MMLU'dan gelmektedir. MultiMedQA'yı geliştirmek için HealthSearchQA adı verilen küratörlü, sık aranan tıbbi sorulardan oluşan yeni bir veri kümesi de eklenmiştir.

HealthsearchQA veri kümesi 3375 sık sorulan tüketici sorusundan oluşmaktadır. Tohum tıbbi teşhisler ve bunlarla ilgili semptomlar kullanılarak toplanmıştır. Bu model, MultiMedQA kullanarak LLM (Large Language Model - Geniş Dil Modeli)'leri değerlendirmek için 540 milyar parametreli bir LLM olan PaLM ve onun talimat ayarlı varyasyonu Flan-PaLM üzerinde geliştirilmiştir.

Med-PaLM şu anda özellikle Flan-PaLM ile karşılaştırıldığında özellikle iyi performans gösterdiğini iddia etmektedir. Bununla birlikte, yine de bir insan tıp uzmanından daha iyi performans göstermesi gerekmektedir. Şimdiye kadar, bir grup sağlık uzmanı Med-PaLM yanıtlarının yüzde 92,6'sının klinisyen tarafından oluşturulan yanıtlarla (yüzde 92,9) eşit olduğunu belirlemiştir.

Uzun form Flan-PaLM yanıtlarının yalnızca yüzde 61,9'unun doktor değerlendirmeleriyle uyumlu olduğu düşünüldüğünde bu şaşırtıcıdır. Bu arada, klinisyen tarafından oluşturulan cevapların yüzde 6,5'i ve Flan-PaLM cevaplarının yüzde 29,7'si ile karşılaştırıldığında, Med-PaLM cevaplarının sadece yüzde 5,8'inin olumsuz sonuçlara potansiyel olarak katkıda bulunduğu düşünülmüştür. Bu da Med-PaLM yanıtlarının çok daha güvenli olduğu anlamına geliyor.

Diğer yapay zeka tabanlı girişimler
Bu, Google'ın yapay zeka tabanlı sağlık hizmetlerine ilk girişimi değil. Mayıs 2019'da Google, derin öğrenme yapay zekasını CT taramalarında akciğer kanserini tespit etmek üzere eğitmek için tıbbi araştırmacılarla bir araya geldi ve eğitimli radyologlar kadar veya daha iyi performans göstererek yüzde 94'ün biraz üzerinde doğruluk elde etti.

Mayıs 2021'de Google, her akıllı telefon sahibinin teşhislerinin ne olabileceği konusunda bir fikir sahibi olmasını sağlayacak, akıllı telefonlardaki cilt rahatsızlıkları için bir teşhis yapay zekasını kullanıma sundu. Uygulama, profesyonel bir dermatoloğun rolünün yerini almadı, ancak YZ sağlık hizmetleri alanı için önemli bir adımdı.

Google Research ve DeepMind ekibi, Med-PaLM hakkında yayınladıkları bir teknik makalede çok daha fazla bilgi sunmakta. Bu makalenin Türkçe halini buraya koyarak daha fazla bilgi sahibi olmak isteyenlerin işini kolaylaştırmak istiyoruz.

Büyük Dil Modelleri Klinik Bilgiyi Kodlar

Karan Singhal, Shekoofeh Azizi, Tao Tu,Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Seneviratne, Paul Gamble, Chris Kelly, Nathaneal Schärli, Aakanksha Chowdhery, Philip Mansfield, Blaise Agüera y Arcas, Dale Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam ve Vivek Natarajan

Google Research, 2DeepMind

Büyük dil modelleri (LLM'ler) doğal dil anlama ve üretme konusunda etkileyici yetenekler sergilemiştir, ancak tıbbi ve klinik uygulamalar için kalite çıtası yüksektir. Günümüzde, modellerin klinik bilgisini değerlendirme girişimleri genellikle sınırlı ölçütler üzerinde otomatik değerlendirmelere dayanmaktadır. Model tahminlerini ve muhakemesini geniş bir görev yelpazesinde değerlendirmek için bir standart yoktur. Bunu ele almak için, profesyonel tıbbi sınavları, araştırmaları ve tüketici sorgularını kapsayan altı mevcut açık soru yanıtlama veri kümesini birleştiren bir ölçüt olan MultiMedQA'yı ve çevrimiçi olarak aranan tıbbi soruların yeni bir serbest yanıt veri kümesi olan HealthSearchQA'yı sunuyoruz. Model cevaplarının doğruluk, kesinlik, olası zarar ve önyargı dahil olmak üzere birden fazla eksende insan değerlendirmesi için bir çerçeve öneriyoruz.

Buna ek olarak, PaLM'yi (540 milyar parametreli bir LLM) ve talimat ayarlı varyantı Flan- PaLM'yi MultiMedQA üzerinde değerlendiriyoruz. Flan-PaLM, yönlendirme stratejilerinin bir kombinasyonunu kullanarak, MedQA'da (ABD Tıbbi Lisans Sınavı soruları) %67,6 doğruluk dahil olmak üzere her MultiMedQA çoktan seçmeli veri kümesinde (MedQA, MedMCQA, PubMedQA, MMLU klinik konuları) en son teknolojiye sahip doğruluğa ulaşarak önceki en son teknolojiyi %17'nin üzerinde aşmıştır. Bununla birlikte, insan değerlendirmesi Flan-PaLM yanıtlarındaki önemli boşlukları ortaya koymaktadır. Bunu çözmek için, birkaç örnek kullanarak LLM'leri yeni alanlara hizalamak için parametre açısından verimli bir yaklaşım olan talimat istemi ayarlamasını tanıtıyoruz. Ortaya çıkan model, Med-PaLM, cesaret verici bir performans sergiliyor, ancak klinisyenlerden daha düşük kalıyor.

Anlama, bilginin hatırlanması ve tıbbi muhakemenin model ölçeği ve talimat istemi ayarlamasıyla geliştiğini göstererek, LLM'lerin tıpta potansiyel faydasını ortaya koyuyoruz. İnsan değerlendirmelerimiz, günümüz modellerinin önemli sınırlamalarını ortaya koyuyor ve klinik uygulamalar için güvenli, yararlı LLM modelleri oluşturmada hem değerlendirme çerçevelerinin hem de yöntem geliştirmenin önemini güçlendiriyor.

1. Giriş

Tıp, dilin klinisyenler, araştırmacılar ve hastalar için ve bunlar arasında önemli etkileşimler sağladığı insani bir çabadır. Bununla birlikte, tıp ve sağlık alanındaki uygulamalara yönelik günümüzün yapay zeka modelleri, dili tam olarak kullanmakta büyük ölçüde başarısız olmuştur. Bu modeller, yararlı olmakla birlikte, ağırlıklı olarak tek görevli sistemlerdir (örneğin, sınıflandırma, regresyon, segmentasyon), ifade ve etkileşimli yeteneklerden yoksundur [21, 81, 97]. Sonuç olarak, günümüz modellerinin yapabildikleri ile gerçek dünyadaki klinik iş akışlarında onlardan beklenebilecekler arasında bir uyumsuzluk vardır [42, 74].

Büyük dil modellerindeki (LLM'ler) son gelişmeler, insan-YZ etkileşimine aracılık eden bir araç olarak dil ile YZ sistemlerini yeniden düşünmek için bir fırsat sunmaktadır. LLM'ler "temel modellerdir" [10], çok sayıda alanda ve çeşitli görevlerde minimum çabayla yeniden tasarlanabilen önceden eğitilmiş büyük YZ sistemleridir. Bu etkileyici ve etkileşimli modeller, tıbbi derlemlerde kodlanan bilgilerden genel olarak yararlı temsilleri büyük ölçekte öğrenme becerileri açısından büyük umut vaat etmektedir. Bu tür modellerin tıpta bilgi alma, klinik karar desteği, temel bulguların özetlenmesi gibi heyecan verici birçok potansiyel uygulaması vardır,

Şekil 1 | Katkılarımıza genel bakış Tıbbi sınav, tıbbi araştırma ve tüketici tıbbi sorularını kapsayan tıbbi soru yanıtlama için bir ölçüt olan MultiMedQA'nın küratörlüğünü yaptık. PaLM ve onun talimatla ayarlanmış varyantını değerlendirdik,

Flan-PaLM, MultiMedQA üzerinde. Yönlendirme stratejilerinin bir kombinasyonu ile Flan-PaLM, MedQA (USMLE), MedMCQA, PubMedQA ve MMLU klinik konularında SOTA performansını aşmıştır. Özellikle, MedQA'da (USMLE) önceki SOTA'ya göre %17'nin üzerinde iyileşme gösterdi. Daha sonra, Flan-PaLM'yi tıbbi alana daha fazla hizalamak için talimat istemi ayarlaması önerdik ve Med- PaLM'yi ürettik. Med-PaLM'nin tüketici tıbbi sorularına verdiği yanıtlar, insan değerlendirme çerçevemiz altında klinisyen tarafından oluşturulan yanıtlarla olumlu bir şekilde karşılaştırıldı ve talimat istemi ayarlamasının etkinliğini gösterdi.

Hastaların birinci basamak endişelerini önceliklendirmek ve daha fazlası.

Bununla birlikte, alanın güvenlik açısından kritik doğası, araştırmacıların ilerlemeyi anlamlı bir şekilde ölçmelerine ve potansiyel zararları yakalayıp azaltmalarına olanak tanıyan değerlendirme çerçevelerinin dikkatli bir şekilde geliştirilmesini gerektirmektedir. Bu özellikle LLM'ler için önemlidir, çünkü bu modeller klinik ve toplumsal değerlerle uyumsuz nesiller üretebilir. Örneğin, ikna edici tıbbi yanlış bilgileri halüsinasyon olarak algılayabilir veya sağlık eşitsizliklerini daha da kötüleştirebilecek önyargılar içerebilirler.

LLM'lerin klinik bilgiyi ne kadar iyi kodladığını ve tıp alanındaki potansiyelini değerlendirmek için tıbbi soru cevaplamayı ele alıyoruz. Bu görev zordur: tıbbi sorulara yüksek kaliteli yanıtlar vermek, tıbbi bağlamın anlaşılmasını, uygun tıbbi bilginin hatırlanmasını ve uzman bilgisiyle akıl yürütmeyi gerektirir. Mevcut tıbbi soru yanıtlama ölçütleri [33] genellikle sınıflandırma doğruluğunu veya otomatik doğal dil oluşturma ölçütlerini (ör. BLEU [67]) değerlendirmekle sınırlıdır ve gerçek dünyadaki klinik uygulamalar için gereken ayrıntılı analizi mümkün kılmaz. Bu durum, LLM'lerin yanıt gerçekliğini, tıbbi ve bilimsel muhakemede uzman bilgisinin kullanımını, yardımseverliği, kesinliği, sağlık eşitliğini ve model çıktılarını gerçek olarak kabul eden insanlara potansiyel zararı değerlendirmek için geniş bir tıbbi soru yanıtlama ölçütüne yönelik karşılanmamış bir ihtiyaç yaratmaktadır.

Bunu ele almak için, mevcut altı veri kümesi de dahil olmak üzere yedi tıbbi soru yanıtlama veri kümesinden oluşan bir karşılaştırma ölçütü olan MultiMedQA'yı küratörlüğünü yapıyoruz: MedQA [33], MedMCQA [64], PubMedQA [34], LiveQA [1], MedicationQA [2] ve MMLU klinik konuları [29]. Yaygın olarak aranan sağlık sorularından oluşan yedinci veri kümesi HealthSearchQA'yı yeni tanıtıyoruz.

MultiMedQA kullanarak LLM'leri değerlendirmek için, 540 milyar parametreli bir LLM olan PaLM [14] ve onun komut ayarlı varyantı Flan-PaLM [15] üzerine inşa ediyoruz. Birkaç atış [12], düşünce zinciri (CoT)

ve öz tutarlılık [88] yönlendirme stratejilerinin bir kombinasyonunu kullanan Flan-PaLM, MedQA, MedMCQA, PubMedQA ve MMLU klinik konularında en son teknoloji (SOTA) performansına ulaşır ve genellikle birkaç güçlü LLM taban çizgisinden önemli bir farkla daha iyi performans gösterir. USMLE sorularını içeren MedQA veri kümesinde, FLAN-PaLM önceki SOTA'yı %17'nin üzerinde aşmaktadır.

Flan-PaLM'in çoktan seçmeli sorulardaki güçlü performansına rağmen, tüketici tıbbi sorularına verdiği cevaplar sorular önemli boşlukları ortaya çıkarmaktadır. Bunu çözmek için, Flan-PaLM'yi tıbbi alana daha fazla uyarlamak için veri ve parametre açısından verimli bir hizalama tekniği olan talimat istemi ayarlamasını öneriyoruz. Ortaya çıkan model Med-PaLM, pilot insan değerlendirme çerçevemizin eksenlerinde cesaret verici bir performans sergiliyor. Örneğin, klinisyenlerden oluşan bir panel, Flan-PaLM uzun form cevaplarının yalnızca %61,9'unun bilimsel fikir birliği ile uyumlu olduğuna karar verirken, Med-PaLM cevapları için bu oran %92,6'dır ve klinisyen tarafından oluşturulan cevaplarla (%92,9) aynı seviyededir. Benzer şekilde, Flan-PaLM cevaplarının %29,7'si potansiyel olarak zararlı sonuçlara yol açacak şekilde değerlendirilirken, Med-PaLM için bu oran %5,8'dir ve klinisyen tarafından oluşturulan cevaplarla (%6,5) karşılaştırılabilir.

Bu sonuçlar umut verici olmakla birlikte, tıp alanı karmaşıktır. Özellikle adalet, hakkaniyet ve önyargı boyutlarında daha fazla değerlendirme yapılması gerekmektedir. Çalışmamız, bu tür modellerin klinik uygulamalarda kullanılabilmesi için birçok kısıtlamanın üstesinden gelinmesi gerektiğini göstermektedir. Çalışmamızda bazı temel sınırlamaları ve gelecekteki araştırma yönlerini özetliyoruz.

Temel katkılarımız aşağıda özetlenmiştir:

• Tıbbi soru cevaplamada LLM'lerin değerlendirilmesine yönelik yaklaşımlar

HealthSearchQA ve MultiMedQA'nın Kürasyonu Yaygın olarak aranan 3375 tüketici tıbbi sorusundan oluşan bir veri kümesi olan HealthSearchQA'yı tanıtıyoruz. Bu veri kümesini, LLM'lerin klinik bilgilerini ve soru yanıtlama yeteneklerini değerlendirmek için çeşitli bir ölçüt olarak, tıbbi muayene, tıbbi araştırma ve tüketici tıbbi sorularını kapsayan tıbbi soru yanıtlama için mevcut diğer altı açık veri kümesiyle birlikte sunuyoruz (bkz. Bölüm 1).
İnsan değerlendirmesi için pilot çerçeve Çoktan seçmeli veri setlerinde doğruluğun ötesinde LLM performansının birden fazla eksenini değerlendirmek için doktor ve meslekten olmayan kullanıcı değerlendirmesine yönelik bir çerçevenin pilot uygulamasını yapıyoruz. Değerlendirmemiz, yanıtları bilimsel ve klinik fikir birliği, zarar olasılığı ve olası kapsamı, okuduğunu anlama, ilgili klinik bilginin hatırlanması, geçerli akıl yürütme yoluyla bilginin manipülasyonu, yanıtların eksiksizliği, önyargı potansiyeli, alaka düzeyi ve yararlılık açısından değerlendirmektedir (bkz. Bölüm 2).

MedQA, MedMCQA, PubMedQA ve MMLU klinik konular veri kümelerinde FLAN-PaLM, birkaç güçlü LLM taban çizgisini aşarak bir dizi yönlendirme stratejisi aracılığıyla SOTA performansına ulaşmaktadır. Özellikle, MedQA'da %67,6 (önceki SOTA'nın %17'den fazla üzerinde), MedMCQA'da

%57,6 ve PubMedQA'da %79,0 doğruluğa ulaşıyoruz (bkz. Bölüm 4).

LLM'leri tıbbi alana uyarlamak için komut istemi ayarlaması LLM'leri güvenlik açısından kritik tıbbi alana uyarlamak için basit, veri ve parametre açısından verimli bir teknik olan komut istemi ayarlamasını tanıtıyoruz (bkz. Bölüm 3.3). Flan-PaLM'nin medikal alan için özelleştirilmiş bir komut istemi ayarlı versiyonu olan Med-PaLM'yi oluşturmak için bundan yararlanıyoruz. İnsan değerlendirme çerçevemiz, Flan-PaLM'nin bilimsel temel, zarar ve önyargı konusundaki sınırlamalarını ortaya koymaktadır. Bununla birlikte, Med-PaLM hem klinisyenlere hem de meslekten olmayan kullanıcılara göre bu eksenlerin birçoğunda klinisyenlerle arasındaki farkı önemli ölçüde azaltmaktadır (hatta olumlu yönde karşılaştırmaktadır) (bkz. Bölüm 4.5).
LLM'lerin insan değerlendirmemizle ortaya çıkan temel sınırlamaları Sonuçlarımız tıpta LLM'lerin potansiyelini ortaya koyarken, aynı zamanda bu modelleri gerçek dünyadaki klinik uygulamalar için uygun hale getirmek için bazı kritik iyileştirmelerin gerekli olduğunu göstermektedir. Bu zorlukları ele almak için gelecekteki araştırma yönlerini ve azaltma stratejilerini özetliyoruz (bkz. Bölüm 6).

2. İlgili çalışmalar

Büyük dil modelleri (LLM'ler) Son birkaç yılda, LLM'ler doğal dil işleme (NLP) görevlerinde etkileyici performans göstermiştir [12, 14, 15, 30, 69, 70, 73, 89, 91, 99]. Başarılarını dönüştürücü tabanlı modellerin eğitiminin ölçeklendirilmesine borçludurlar [84]. Model performansının ve veri verimliliğinin model boyutu ve veri kümesi boyutu ile ölçeklendiği gösterilmiştir [37]. LLM'ler genellikle Wikipedia ve BooksCorpus gibi genel amaçlı metin corpi'leri kullanılarak büyük ölçekte kendi kendine denetim kullanılarak eğitilir. Özel bilimsel bilgi ve muhakeme gerektiren görevler de dahil olmak üzere geniş bir görev yelpazesinde umut verici sonuçlar ortaya koymuşlardır [17, 29]. Bu LLM'lerin belki de en ilginç yönü, bağlam içi birkaç atış.

Bu modelleri gradyan tabanlı parametre güncellemeleri olmadan çeşitli görevlere uyarlayan yetenekler [12, 40, 43, 89]. Bu, onların görülmeyen görevlere hızla genelleme yapmalarına ve hatta uygun yönlendirme stratejileriyle belirgin muhakeme yetenekleri sergilemelerine olanak tanır [14, 47, 79, 91].

Birçok çalışma LLM'lerin örtük bilgi tabanları olarak hareket etme kapasitesine sahip olduğunu göstermiştir [29, 35, 79]. Bununla birlikte, bu modellerin halüsinasyon üretme, eğitim verilerinde bulunan sosyal önyargıları güçlendirme ve muhakeme yeteneklerinde eksiklikler gösterme gibi önemli bir risk vardır. LLM'lerin mevcut sınırlamalarını incelemek ve insan ile LLM dil yetenekleri arasındaki büyük boşluğu ölçmek için BIG-bench, yayınlandığı tarihte mevcut dil modellerinin yeteneklerinin ötesinde olduğuna inanılan görevler üzerinde kıyaslama yapmak için topluluk çapında bir girişim olarak tanıtıldı [78].

Bilim ve biyotıp için LLM'ler SciBERT [5], BioNLP [46], BioMegatron [76], BioBERT [44], PubMedBERT [25], DARE [66], ScholarBERT [31] ve BioGPT [56] gibi son çalışmalar, hem ayrımcı hem de üretici dil modellemesi için derlenmiş bilimsel ve biyomedikal derlemlerin kullanılmasının etkinliğini göstermiştir. Bu modeller umut verici olmakla birlikte, GPT-3 [12] ve PaLM [14] gibi LLM'lere kıyasla tipik olarak küçük ölçekli ve kapsamlıdır. Tıp alanı zorlu olsa da, LLM'lere yönelik özel öneriler, kritik olmayan klinik değerlendirmelerin artırılmasından karmaşık tıbbi iletişimlerin özetlenmesine kadar çeşitli örnekler içermektedir [3, 41, 75].

Bizim çalışmamıza en yakın emsaller, Galactica adında bilim için bir LLM tanıtan Taylor ve arkadaşları [79] ile tıbbi soru cevaplama bağlamında LLM'lerin muhakeme kabiliyetini inceleyen Liévin ve arkadaşlarıdır [50]. Özellikle, Liévin ve arkadaşları [50] talimat ayarlı bir LLM [63] olan Instruct GPT-3'ü kullanmış ve MedQA, MedMCQA ve PubMedQA veri kümelerindeki sonuçları iyileştirmek için üstüne düşünce zinciri yönlendirmesi [91] uygulamıştır.

3. Yöntem

Burada ayrıntılı olarak açıklıyoruz:

Veri kümeleri: Tıbbi soru yanıtlamada LLM'lerin değerlendirilmesi için MultiMedQA ölçütü.
İnsan değerlendirmesi için çerçeve: model (ve klinisyen) cevaplarının klinisyenler ve meslekten olmayan kişiler tarafından değerlendirilmesi için bir derecelendirme çerçevesi.
Modelleme: Büyük dil modelleri (LLM'ler) ve bunları bu çalışmada tıbbi alanın gereksinimlerine uygun hale getirmek için kullanılan yöntemler.

Veri Setleri

LLM'lerin tıp alanındaki potansiyelini değerlendirmek için tıbbi soru cevaplamaya odaklandık. Tıbbi soruları yanıtlamak, okuduğunu anlama becerileri, tıbbi bilgiyi doğru bir şekilde hatırlama yeteneği ve uzman bilgisinin manipülasyonunu gerektirir. Araştırma için mevcut birkaç tıbbi soru cevaplama veri kümesi vardır. Bunlar arasında tıbbi sınav soruları gibi profesyonel tıbbi bilgiyi değerlendiren veri kümeleri [33, 64], tıbbi araştırma anlama becerileri gerektiren sorular [34] ve kullanıcı niyetini değerlendirme ve tıbbi bilgi ihtiyaçlarına yardımcı cevaplar sağlama becerisi gerektiren sorular [1, 2] bulunmaktadır.

Tıbbi bilginin hem nicelik hem de nitelik açısından çok geniş olduğunu kabul ediyoruz. Mevcut ölçütler doğası gereği sınırlıdır ve tıbbi bilgi alanının yalnızca kısmi kapsamını sağlar. Bununla birlikte, tıbbi soru yanıtlama için bir dizi farklı veri kümesini bir araya getirmek, LLM bilgisinin çoktan seçmeli doğruluk veya BLEU gibi doğal dil oluşturma ölçütlerinden daha derin bir şekilde değerlendirilmesini sağlar. Bir araya getirdiğimiz veri kümeleri farklı yetenekleri araştırmaktadır - bazıları çoktan seçmeli sorularken diğerleri uzun formlu cevaplar gerektirmektedir; bazıları açık alanlıyken (soruların mevcut bilgileri önceden belirlenmiş bir kaynakla sınırlandırmadan cevaplandığı) diğerleri kapalı alandır (soruların ilişkili referans metinden içerik alınarak cevaplandığı) ve farklı kaynaklardan gelmektedir. Son yıllarda tıbbi soru yanıtlama alanında kapsamlı faaliyetler yürütülmektedir ve tıbbi soru yanıtlama veri kümelerinin kapsamlı bir özeti için [33]'e başvuruyoruz.

Tablo 1 | MultiMedQA'nın kıyaslamadaki veri kümelerinin formatını, boyutunu ve etki alanını açıklayan özeti.

MultiMedQA - Tıbbi soru yanıtlama için bir ölçüt

MultiMedQA, çoktan seçmeli soru yanıtlama veri kümelerini, tıp uzmanlarından gelen sorulara daha uzun formda yanıtlar gerektiren veri kümelerini ve profesyonel olmayanlar tarafından sorulabilecek sorulara daha uzun formda yanıtlar gerektiren veri kümelerini içerir. Bunlar arasında MedQA [33], MedMCQA [64], PubMedQA [34], LiveQA [1], MedicationQA [2] ve MMLU klinik konuları [29] veri kümeleri bulunmaktadır. MultiMedQA'yı, yaygın olarak aranan sağlık sorgularından oluşan yeni bir veri kümesi ile daha da güçlendirdik: HealthSearchQA. Tüm veri kümeleri İngilizce dilindedir ve bunları aşağıda ayrıntılı olarak açıklıyoruz.

Bu veri setleri aşağıdaki eksenler boyunca çeşitlilik göstermektedir:

Format: çoktan seçmeli ve uzun cevaplı sorular
Test edilen yetenekler: örneğin, tıbbi gerçeklerin tek başına hatırlanmasının değerlendirilmesi ile gerçeklerin hatırlanmasına ek olarak tıbbi muhakeme yeteneklerinin değerlendirilmesi
Etki alanı: açık etki alanına karşı kapalı etki alanı soruları
Soru kaynağı: profesyonel tıbbi muayenelerden, tıbbi araştırmalardan veya tıbbi bilgi arayan tüketicilerden
Etiketler ve meta veriler: etiketlerin veya açıklamaların varlığı ve bunların kaynakları

MedMCQA, PubMedQA, LiveQA ve MedicationQA referans uzun form cevapları veya açıklamaları sağlasa da, bu çalışmada bunları kullanmıyoruz. İlk olarak, referans cevaplar farklı veri kümeleri arasında tutarlı kaynaklardan gelmemektedir. Yanıtlar genellikle otomatik araçlardan veya kütüphaneciler gibi klinisyen olmayan kişilerden gelmektedir. Bu öncü veri kümelerindeki referans cevapların ve açıklamaların yapısı, uzun cevap kalitesinin bütünsel veya kapsamlı değerlendirmeleri için optimize edilmemiştir, bu da onları BLEU gibi otomatik doğal dil metriklerini kullanarak LLM'leri değerlendirmek için bir "temel gerçek" olarak kullanmak için yetersiz kılmaktadır. Bunu hafifletmek için, Bölüm 4.5'te tartışıldığı gibi, kalifiye klinisyenlerden kıyaslamadaki soruların bir alt kümesine standartlaştırılmış bir yanıt seti elde ettik. İkinci olarak, tıbbi alanın güvenlik açısından kritik gereksinimleri göz önüne alındığında, BLEU gibi ölçütleri kullanarak uzun formlu yanıt oluşturma kalitesinin otomatik ölçümlerinin ötesine geçmenin, bu çalışmada önerilen gibi daha incelikli insan değerlendirme çerçevelerini içerenlere geçmenin önemli olduğuna inanıyoruz.

MedQA (USMLE) MedQA veri kümesi [33], ABD'deki Ulusal Tıp Kurulu Sınavından 4 veya 5 olası cevap seçeneği ile elde edilen ABD Tıbbi Lisans Sınavı (USMLE) tarzı sorulardan oluşmaktadır. Geliştirme kümesi 11450 sorudan, test kümesi ise 1273 sorudan oluşmaktadır.

MedQA (2021) [33]

Format: Soru + Cevap, çoktan seçmeli, açık alan

Boyut (Geliştirme/Test): 11450 / 1273

Soru: Hipertansiyonu olan 65 yaşında bir erkek rutin sağlık muayenesi için hekime geliyor. Mevcut ilaçları arasında atenolol, lisinopril ve atorvastatin bulunuyor. Nabzı 86/dk, solunum sayısı 18/dk ve kan basıncı 145/95 mm Hg. Kardiyak muayenede diyastol sonu üfürüm duyuluyor. Bu fizik muayenenin en olası nedeni aşağıdakilerden hangisidir?

Cevap: (A) Sol ventrikülün kompliyansının azalması (B) Mitral kapağın miksomatöz dejenerasyonu (C) Perikardın iltihaplanması (D) Aort kökünün genişlemesi (E) Mitral kapak yaprakçıklarının kalınlaşması

MedMCQA MedMCQA veri kümesi, Hindistan tıbbi giriş sınavlarından (AIIMS/NEET) alınan 194 binden fazla 4 seçenekli çoktan seçmeli sorudan oluşmaktadır [64]. Bu veri kümesi 2,4 bin sağlık konusunu ve 21 tıbbi konuyu kapsamaktadır. Geliştirme seti 187 binden fazla soru ile oldukça önemlidir.

MedMCQA (2022) [64]

Format: Soru + Cevap, çoktan seçmeli, açık alan

Boyut (Dev/Test): 187000 / 6100

Soru: Aşağıdaki ultrason bulgularından hangisi anöploidi ile en yüksek ilişkiye sahiptir?

Cevap: (A) Koroid pleksus kisti (B) Nukal translusensi (C) Kistik higroma (D) Tek umbilikal arter Açıklama: Yukarıda belirtilenlerin hepsi anöploidi riskinde artış ile ilişkili ultrason bulgularıdır, ancak en yüksek ilişki kistik higroma ile görülmektedir. Nukal translusensi ve kistik higroma ilk trimesterde ölçülür. Trizomi 21 artmış NT ve kistik higroma ile ilişkili en yaygın anöploidi iken monozomi X ikinci trimesterde higroma olarak ortaya çıkar.

PubMedQA PubMedQA veri kümesi [34], görevin bağlam olarak bir PubMed özeti ile birlikte bir soru verilen evet/hayır/belki çoktan seçmeli bir cevap üretmek olduğu 1k uzman etiketli soru cevap çiftinden oluşur. MedQA ve MedMCQA veri kümeleri açık alan soru cevaplama görevleri iken, PubMedQA görevi kapalı alandır, çünkü destekleyici PubMed özet bağlamından cevap çıkarımı gerektirir.

PubMedQA (2019) [34]

Format: Soru + Cevap + bağlam, çoktan seçmeli, kapalı alan

Boyut (Geliştirme/Test): 500 / 500

Soru: Çift balon enteroskopi: toplum ortamında etkili ve güvenli midir? Bağlam: Mart 2007'den Ocak 2011'e kadar 66 hastaya 88 DBE prosedürü uygulandı. Endikasyonlar arasında anemi/gastrointestinal kanama değerlendirmesi, ince bağırsak İBH ve darlıkların dilatasyonu yer aldı. DBE değerlendirmesinden önce 66 hastanın 43'ünde DBE öncesinde video-kapsül endoskopi (VCE) kullanıldı. Ortalama yaş 62 idi. Otuz iki hasta kadın, 15 hasta Afrikalı-Amerikalı idi; 44 antegrad ve 44 retrograd DBE yapıldı. gerçekleştirildi. Antegrad DBE başına ortalama süre 107.4 ± 30.0 dakika ve mesafe 318.4 ± 152.9 cm idi. pilorun ötesine ulaşmıştır. Alt DBE başına ortalama süre 100,7 ± 27,3 dakika ve 168,9 ± 109,1 cm metre idi. ileoçekal valfin ötesine ulaşmıştır. Kanama kaynaklarını ablate etmek için elektrokoter şeklinde endoskopik tedavi 20 hastada (%30,3), biyopsi 17 hastada (%25,8) ve Crohn ile ilişkili ince bağırsak darlıklarının dilatasyonu 4 hastada (%6,1) gerçekleştirilmiştir. DBE öncesinde patoloji kaydedilen 43 VCE gerçekleştirilmiş ve 32 vakada (%74,4) bulgular endoskopik olarak doğrulanmıştır. 3 vakada DBE, VCE'de belirtilmeyen bulguları göstermiştir.

Cevap ver: Evet

Uzun Cevap: DBE, toplum ortamında uygulandığında, karşılaştırılabilir bir verim, etkinlik ve komplikasyon oranı ile üçüncü basamak bir sevk merkezine kıyasla eşit derecede güvenli ve etkili görünmektedir

MMLU "Measuring Massive Multitask Language Understanding" (MMLU) [29] 57 alandan sınav soruları içermektedir. Tıbbi bilgiyle en ilgili alt görevleri seçtik: "anatomi", "klinik bilgi", "üniversite tıbbı", "tıbbi genetik", "profesyonel tıp" ve "üniversite biyolojisi". Her MMLU alt görevi, cevaplarla birlikte dört seçenekli çoktan seçmeli sorular içermektedir.

LiveQA LiveQA veri kümesi [1], Text Retrieval Challenge (TREC) 2017'nin bir parçası olarak hazırlanmıştır. Veri kümesi, insanlar tarafından Ulusal Tıp Kütüphanesi'ne (NLM) gönderilen tıbbi sorulardan oluşmaktadır. Veri kümesi ayrıca Ulusal Sağlık Enstitüsü (NIH) web sitesi gibi güvenilir kaynaklardan manuel olarak toplanan referans cevaplardan oluşmaktadır.

LiveQA (2017) [1]

Format: Soru + uzun yanıtlar, serbest metin yanıtı, açık alan

Boyut (Dev/Test): 634/104

Soru: Pasif içicilik Pasif içicilik erken YBMD'ye katkıda bulunabilir veya neden olabilir mi?

Uzun Cevap: Sigara içmek bir kişinin YBMD geliştirme olasılığını iki ila beş kat artırır. Retinanın yüksek oranda oksijen tüketimi olduğundan, retinaya oksijen iletimini etkileyen her şey görmeyi etkileyebilir. Sigara içmek oksidatif hasara neden olarak bu hastalığın gelişmesine ve ilerlemesine katkıda bulunabilir. Sigaranın retinaya neden zarar verdiği hakkında daha fazla bilgi edinin ve görüşünüzü korumak için atabileceğiniz bir dizi adımı keşfedin.

MedicationQA MedicationQA veri kümesi [2] ilaçlar hakkında yaygın olarak sorulan tüketici sorularından oluşmaktadır. Soruya ek olarak, veri kümesi ilaç odağı ve etkileşimlerine karşılık gelen ek açıklamalar içerir. LiveQA'ya benzer şekilde, modellerin test kümesindeki sorulara uzun formda yanıtlar üretme becerisini değerlendiriyoruz.

MedicationQA (2017) [2]

Format: Soru + uzun yanıtlar, serbest metin yanıtı, açık alan

Boyut (Dev/Test): NA/674

Soru: Valium beyni nasıl etkiler?

Odak (İlaç): Valium

Soru Türü: Eylem

Uzun Cevap: Diazepam, anksiyolitik, sedatif, kas gevşetici, antikonvülsan ve amnestik etkiler gösteren bir benzodiazepindir. Bu etkilerin çoğunun, merkezi sinir sisteminde inhibitör bir nörotransmitter olan gama aminobütirik asit (GABA) etkisinin kolaylaştırılmasından kaynaklandığı düşünülmektedir.

Bölüm Başlığı: KLİNİK FARMAKOLOJİ

URL: https://dailymed.nlm.nih.gov/dailymed/drugInfo.cfm?setid=554baee5-b171-4452-a50a-41a0946f956c

HealthSearchQA "HealthSearchQA" olarak adlandırılan ve yaygın olarak aranan 3375 tüketici sorusundan oluşan kendi ek veri setimizi oluşturduk. Veri kümesi, tohum tıbbi durumlar ve bunlarla ilişkili semptomlar kullanılarak hazırlanmıştır. Çekirdek verileri, bir arama motoru tarafından oluşturulan ve çekirdek terimleri giren tüm kullanıcılara görüntülenen halka açık yaygın olarak aranan soruları almak için kullandık. Veri kümesini, tüketicilerin tıbbi sorularına yanıt verme konusunda açık bir ölçüt olarak yayınlıyoruz ve bunun gerçek dünyadaki tüketici endişelerini yansıtan bir veri kümesi olarak topluluk için yararlı bir kaynak olacağını umuyoruz.

HealthSearchQA (Bizim)

Format: Sadece soru, serbest metin yanıtı, açık alan

Boyut: 3375

Soru: Atriyal fibrilasyon ne kadar ciddidir?

Soru: Covid ile ne tür öksürük olur? Covid ile birlikte ne tür öksürük gelir?

Soru: Balgamda kan var mı? Balgamda kan görülmesi ciddi midir?

MultiMedQA, LLM'lerin tıbbi soru yanıtlama yeteneklerini birden fazla eksende incelememize olanak tanırken, bunun kapsamlı olmadığını kabul ediyoruz. Gelecekteki çalışmalarda, karşılaştırma ölçütünü elektronik tıbbi kayıtlardan soru yanıtlama becerisini araştıranlar [65] veya klinik öncesi biyomedikal bilgi gerektirenler [83] gibi diğer ilgili veri kümelerine genişletmeyi planlıyoruz.

İnsan değerlendirmesi için çerçeve

Burada, tıbbi sorulara verilen uzun biçimli yanıtların insan değerlendirmesi için önerdiğimiz çerçeveyi açıklıyoruz.

Klinisyen değerlendirmesi

Çoktan seçmeli sorulardaki nesnel doğruluk ölçümleri model performansının sağlam bir ölçütü olsa da, bazı önemli ayrıntıları atlarlar. Açık uçlu sorularda LLM'lerin üretken çıktılarını daha derinlemesine değerlendirmek için

Tablo 2 | Tüketici tıbbi soru cevaplama veri setlerimizde klinisyenlerin cevapları değerlendirdiği farklı eksenlerin özeti. Bunlar arasında bilimsel fikir birliği ile uyum, zarar verme olasılığı ve ihtimali, anlama, muhakeme ve geri çağırma becerisinin kanıtı, uygunsuz, yanlış veya eksik içeriğin varlığı ve cevapta önyargı olasılığı yer almaktadır. Biz

Bu eksenler boyunca model ve insan tarafından üretilen cevapların kalitesini değerlendirmek için bir klinisyen havuzu kullanın.

Görev	Eksen	Soru
1	Bilimsel fikir birliği	Bu cevap, bilimsel ve toplumsal uzlaşmayla nasıl ilişkilidir? klinik topluluk?
2	Olası zararın kapsamı	Olası zararın boyutu nedir?
3	Olası zarar olasılığı	Olası zarar olasılığı nedir?
4	Doğru anlamanın kanıtı	Cevap, doğru okuma anlayışına dair herhangi bir kanıt içeriyor mu? hension? (sorunun anlaşıldığına dair gösterge)
5	Doğru alımın kanıtı	Cevap, bilginin doğru hatırlandığına dair herhangi bir kanıt içeriyor mu? kenar? (soruyu yanıtlamak için ilgili ve/veya doğru bir gerçeğin belirtilmesi)
6	Doğru akıl yürütmenin kanıtı	Cevap, doğru akıl yürütme adımlarına dair herhangi bir kanıt içeriyor mu? (soruyu yanıtlamak için doğru gerekçe)
7	Yanlış anlamanın kanıtı	Cevapta yanlış okuma yapıldığına dair herhangi bir kanıt var mı? Prehension? (sorunun anlaşılmadığının göstergesi)
8	Yanlış alımın kanıtı	Cevap, bilginin yanlış hatırlandığına dair herhangi bir kanıt içeriyor mu? kenar? (soruyu yanıtlamak için alakasız ve/veya yanlış bir olgudan bahsedilmesi)
9	Yanlış muhakeme kanıtı	Cevap, yanlış muhakeme adımlarına dair herhangi bir kanıt içeriyor mu? (soruyu yanıtlamak için yanlış gerekçe)
10	Uygunsuz/yanlış içerik	Cevapta olmaması gereken herhangi bir içerik var mı?
11	Eksik içerik	Cevapta atlanmaması gereken herhangi bir içerik var mı?
12	Önyargı olasılığı	Yanıt, belirli bir tıbbi demografik grup için uygulanamaz veya yanlış herhangi bir bilgi içeriyor mu?

Tıbbi konular için soru yanıtlama, LiveQA, MedicationQA ve HealthSearchQA veri kümelerindeki tüketici tıbbi sorularına verilen uzun biçimli model yanıtlarının insan değerlendirmesi için bir pilot çerçeve geliştirdik.

Pilot çerçeve, klinik ortamlarda LLM nesillerinin güçlü ve zayıf yönlerini incelemek için Feng ve diğerleri

[22] tarafından benzer bir alanda yayınlanan yaklaşımlardan esinlenmiştir. Ek değerlendirme eksenlerini belirlemek için Birleşik Krallık, ABD ve Hindistan'da bulunan klinisyenlerle odak grupları ve görüşmeler kullandık [60] ve çerçeve maddelerini bilimsel fikir birliği, zarar olasılığı ve olasılığı, cevapların tamlığı ve eksiksizliği ve önyargı olasılığı kavramlarını ele alacak şekilde genişlettik. Bilimsel fikir birliği ile uyum, değerlendiricilere modelin çıktısının hakim bir bilimsel fikir birliği (örneğin iyi kabul görmüş klinik uygulama kılavuzları şeklinde) ile uyumlu olup olmadığı, bilimsel bir fikir birliğine karşı olup olmadığı veya soruyla ilgili net bir bilimsel fikir birliği bulunup bulunmadığı sorularak ölçülmüştür. Zarar, çeşitli boyutlarda (örneğin fiziksel sağlık, ruh sağlığı, ahlaki, finansal ve diğerleri) değerlendirilebilen karmaşık bir kavramdır. Bu soruyu yanıtlarken, değerlendiricilerden yalnızca fiziksel/ruhsal sağlıkla ilgili zararlara odaklanmaları istenmiş ve hem şiddeti (AHRQ ortak zarar formatlarından esinlenen bir formatta [93]) hem de yanıtın içeriğine göre bir tüketici veya hekimin harekete geçebileceği varsayımı altında olasılığı değerlendirmişlerdir. Önyargı, yanıtın belirli bir hasta demografisi için uygulanamaz veya yanlış olabilecek bilgiler içerip içermediği göz önünde bulundurularak değerlendiriciler tarafından genel olarak değerlendirilmiştir. Değerlendirmede sorulan sorular Tablo 2'de özetlenmiştir

Çerçeve maddelerimizin biçimi, ifadeleri ve yanıt ölçeği noktaları, üç kalifiye klinisyen tarafından veri kümesi başına 25 soru-cevap ikilisinin üçlü değerlendirmeleriyle daha fazla görüşme yapılarak rafine edilmiştir. Klinisyenler için talimatlar, sorular için gösterge niteliğinde derecelendirme örnekleri de dahil olmak üzere yazılmış ve klinisyenlerin derecelendirme yaklaşımları talimatların kullanılabilir olduğunu gösterecek şekilde birleşene kadar yinelenmiştir. Yönergeler yakınsadıktan sonra, tüketici tıbbi soruları veri kümelerinden daha büyük bir soru-cevap kümesi, Birleşik Krallık, ABD veya Hindistan'da bulunan ve uygulama için nitelikli dokuz klinisyenden biri tarafından gerçekleştirilen tek derecelendirmelerle değerlendirilmiştir

Tablo 3 | Uzman olmayan kullanıcıların tüketici tıbbi soru yanıtlama veri setlerimizdeki yanıtların faydasını değerlendirdiği farklı eksenlerin özeti. Bu eksenler boyunca model ve insan tarafından oluşturulan cevapların kalitesini değerlendirmek için uzman olmayan 5 kullanıcıdan oluşan bir havuz kullanıyoruz.

Görev

Eksen

Soru

Yanıt, kullanıcı amacını

yakalar

Cevap, sorunun amacına ne kadar iyi hitap ediyor?

Cevabın yararlılığı

Bu cevap kullanıcı için ne kadar yararlı? (örneğin, bir sonuca varmalarını sağlıyor mu veya sonraki adımları netleştirmeye yardımcı

oluyor mu?)

Kendi ülkelerinde pediatri, cerrahi, dahiliye ve birinci basamak dahil olmak üzere uzmanlık deneyimine sahiptir.

Sıradan kullanıcı (uzman olmayan) değerlendirmesi

Tüketicilerin tıbbi sorularına verilen yanıtların yararlılığını ve kullanışlılığını değerlendirmek için ek bir uzman olmayan kullanıcı değerlendirmesi yaptık. Bu değerlendirme, tamamı Hindistan'da yaşayan ve tıp geçmişi olmayan beş değerlendirici tarafından gerçekleştirilmiştir. Bu uygulamanın amacı, cevabın sorunun altında yatan algılanan amacı ne kadar iyi ele aldığını ve ne kadar yararlı ve eyleme geçirilebilir olduğunu değerlendirmekti. Değerlendirmede sorulan sorular Tablo 3'te özetlenmiştir

Modelleme

Bu bölümde, büyük dil modellerini (LLM'ler) ve bunları tıbbi alanın gereksinimleriyle uyumlu hale getirmek için kullanılan teknikleri detaylandırıyoruz.

Modeller

Bu çalışmada PaLM ve Flan-PaLM LLM ailesini temel alıyoruz.

14] tarafından tanıtılan PaLM Pathways Dil Modeli (PaLM), TPU bölmeleri arasında yüksek verimli eğitim sağlayan büyük ölçekli bir makine öğrenimi hızlandırıcı düzenleme sistemi olan Pathways [4] kullanılarak eğitilmiş, yoğun olarak etkinleştirilen bir kod çözücü-sadece dönüştürücü dil modelidir. PaLM eğitim derlemi, web sayfaları, Wikipedia makaleleri, kaynak kodu, sosyal medya konuşmaları, haber makaleleri ve kitapların bir karışımını temsil eden 780 milyar belirteçten oluşur. Her üç PaLM modeli varyantı da eğitim verilerinin tam olarak bir epoğu için eğitilmiştir. Eğitim derlemi hakkında daha fazla ayrıntı için [14, 19, 80]'e başvuruyoruz. PaLM 540B, piyasaya sürüldüğünde, çok adımlı muhakeme görevlerinde ince ayarlanmış son teknoloji modellerden daha iyi performans göstererek ve BIG-bench'te ortalama insan performansını aşarak çığır açan bir performans elde etti [14, 78].

Flan-PaLM Temel PaLM modellerine ek olarak, [15] tarafından tanıtılan talimat ayarlı muadili de dikkate aldık. Bu modeller komut ayarlaması kullanılarak eğitilir, yani her örneğin önüne talimatların ve/veya az sayıda örneklerin bir kombinasyonunun eklendiği bir veri kümesi koleksiyonu üzerinde modele ince ayar yapılır. Özellikle Chung ve arkadaşları [15] görev sayısını, model boyutunu ölçeklendirmenin ve talimat olarak düşünce zinciri verilerini [91] kullanmanın etkinliğini göstermiştir. Flan-PaLM modeli MMLU, BBH ve TyDIQA [16] gibi çeşitli ölçütlerde son teknoloji performansa ulaşmıştır. 15]'te ele alınan değerlendirme görevleri paketinde Flan-PaLM, temel PaLM'den ortalama %9,4 daha iyi performans göstererek komut ayarlama yaklaşımının etkinliğini ortaya koymuştur.

Bu çalışmada hem PaLM hem de Flan-PaLM model varyantlarını üç farklı model boyutunda ele aldık: 8B, 62B ve 540B, en büyük modelde ön eğitim için 6144 TPUv4 çip kullanılmıştır.

LLM'lerin tıp alanına uyarlanması

PaLM [14] ve GPT-3 [12] gibi genel amaçlı LLM'ler, BIG-bench gibi zorlu ölçütlerde çok çeşitli görevlerde son teknoloji performansa ulaşmıştır. Ancak, tıbbi alanın güvenlik açısından kritik doğası göz önüne alındığında, modeli alana özgü verilerle uyarlamak ve hizalamak gerekir. Tipik transfer öğrenme ve etki alanı uyarlama yöntemleri, modelin büyük miktarda veri ile uçtan uca ince ayarlanmasına dayanır.

Alan içi veriler, tıbbi verilerin azlığı göz önüne alındığında burada zor olan bir yaklaşımdır. Bu nedenle, bu çalışmada istem [12] ve istem ayarlama [45] üzerine inşa edilen veri verimli hizalama stratejilerine odaklandık.

Yönlendirme stratejileri Brown ve diğerleri [12], LLM'lerin, yönlendirme stratejileri aracılığıyla hızlı bağlam içi öğrenmenin elde edilebildiği güçlü az atımlı öğreniciler olduğunu göstermiştir. Bu modeller, girdi bağlamında ipucu metni olarak kodlanan bir avuç gösteri örneği aracılığıyla, herhangi bir gradyan güncellemesi veya ince ayar yapmadan yeni örneklere ve yeni görevlere genelleme yapabilmektedir. Bağlam içi az atımlı öğrenmenin dikkate değer başarısı, özellikle matematik problemleri gibi çok adımlı hesaplama ve akıl yürütme problemleri için karalama defteri [61], düşünce zinciri [91] ve en azdan en çoğa yönlendirme

[100] dahil olmak üzere birçok yönlendirme stratejisinin geliştirilmesini teşvik etmiştir [17]. Bu çalışmada, aşağıda tartışıldığı gibi standart birkaç atış, düşünce zinciri ve öz tutarlılık ipucuna odaklandık.

Az sayıda ipucu Standart az sayıda ipucu stratejisi Brown ve arkadaşları tarafından tanıtılmıştır [12]. Burada modele verilen ipucu, metin tabanlı gösterimler aracılığıyla görevi açıklayan az sayıda örnek içerecek şekilde tasarlanmıştır. Bu gösterimler tipik olarak girdi-çıktı çiftleri olarak kodlanır. Örnek sayısı tipik olarak modelin girdi bağlam penceresine sığabilecek belirteç sayısına bağlı olarak seçilir. Komut isteminden sonra, modele bir girdi sağlanır ve test zamanı tahminini oluşturması istenir. Zero-shot promptting muadili tipik olarak herhangi bir ek örnek olmaksızın yalnızca görevi açıklayan bir talimat içerir. Brown ve arkadaşları [12], sıfır atımlı ipucunun model boyutuyla mütevazı bir şekilde ölçeklenirken, birkaç atımlı ipucuyla performansın daha hızlı arttığını gözlemlemiştir. Ayrıca, Wei ve arkadaşları [90] ortaya çıkan yetenekleri, yani küçük modellerde var olmayan ancak yönlendirme paradigmasında belirli bir model boyutunun ötesinde rastgele performansın üzerinde hızla gelişen yetenekleri gözlemlemiştir.

Bu çalışmada, en iyi tanıtım örneklerini belirlemek ve az sayıda ipucu oluşturmak için nitelikli klinisyenlerden oluşan bir panelle çalıştık. Bölüm A.8'de ayrıntılı olarak açıklandığı üzere her veri kümesi için ayrı istemler tasarlanmıştır. Az sayıda gösterimin sayısı veri setine bağlı olarak değişmiştir. Tüketici tıbbi soru yanıtlama veri kümeleri için tipik olarak 5 girdi-çıktı örneği kullandık, ancak istem metni içindeki soyut bağlama da uyma ihtiyacı göz önüne alındığında PubMedQA için bu sayıyı 3 veya daha aza indirdik.

Wei ve diğerleri [91] tarafından tanıtılan düşünce zinciri yönlendirmesi Düşünce zinciri (CoT), yönlendirmedeki her bir az sayıda örneğin adım adım bir dökümle ve nihai cevaba doğru tutarlı bir dizi ara muhakeme adımıyla desteklenmesini içerir. Bu yaklaşım, çok adımlı hesaplama ve muhakeme gerektiren problemleri çözerken insan düşünce sürecini taklit etmek üzere tasarlanmıştır. Wei ve arkadaşları [91], CoT yönlendirmesinin yeterince büyük dil modellerinde muhakeme yeteneklerini ortaya çıkarabileceğini ve matematik problemleri gibi görevlerde performansı önemli ölçüde artırabileceğini göstermiştir [17]. Ayrıca, bu tür CoT muhakemesinin ortaya çıkması, LLM'lerin ortaya çıkan bir yeteneği [90] gibi görünmektedir. Lewkowycz ve arkadaşları [47] çalışmalarında CoT yönlendirmesini temel stratejilerden biri olarak kullanarak çeşitli STEM ölçütlerinde çığır açan LLM performansı elde etmişlerdir.

Bu çalışmada incelenen tıbbi soruların birçoğu karmaşık çok adımlı muhakeme içerdiğinden CoT yönlendirme teknikleri için iyi bir seçimdir. Klinisyenlerle birlikte, verilen tıbbi soruların nasıl muhakeme edileceği ve cevaplanacağı konusunda net gösterimler sağlamak için CoT istemleri hazırladık. Bu tür yönlendirmelerin örnekleri Bölüm A.9'da ayrıntılı olarak açıklanmıştır.

Öz-tutarlılık istemi Çoktan seçmeli kriterlerde performansı artırmak için basit bir strateji, modelden birden fazla kod çözme çıktısı istemek ve örneklemektir. Nihai cevap, çoğunluk (veya çoğulluk) oyuna sahip olandır. Bu fikir Wang ve arkadaşları [88] tarafından "öz tutarlılık" adı altında ortaya atılmıştır. Bu yaklaşımın arkasındaki mantık, tıp gibi karmaşık muhakeme yollarına sahip bir alan için doğru cevaba giden birden fazla potansiyel yol olabileceğidir. Muhakeme yollarını marjinalleştirmek en tutarlı cevaba götürebilir. Öz-tutarlılık yönlendirme stratejisi [47]'de özellikle güçlü iyileştirmelere yol açmıştır ve biz de çoktan seçmeli sorular içeren veri kümelerimiz için aynı yaklaşımı benimsedik: MedQA, MedMCQA, PubMedQA ve MMLU.

LLM'ler yüz milyarlarca parametreye ulaştığından [12, 14], bunların ince ayarını yapmak hesaplama açısından olağanüstü pahalıdır. Az atımlı ipucunun başarısı bu sorunu büyük ölçüde hafifletmiş olsa da, birçok görev gradyan tabanlı öğrenmeden daha fazla fayda sağlayacaktır. Lester ve arkadaşları [45], basit ve hesaplama açısından ucuz bir yöntem olan ipucu ayarını (ipucu verme / hazırlamanın aksine) tanıtmıştır.

Şekil 2 | Med-PaLM için komut istemi ayarlaması Tüketici tıbbi soru yanıtlama veri kümelerinin her biri için nitelikli klinisyenlerden oluşan bir panelden alınan talimatları ve örnekleri kullanıyoruz ve bunları Flan-PaLM'yi talimat istemi ayarlaması için kullanıyoruz. Med-PaLM, tıbbi alanla uyumlu ek komut istemi parametreleri ile ortaya çıkan modeldir.

LLM'leri, özellikle sınırlı verilerle, belirli aşağı akış görevlerine uyarlamak için bir yöntem. Yaklaşım, LLM'nin geri kalanını dondurulmuş halde tutarken geri yayılım yoluyla yumuşak uyarı vektörlerinin öğrenilmesini içerir, böylece tek bir modelin görevler arasında kolayca yeniden kullanılmasına izin verir.

Yumuşak ipuçlarının bu kullanımı, GPT-3 [12] gibi LLM'ler tarafından popüler hale getirilen ayrık "sert" metin tabanlı birkaç vuruşluk ipuçlarıyla karşılaştırılabilir. İpucu ayarlaması herhangi bir sayıda etiketli örnekten faydalanabilirken, tipik olarak iyi performans elde etmek için yalnızca birkaç örnek (örneğin onlarca) gereklidir. Ayrıca, Lester ve ark.

[45] hızlı ayarlanmış model performansının artan model ölçeğinde uçtan uca ince ayarlama ile karşılaştırılabilir hale geldiğini göstermiştir. Diğer ilgili yaklaşımlar arasında, önek aktivasyon vektörlerinin LLM kodlayıcının her katmanına eklendiği ve geri yayılım yoluyla öğrenildiği önek ayarlama [48] yer almaktadır. Lester ve arkadaşlarının [45] hızlı ayarlaması bu fikrin basitleştirilmesi olarak düşünülebilir ve öğrenilebilir parametreleri yalnızca girişe yumuşak bir uyarı olarak eklenen az sayıda belirteci temsil edenlerle sınırlandırır.

Talimat istemi ayarlama

Wei ve diğerleri [89] ve Chung ve diğerleri [15] çoklu görev komutu ince ayarının faydalarını göstermiştir: Flan-PaLM modeli BIG-bench [47] ve MMLU [29] gibi çeşitli kıyaslamalarda en iyi performansı elde etmiştir. Özellikle Flan-PaLM, ince ayarda CoT verilerini kullanmanın faydalarını göstermiş ve muhakeme gerektiren görevlerde güçlü iyileştirmeler sağlamıştır.

Talimat ayarlamasının güçlü performansı göz önüne alındığında, bu çalışmada öncelikle Flan-PALM modeli üzerine inşa ettik. Bununla birlikte, Bölüm 4.5'te tartışıldığı gibi, insan değerlendirmemiz Flan-PaLM'nin tüketici tıbbi soru yanıtlama veri kümelerindeki performansında, birkaç atışlı yönlendirme ile bile önemli boşluklar olduğunu ortaya koydu. Modeli güvenlik açısından kritik tıbbi alanın gerekliliklerine daha uygun hale getirmek için, özellikle tıbbi veriler üzerinde ek eğitim araştırdık.

Bu ek eğitim için, hesaplama ve klinisyen veri oluşturma maliyetleri göz önüne alındığında tam model ince ayarı yerine hızlı ayar kullandık. Yaklaşımımız, Flan-PaLM'nin "talimatları takip etmeyi öğrenme" ilkesini istem ayarlama aşamasına etkili bir şekilde genişletmektedir. Spesifik olarak, istem ayarlama ile öğrenilen yumuşak istemi, göreve özgü insan tarafından tasarlanmış bir istemin yerine kullanmak yerine, yumuşak istemi kullanıyoruz

Birden fazla tıbbi veri kümesinde paylaşılan bir başlangıç öneki olarak ve bunu, asıl soru ve/veya bağlamla birlikte ilgili göreve özgü insan tarafından tasarlanmış istem (talimatlardan ve/veya düşünce zinciri örnekleri olabilen az sayıda örnekten oluşan) takip eder.

Bu yönerge ayarlama yöntemini "yönerge ayarlama" olarak adlandırıyoruz. Bu nedenle, komut istemi ayarlaması, bir veya daha fazla alandaki talimatları takip etmek için bir modeli eğitmenin hafif bir yolu (veri açısından verimli, parametre açısından verimli, hem eğitim hem de çıkarım sırasında hesaplama açısından verimli) olarak görülebilir. Bizim ortamımızda, talimat istemi ayarlaması, LLM'leri hedeflediğimiz tıbbi veri kümeleri ailesinde kullanılan belirli talimat türlerini daha iyi takip edecek şekilde uyarlamıştır.

Yumuşak ipucu ile sert ipucunun birleşimi göz önüne alındığında, talimat ipucu ayarı, yumuşak bir ipucuna sert bağlantı belirteçleri ekleyen [53], sert bir ipucuna öğrenilmiş yumuşak belirteçler ekleyen

[28] veya kısa bir sıfır vuruşlu sert ipucu için önek olarak öğrenilmiş bir yumuşak ipucu kullanan mevcut tekniklerin yanı sıra bir tür "sert-yumuşak hibrit ipucu ayarı" [52] olarak düşünülebilir [26, 96]. Bildiğimiz kadarıyla bizim çalışmamız, talimatlar ve az sayıda örnek içeren tam bir sert komut isteminin önüne eklenen yumuşak bir komut istemi öğrenmenin yayınlanmış ilk örneğidir.

Her şeyi bir araya getiriyoruz: Med-PaLM

Flan-PaLM'yi tıbbi alana uyarlamak için, küçük bir örnek kümesi üzerinde talimat istemi ayarlaması uyguladık. Bu örnekler, modele tıbbi anlama, klinik bilginin hatırlanması ve hastanın zarar görmesine yol açması muhtemel olmayan tıbbi bilgiler üzerinde akıl yürütme gibi iyi örneklerle tıbbi alanın gereklilikleriyle daha uyumlu metin nesilleri üretmesi talimatını vermek için etkili bir şekilde kullanıldı. Bu nedenle, bu örneklerin iyileştirilmesi çok önemliydi.

MultiMedQA serbest yanıt veri setlerinden (HealthSearchQA, MedicationQA, LiveQA) rastgele örnekler aldık ve beş klinisyenden oluşan bir panelden örnek yanıtlar vermelerini istedik. Bu klinisyenler ABD ve İngiltere'de birinci basamak, cerrahi, dahiliye ve pediatri alanlarında uzmanlık deneyimine sahipti. Klinisyenler daha sonra modeli öğretmek için iyi örnekler olmadığına karar verdikleri soru / cevap çiftlerini filtreledi. Bu genellikle klinisyenler belirli bir soru için "ideal" bir model cevabı üretemeyeceklerini düşündüklerinde, örneğin bir soruyu cevaplamak için gereken bilgi bilinmiyorsa gerçekleşti. Talimat istemi ayarlama eğitimi için kullanılan HealthSearchQA, MedicationQA ve LiveQA genelinde 40 örnek kaldı.

Ortaya çıkan model Med-PaLM, Flan-PaLM ile birlikte MultiMedQA'nın tüketici tıbbi soru yanıtlama veri kümeleri üzerinde değerlendirilmiştir. Şekil 2, Med-PaLM için talimat istemi ayarlama yaklaşımımıza genel bir bakış sunmaktadır. Hiperparametre optimizasyonu ve model seçim süreci hakkında daha fazla ayrıntı Bölüm A.1'de bulunabilir. Med-PaLM için model kartı Bölüm A.5'te verilmiştir.

4. Sonuçlar

Bu bölümde, ilk olarak Şekil 3 ve 4'te özetlenen temel sonuçlarımıza genel bir bakış sunuyoruz. Ardından, sonuçları bağlamsallaştırmaya ve yorumlamaya yardımcı olmak için birkaç ablasyon sunuyoruz.

Flan-PaLM, MedQA'da (USMLE) önceki en son teknolojiyi %17'nin üzerinde aştı

Flan-PaLM 540B modelimiz, 4 seçenekli USMLE tarzı sorulardan oluşan MedQA veri kümesinde, DRAGON modelini [94] %20,1 oranında geride bırakarak %67,6'lık bir çoktan seçmeli soru (MCQ) doğruluğu elde etmiştir.

Bizim çalışmamızla eş zamanlı olarak Bolton ve arkadaşları [9] sadece biyomedikal özetler ve makaleler üzerinde eğitilmiş 2,7 milyarlık bir model olan PubMedGPT'yi geliştirmiştir. Model, 4 seçenekli MedQA sorularında %50,3'lük bir performans elde etmiştir. Bildiğimiz kadarıyla, bu MedQA'daki en son teknolojidir ve Flan-PaLM 540B bunu %17,3 oranında aşmıştır. Tablo 4, bu veri kümesinde en iyi performans gösteren modelleri karşılaştırmaktadır. Modelimiz, 5 seçenekli daha zor soru setinde %62,0'lık bir skor elde etmiştir.

MedMCQA ve PubMedQA'da son teknoloji performans

Hindistan'daki tıp giriş sınavı sorularından oluşan MedMCQA veri kümesinde Flan-PaLM 540B, dev set üzerinde %57,6'lık bir performansa ulaşmıştır. Bu, bir önceki son teknoloji ürünü olan %52,9'luk sonucu şu şekilde aşmaktadır.

Şekil 3 | Yöntemimizin ve önceki SOTA'nın karşılaştırılması Flan-PaLM 540B modelimizle MedQA (4 seçenek), MedMCQA ve PubMedQA veri kümelerinde en gelişmiş performansı elde ediyoruz. SOTA sonuçları Galactica (MedMCQA) [79], PubMedGPT ve BioGPT'den gelmektedir [56]

Galactica modeli [79].

Benzer şekilde PubMedQA veri kümesinde de modelimiz %79,0 doğruluk oranına ulaşarak Luo ve arkadaşlarının [56] önceki son teknoloji BioGPT modelinden %0,8 daha iyi performans göstermiştir. Sonuçlar aşağıdaki Şekil 2'de özetlenmiştir. Bu gelişme MedQA ve MedMCQA veri kümelerine kıyasla küçük görünse de, PubMedQA'daki tek değerlendirici insan performansı %78,0'dır [33], bu da bu görevde mümkün olan maksimum performans için doğal bir tavan olabileceğini göstermektedir.

Tablo 4 | 4 seçenekli MedQA (USMLE) veri kümesi sorularında en iyi performans gösteren modellerin özeti. Flan-PaLM ile elde ettiğimiz sonuçlar, önceki en son teknolojiyi %17'nin üzerinde aşmaktadır.

Model (parametre sayısı)	MedQA (USMLE) Doğruluk %
Flan-PaLM (540 B) (bizim)	67.6
PubMedGPT (2,7 B) [9]	50.3
DRAGON (360 M) [94]	47.5
BioLinkBERT (340 M) [95]	45.1
Galactica (120 B) [79]	44.4
PubMedBERT (100 M) [25]	38.1
GPT-Neo (2,7 B) [7]	33.3

MMLU klinik konularında son teknoloji performans

MMLU veri kümesi, klinik bilgi, tıp ve biyoloji ile ilgili çeşitli konulardan çoktan seçmeli sorular içermektedir. Bunlar arasında anatomi, klinik bilgi, profesyonel tıp, insan genetiği, üniversite tıbbı ve üniversite biyolojisi yer almaktadır. Flan-PaLM 540B, tüm bu alt kümelerde PaLM, Gopher, Chinchilla, BLOOM, OPT ve Galactica gibi güçlü LLM'lerden daha iyi performans göstererek son teknoloji ürünü bir performans elde etmiştir. Özellikle, profesyonel tıp ve klinik bilgi alt kümesinde, Flan-PaLM 540B %83,5 ve

%84,0 SOTA doğruluğu elde etmiştir. Şekil 4, sonuçları özetlemekte ve mevcut olduğunda diğer LLM'lerle karşılaştırmalar sağlamaktadır [79].

Ablasyonlar

MedQA, MedMCQA ve PubMedQA olmak üzere üç çoktan seçmeli veri kümesi üzerinde çeşitli ablasyonlar gerçekleştirdik

- Sonuçlarımızı daha iyi anlamak ve Flan-PaLM'nin performansına katkıda bulunan temel bileşenleri belirlemek için. Bunları aşağıda ayrıntılı olarak sunuyoruz:

Talimat ayarlaması tıbbi soru yanıtlama performansını artırıyor Tüm model boyutlarında, talimat ayarlı Flan-PaLM modelinin MedQA, MedMCQA ve PubMedQA olmak üzere üç veri kümesinde de temel PaLM modelinden daha iyi performans gösterdiğini gözlemledik. Bu deneylerde modellere A.8'de ayrıntıları verilen yönerge metni kullanılarak birkaç kez yönerge verilmiştir. Ayrıntılı sonuçlar 5'te özetlenmiştir. İyileştirmeler şöyledir

Şekil 4 | MMLU klinik konularında SOTA LLM'lerin karşılaştırılması Flan-PaLM, MMLU klinik konularında en gelişmiş performansı elde eder.

Tablo 5 | PaLM ve Flan-PaLM modellerinin, MultiMedQA'daki çoktan seçmeli tıbbi soru yanıtlama veri kümeleri üzerindeki farklı model boyutu varyantlarındaki performansının özeti.

Veri SetiPaL	M 8BFlan-PaLM 8BPaLM 62BFlan-PaLM 62BPaLM 540BFlan-PaLM 540B
MedQA 4 seçenekle ri (5 atış)	25.7	35.4	40.9	46.1	58.9	60.3
MedMCQA (5 atış)	26.7	34.5	43.4	46.2	54.5	56.5
PubMedQA (3 atış)	34.0	67.6	57.8	77.2	55.0	79.0

8B Flan-PaLM modelinin temel PaLM modelinden %30'un üzerinde daha iyi performans gösterdiği PubMedQA veri setinde en belirgin şekilde ortaya çıkmıştır. Benzer güçlü gelişmeler 62B ve 540B varyantlarında da gözlemlenmiştir. Bu sonuçlar, yönerge ince ayarının güçlü faydalarını göstermiştir. MMLU klinik konuları ile benzer sonuçlar Bölüm A.3'te bildirilmiştir.

Talimat istemi ayarlamasının çoktan seçmeli doğruluk üzerindeki etkisinin kapsamlı bir analizini henüz tamamlamadık; bu bölümdeki analizimiz Med-PaLM'ye değil Flan-PaLM'ye aittir. Med-PaLM (komut istemi ayarlı Flan-PaLM), modeli tıbbi alana daha iyi hizalayarak Bölüm 4.5'te sunulan Flan-PaLM'nin uzun form oluşturma sonuçlarını iyileştirmek için geliştirilmiştir. Bununla birlikte, çoktan seçmeli soru yanıtlama için etki alanından bağımsız yönerge ayarlamanın başarısı göz önüne alındığında, etki alanı içi yönerge istemi ayarlama umut verici görünmektedir ve Bölüm A.6'da bir ön sonuç sunuyoruz.

Ölçeklendirme, tıbbi soru yanıtlamada performansı artırıyor 5'teki ilgili bir gözlem, modelin 8B'den 62B ve 540B'ye ölçeklendirilmesiyle elde edilen güçlü performans iyileştirmeleriydi. Hem PaLM hem de Flan-PaLM'de modeli 8B'den 540B'ye ölçeklendirirken performansta yaklaşık 2 kat iyileşme gözlemledik. Bu gelişmeler MedQA ve MedMCQA veri kümelerinde daha belirgindi. Özellikle, Flan-PaLM modeli için 540B varyantı 62B varyantından %14'ün üzerinde ve 8B varyantından %24'ün üzerinde daha iyi performans göstermiştir. Bu sonuçlar ve Flan-PaLM 540B modelinin güçlü performansı göz önüne alındığında, sonraki deneyler ve ablasyonlar için bu modeli temel aldık. Ölçeklendirme grafikleri Bölüm A.4'te verilmiştir.

Düşünce Zinciri (CoT) yönlendirmesi 6, CoT yönlendirmesi kullanımından elde edilen sonuçları özetler ve Flan-PaLM 540B modelini kullanan birkaç vuruşlu yönlendirme stratejisiyle bir karşılaştırma sunar. Beklenmedik bir şekilde, üç çoktan seçmeli veri kümesinde (MedQA, MedMCQA ve PubMedQA) CoT kullanımının standart birkaç atışlı yönlendirme stratejisine göre iyileşme gösterdiğini gözlemlemedik. Kullanılan CoT istemleri Bölüm A.9'da özetlenmiştir.

Öz-tutarlılık (ÖT), çoktan seçmeli performansta güçlü bir iyileşmeye yol açmaktadır Wang ve ark. [88], CoT yönlendirmesi performansa zarar verdiğinde öz tutarlılık yönlendirmesinin yardımcı olabileceğini göstermiştir. Aritmetik ve sağduyulu muhakeme görevlerinde önemli gelişmeler göstermişlerdir. Onlardan aldığımız ipucunu veri kümelerimize uyguladık. Üç veri kümesinin her biri için düşünce zinciri cevap açıklama yollarının sayısını 11'e sabitledik. Daha sonra en tutarlı cevabı seçmek için farklı açıklama yollarını marjinalleştirdik. Bu stratejiyi kullanarak, MedQA ve MedMCQA veri kümelerinde Flan-PaLM 540B modeli için standart birkaç atışlı ipucu stratejisine göre önemli gelişmeler gözlemledik. Özellikle, MedQA veri kümesi için öz tutarlılık ile >%7'lik bir iyileşme gözlemledik. Ancak, beklenmedik bir şekilde, öz tutarlılık PubMedQA veri kümesi için performansta düşüşe neden oldu. Sonuçlar Tablo 7'de özetlenmiştir.

Ayrıca Tablo 8'de MedQA için Flan-PaLM 540B modelinden bazı örnek yanıtlar sunuyoruz.

Belirsizlik ve Seçici Tahmin LLM'ler uzun, tutarlı ve karmaşık nesiller üretebilir. Bununla birlikte, gerçekle uyuşmayan ifadeler de üretebilirler. Özellikle tıbbi ortamlarda, bu tür hata modlarının dikkatle incelenmesi gerekir ve gerçek dünya uygulamalarında, doğru olması muhtemel olmayan nesiller saklanmalıdır. Bunun yerine, gerektiğinde diğer bilgi kaynaklarına veya uzmanlara başvurmak isteyebiliriz. Bu nedenle bir çözüm, LLM'lerin yanıtlarıyla birlikte belirsizlik tahminlerini de iletmeleridir.

LLM çıktı dizileri üzerindeki belirsizlik ölçümleri açık bir araştırma alanı olmaya devam ederken [36, 51], burada LLM belirsizliği ile ifade doğruluğu arasındaki ilişkiyi ölçmek için ilk yaklaşım olarak basit bir vekil araştırdık. Belirsizliğin bir ölçüsü olarak öz tutarlılıktan belirli bir cevapla eşleşen kod çözme sayısını kullanarak seçici bir tahmin görevi [82] oluşturduk ve model uygun şekilde emin değilse cevabı alıkoymak için kullandık. Deneyi, Flan-PaLM 540B modelinden 41 deşifre kullanarak, düşünce zinciri yönlendirmesi ve öz tutarlılık ile gerçekleştirdik. 5'te, erteleme oranı arttıkça (yani, bir tahmin sağlamak için gereken daha yüksek bir "güven" ile), modelin MedQA üzerindeki performansının arttığını ve 0,45 erteleme oranında %82,5'lik bir doğruluğa ulaştığını gözlemledik. Bu, yanıt belirsizliği ölçümüzün makul olabileceğini ve LLM'lerin tıbbi alandaki bilgileriyle ilgili belirsizliği kodladığını göstermektedir. Ancak, bu ön analizin ötesinde daha fazla araştırmaya ihtiyaç vardır.

4.5 İnsan değerlendirme sonuçları

HealthSearchQA'dan rastgele 100 soru, LiveQA'dan 20 soru ve MedicationQA'dan 20 soru, ayrıntılı insan değerlendirmesi için daha küçük bir uzun biçimli yanıt ölçütü olarak seçilmiştir. Bu sorular, tıbbi bilgiler için gerçek dünyadaki tüketici sorgularını yansıtmaktadır. Seçilen bu sorular aşağıdakilerden ayrıdır.

Med-PaLM üretmek için talimat istemi ayarlaması için kullanılan örnekler.

Klinisyenlerden oluşan bir panelin bu sorulara uzman referans yanıtları oluşturmasını sağladık. Daha sonra Flan-PaLM ve Med-PaLM (her ikisi de 540B modeli) kullanarak cevaplar ürettik. Bu soruların birkaç nitel örneği ve bunlara karşılık gelen Med-PaLM yanıtları Tablo 9'da gösterilmektedir. Üç cevap setini, cevapların kaynağını açıklamadan, Tablo 2'deki eksenler doğrultusunda başka bir klinisyen paneli tarafından değerlendirdik. Her bir cevabı bir klinisyen değerlendirmiştir. Klinisyenler arasındaki farklılığın bulgularımızın genellenebilirliği üzerindeki etkisini azaltmak için panelimiz 9 klinisyenden (ABD, İngiltere ve Hindistan'da bulunan) oluşmuştur. Sonuçlardaki önemli varyasyonları tahmin etmek için parametrik olmayan bootstrap yöntemini kullandık; her bir set için bir dağılım oluşturmak üzere 100 bootstrap replikası kullanıldı ve varyasyonları değerlendirmek için %95 bootstrap yüzdelik aralığını kullandık. Bu sonuçlar aşağıda ve Bölüm A.7'de ayrıntılı olarak açıklanmaktadır.

Bilimsel fikir birliği: Cevapların klinik ve bilimsel topluluktaki mevcut fikir birliği ile nasıl ilişkili olduğunu anlamak istedik. Çalışmada değerlendirilen 140 soruda, klinisyenlerin cevaplarının soruların %92,9'unda bilimsel fikir birliği ile uyumlu olduğu değerlendirilmiştir. Öte yandan, Flan-PaLM'nin cevapların sadece %61,9'unda bilimsel konsensüs ile uyumlu olduğu görülmüştür. Diğer sorularda ise cevaplar ya fikir birliğine zıttı ya da fikir birliği yoktu. Bu durum, genel talimat ayarlamasının tek başına bilimsel ve klinik olarak temellendirilmiş cevaplar üretmek için yeterli olmadığını göstermektedir. Bununla birlikte, Med-PaLM cevaplarının %92,9'unun bilimsel fikir birliğine uygun olarak değerlendirildiğini gözlemledik ve bu da bilimsel olarak temellendirilmiş cevaplar üretmek için bir hizalama tekniği olarak talimat ayarlamasının gücünü ortaya koydu.

PaLM, Flan-PaLM ve Med-PaLM belirli bir zamanda web belgeleri, kitaplar, Wikipedia, kod, doğal dil görevleri ve tıbbi görevlerden oluşan derlemler kullanılarak eğitildiğinden, bu modellerin potansiyel bir sınırlamasının bugün yerine geçmişteki bilimsel fikir birliğini yansıtabilmeleri olduğunu belirtmek isteriz. Bu, günümüzde Med-PaLM için yaygın olarak gözlemlenen bir başarısızlık modu değildir, ancak bu, LLM'lerin sürekli öğrenilmesi ve sürekli gelişen bir derlemden alınması konusunda gelecekteki çalışmaları motive etmektedir.

Kavrama, geri getirme ve muhakeme yetenekleri: Uzman veya model tarafından oluşturulmuş tıbbi kavrama, tıbbi bilgi alma ve muhakeme yeteneklerini anlamaya çalıştık.

Modeli tarafından üretilen cevaplar aracılığıyla ifade edilmiştir. Bir klinisyen panelinden, Feng ve diğerleri [22] ile aynı yaklaşımı kullanarak, cevapların doğru/yanlış tıbbi okuma anlama, tıbbi bilgi alma ve tıbbi muhakeme yeteneklerine dair herhangi bir (bir veya daha fazla örnek) kanıt içerip içermediğini derecelendirmelerini istedik. Doğru ve yanlış kanıtlar paralel olarak değerlendirilmiştir çünkü tek bir uzun form yanıtının hem doğru hem de yanlış anlama, geri getirme ve muhakeme kanıtı içermesi mümkündür.

Uzmanlar tarafından üretilen cevapların Flan-PaLM'den yine önemli ölçüde üstün olduğu, ancak Med-PaLM için talimat istemi ayarlamasıyla performansın arttığı görülmüştür. Bu eğilim, bu eksende değerlendirmek için kullanılan altı alt sorunun tamamında gözlemlenmiştir. Örneğin, tıbbi bilginin doğru şekilde alındığına dair kanıtlarla ilgili olarak, klinisyen cevaplarının %97,8, Flan-PaLM'nin ise sadece %76,3 puan aldığını tespit ettik. Bununla birlikte, talimat istemiyle ayarlanmış Med-PaLM modeli %95,4 puan alarak modelin klinisyenlere kıyasla düşüklüğünü azaltmıştır.

Yanlış veya eksik içerik: Bu değerlendirmenin amacı, cevabın olmaması gereken herhangi bir bilgiyi atlayıp atlamadığını veya olmaması gereken herhangi bir içeriği içerip içermediğini değerlendirerek oluşturulan cevapların eksiksizliğini ve doğruluğunu anlamaktı. Eksik veya atlanmış içerik olduğu düşünülen durumlarda, puanlayıcıya bunun potansiyel klinik öneminin büyük mü yoksa küçük mü olduğu sorulmuştur.

Yine klinisyen tarafından oluşturulan cevapların YZ modellerinden daha üstün olduğunu gözlemledik. Flan-PaLM için bu oran %16,1 iken, klinisyen cevapları vakaların sadece %1,4'ünde uygunsuz/yanlış içerik kanıtı göstermiştir. Şaşırtıcı bir şekilde, Med-PaLM cevaplarının %18,7'sinin uygunsuz veya yanlış içerik içerdiğine karar verilmesiyle, talimat istemi ayarlamasının performansı daha da düşürdüğü görülmüştür.

Öte yandan, talimat istemi ayarlamasının önemli bilgilerin atlanmasında model performansını iyileştirmeye yardımcı olduğunu gözlemledik. Flan-PaLM cevaplarının %47,2'sinin önemli bilgileri atladığına karar verilirken, Med-PaLM için bu sayı önemli ölçüde artmış ve cevapların sadece %15,1'inin eksik bilgiye sahip olduğuna karar verilerek, cevapları eksik bilgiye sahip olduğuna karar verilen klinisyenlere kıyasla düşüklük azaltılmıştır.

Şekil 7 | Anlama, geri çağırma ve muhakeme yeteneklerinin klinisyen değerlendirmesi (a) Okuduğunu anlama, bilgiyi geri çağırma ve muhakeme adımlarının doğruluğunun ve (b) yanlışlığının değerlendirilmesi. Sonuçlar Med-PaLM'nin sadece %5.0 oranında yanlış anlama kanıtı gösterdiğini ortaya koymaktadır. Tıbbi bilginin doğru şekilde geri çağrıldığına dair kanıtlarla ilgili olarak, klinisyen cevapları %97,8 puan alırken Flan-PaLM sadece %76,3 puan almıştır. Bununla birlikte, talimat istemiyle ayarlanmış Med-PaLM modeli %95,4 puan alarak modelin klinisyenlere kıyasla düşüklüğünü azaltmıştır.

Vakaların sadece %11,1'inde eksik bilgi tespit edilmiştir. Tablo 10'da gösterilen birkaç nitel örnek, LLM yanıtlarının gelecekteki kullanım durumlarında hasta sorgularına verilen doktor yanıtlarını tamamlayabileceğini ve tamamlayabileceğini göstermektedir.

Bu gözlemlerin olası bir açıklaması, talimat uyarısı ayarlamasının Med-PaLM modeline Flan-PaLM modelinden çok daha detaylı cevaplar üretmeyi öğreterek önemli bilgilerin atlanmasını azaltmasıdır. Ancak daha uzun bir cevap aynı zamanda yanlış içerik sunma riskini de artırmaktadır.

Zararın olası boyutu ve olasılığı: Üretilen cevaplara göre hareket edilmesine bağlı olarak potansiyel zararın ciddiyetini ve olasılığını belirlemeye çalıştık. Değerlendiricilerden, modellerin çıktılarının klinisyenler veya tüketiciler/hastalar tarafından eylemlere yol açabileceğini varsaymalarını ve bunun sonucunda ortaya çıkabilecek fiziksel/ruhsal sağlıkla ilgili zararların olası şiddetini ve olasılığını tahmin etmelerini istedik. Değerlendiriciler tarafından seçilecek seçenekler için AHRQ Ortak Formatlarını temel aldık Williams ve diğerleri [93], bu formatta ölüm, ciddi veya yaşamı tehdit eden yaralanma, orta, hafif veya zarar yok arasında değişen zarar şiddeti atama seçenekleri sunulmaktadır. Bu zarar tanımının daha çok sağlık hizmeti sunumu sırasında meydana gelen zararların analizi bağlamında kullanıldığını ve bu tür ortamlarda bile (meydana gelen zararların bağlamının önemli ölçüde daha spesifik olarak bilindiği) doktorların zarar şiddetini tahmin etmelerinde sıklıkla önemli farklılıklar olduğunu kabul ediyoruz [86]. Bu nedenle AHRQ ölçeğinin geçerliliğinin bizim bağlamımızı kapsadığı varsayılamaz, çünkü çalışmamız belirli bir kullanım amacına ve sosyokültürel bağlama dayanmadığı için puanlayıcı çıktılarımız öznel tahminler olarak kabul edilmelidir.

Geniş tanım ve derecelendirmelerin öznelliğine rağmen, talimat istemi ayarlamasının hem tahmini olasılığı hem de ciddiyeti azaltan daha güvenli yanıtlar ürettiğini gözlemledik. Flan-PaLM yanıtlarının %29,7'si potansiyel olarak zarara yol açacak şekilde değerlendirilirken, bu sayı Med-PaLM için %5,9'a düşmüş ve vakaların %5,7'sinde potansiyel olarak zararlı olarak değerlendirilen klinisyen tarafından oluşturulan yanıtlarla eşitlenmiştir.

Benzer şekilde, zarar verme olasılığı eksenlerinde, talimat istemi ayarlaması Med-PaLM yanıtlarının uzman tarafından oluşturulan yanıtlarla eşleşmesini sağlamıştır.

Tıbbi demografik özellikler için önyargı: Cevapları değerlendirdiğimiz son eksen yanlılıktı. Tıbbi soruların yanıtlanması için geniş dil modellerinin kullanılması, sağlık eşitsizliklerine katkıda bulunan yanlılık ve adaletle ilgili zararlar potansiyeline sahiptir. Bu zararlar, eğitim verilerinde sağlık sonuçları ve bakıma erişimdeki eşitsizlikleri yansıtan kalıpların varlığı, tıbbi soru yanıtlama sistemlerinin ırksal sağlık eşitsizliklerinin nedenine ilişkin ırkçı yanlış anlamaları yeniden üretme kabiliyeti gibi çeşitli kaynaklardan kaynaklanmaktadır.

Tablo 10 | Hekim cevaplarının eksik olarak değerlendirildiği HealthSearchQA soru örnekleri ve bunlara karşılık gelen Med-PaLM cevapları. Bu durum, LLM'lerin gelecekteki kullanım durumlarında doktorlar için faydalı bir tamamlayıcı olabileceğini göstermektedir.

tedaviyi almak için bir doktora görünmeniz önemlidir. Doktorunuz stres seviyenizi azaltmaya ve gelecekteki burun kanamalarını önlemeye yardımcı olacak tedaviler önerebilir.

Algoritmik tasarım seçimleri [32] ve makine öğrenimi sistemlerinin popülasyonlar ve gruplar arasındaki davranış veya performans farklılıkları, tıbbi karar verme sürecini bilgilendirmek için kullanıldığında aşağı yönlü zararlar doğurmaktadır [13]. Tıbbi soru yanıtlama sistemleri, sağlık hizmetlerinde diğer YZ uygulamalarının kullanımından kaynaklananların ötesinde ek riskler de oluşturmaktadır, çünkü keyfi çıktılar üretme potansiyeline sahiptirler, sınırlı muhakeme kabiliyetine sahiptirler ve potansiyel olarak çok çeşitli alt kullanım durumları için kullanılabilirler. Yanıtın belirli bir demografik grup için yanlış veya uygulanamaz herhangi bir bilgi içerip içermediğini anlamaya çalıştık. Flan-PaLM cevaplarının vakaların %7,9'unda yanlı bilgi içerdiği tespit edilmiştir. Ancak, bu sayı Med-PaLM için %0,8'e düşmüştür ve cevapları vakaların %1,4'ünde önyargı kanıtı içerdiğine karar verilen uzmanlarla olumlu bir şekilde karşılaştırılmıştır.

Uzman olmayan kullanıcı değerlendirmesi: Uzman değerlendirmesinin ötesinde, bu alanda uzman olmayan beş kişiden (Hindistan'da yaşayan, tıp geçmişi olmayan kişiler) oluşan bir panele de cevapları değerlendirttik. Sonuçlar aşağıdaki Şekil 10'da özetlenmiştir. Flan-PaLM cevapları vakaların sadece %60,6'sında yardımcı olarak değerlendirilirken, Med-PaLM cevapları için bu oran %80,3'e yükselmiştir. Ancak bu oran, %91,1 oranında yardımcı olduğu düşünülen klinisyen cevaplarının altında kalmıştır. Benzer şekilde, Flan-PaLM cevapları da doğrudan hastaya hitap ediyor olarak değerlendirilmiştir.

Vakaların %90,8'inde kullanıcının soru amacı. Bu rakam Med-PaLM için %94,0'a yükselmiş, ancak %95,9 ile klinisyen tarafından oluşturulan cevapların altında kalmıştır.

Meslek dışı değerlendirme, kullanıcılara yardımcı olacak cevaplar üretmek için talimat istemi ayarlamasının faydalarını tutarlı bir şekilde yeniden üretirken, aynı zamanda insan klinisyenler tarafından sağlanan çıktıların kalitesine yaklaşmak için hala önemli bir çalışma yapılması gerektiğini göstermiştir.

5. Tartışma

Sonuçlarımız, tıbbi soru yanıtlama konusundaki güçlü performansın, etkili talimat istemi ayarlamasıyla birlikte LLM'lerin ortaya çıkan bir yeteneği [90] olabileceğini göstermektedir.

İlk olarak, PaLM modellerini 8 milyardan 540 milyara ölçeklendirdikçe doğruluğun yaklaşık 2 kat artmasıyla güçlü bir ölçeklendirme performansı gözlemledik. PaLM 8-milyarın MedQA üzerindeki performansı rastgele performanstan sadece biraz daha iyiydi. Ancak, bu sayı 540 milyar PaLM için %30'un üzerinde iyileşerek tıbbi soru yanıtlama görevi için ölçeğin etkinliğini göstermiştir. MedMCQA ve PubMedQA veri kümeleri için de benzer gelişmeler gözlemledik. Ayrıca, talimat ince ayarı da Flan-PaLM modellerinin tüm çoktan seçmeli veri kümelerinde tüm boyut varyantlarında PaLM modellerinden daha iyi performans göstermesiyle etkili olmuştur.

PaLM ön eğitim derleminin önemli miktarda yüksek kaliteli tıbbi içerik içermesi mümkündür ve 540 milyar model varyantının güçlü performansı için olası bir varsayım, bu çalışmada ele alınan değerlendirme veri kümelerinin ezberlenmesidir. Ancak, Chowdhery ve diğerleri [14] PaLM 8B ve 540B modellerinin performansında benzer sapmalar olduğunu göstermiştir (yani test kümesinin bir kısmı model ön eğitim külliyatında) ve temizlenmiş test veri kümelerinde. Bu, ezberlemenin tek başına modellerin ölçeklendirilmesiyle gözlemlenen güçlü performansı açıklamadığını göstermektedir.

Dil modellerini biyomedikal bir derlem, özellikle de PubMed üzerinde eğitmek için çeşitli çabalar olmuştur. Bunlar arasında BioGPT [56] (355 milyon parametre), PubMedGPT [9] (2,7 milyar parametre) ve Galactica [79] (120 milyar parametre) bulunmaktadır. Modellerimiz PubMedQA üzerinde herhangi bir ince ayar yapmadan bu çalışmalardan daha iyi performans göstermeyi başarmıştır. Ayrıca, ölçek ve talimat ince ayarının faydaları, tüm bu modeller için alan dışı olarak kabul edilebilecek MedQA veri kümesinde çok daha belirgindi. Sonuçlar göz önüne alındığında, tıbbi cevaplama performansının (hatırlama, okuduğunu anlama ve muhakeme becerileri gerektiren) LLM ölçeği ile geliştiğini gözlemliyoruz.

Ancak, tüketici tıbbi soru yanıtlama veri kümeleri üzerindeki insan değerlendirme sonuçlarımız, ölçeğin tek başına yetersiz olduğunu açıkça göstermektedir. Flan-PaLM gibi son teknoloji ürünü LLM'ler bile güvenlik açısından kritik tıbbi alanda kullanım için uygun olmayan yanıtlar üretebilir. Bununla birlikte, Med-PaLM sonuçları, talimatlara uygun ayarlama ile doğruluk, gerçeklik, tutarlılık, güvenlik, zarar ve önyargı ile ilgili faktörleri iyileştirmek için yararlı bir veri ve parametre verimli hizalama tekniğine sahip olduğumuzu, klinik uzmanlarla olan boşluğu kapatmaya yardımcı olduğumuzu ve bu modelleri gerçek dünyadaki klinik uygulamalara yaklaştırdığımızı göstermektedir.

6. Sınırlamalar

Çalışmamız, LLM'lerin tıbbi bilginin kodlanması ve özellikle soru cevaplama için potansiyelini göstermiştir. Bununla birlikte, aşağıda ayrıntılı olarak tartıştığımız ve gelecekteki araştırmalar için yönergeleri özetlediğimiz çeşitli sınırlamaları vardı.

6.1 MultiMedQA'nın Genişletilmesi

İlk olarak, MultiMedQA ölçütü çeşitlilik arz etmekte ve çeşitli profesyonel tıp, tıbbi araştırma ve tüketici kaynaklarından sorular içermekle birlikte, hiçbir şekilde kapsamlı değildir. Gelecekte kıyaslama ölçütünü daha çeşitli tıbbi ve bilimsel alanları (örn. biyoloji) ve formatları içerecek şekilde genişletmeyi planlıyoruz.

Klinik ortamlardaki temel zorluklardan biri hastalardan bilgi almak ve bulguları bir değerlendirme ve plan halinde sentezlemektir. Çoktan seçmeli soru cevaplama görevleri doğası gereği daha kolaydır çünkü genellikle uzmanlar tarafından derlenen vinyetlere dayanır ve genel olarak tercih edilen bir cevaba sahip olacak şekilde seçilir, ancak bu tüm tıbbi kararlar için doğru değildir. Gerçek dünyadaki klinik iş akışlarını yansıtan kıyaslama görevlerinin geliştirilmesi, gelecekteki araştırmaların önemli bir yönünü oluşturmaktadır.

Ayrıca, bu çalışmada yalnızca İngilizce veri kümelerini dikkate aldık ve çok dilli değerlendirmeleri desteklemek için kıyaslamanın kapsamını genişletmeye şiddetle ihtiyaç var.

6.2 Tıbbi uygulamalar için gerekli temel LLM yeteneklerinin geliştirilmesi

Flan-PaLM, çoktan seçmeli tıbbi soru cevaplama ölçütlerinde en son teknoloji performansa ulaşabilmiş olsa da, insan değerlendirmemiz bu modellerin klinik açıdan önemli birçok eksende klinisyen uzman seviyesinde olmadığını açıkça göstermektedir. Bu boşluğu doldurmak için, aşağıdakiler de dahil olmak üzere birkaç yeni LLM yeteneğinin araştırılması ve geliştirilmesi gerekmektedir:

Yanıtların yetkili tıbbi kaynaklara dayandırılması ve tıbbi fikir birliğinin zamanla değişen doğasının hesaba katılması.
Belirsizliği tespit etme ve ister klinisyen ister meslekten olmayan kullanıcı olsun, döngüdeki insana etkili bir şekilde iletme becerisi.
Sorgulara birden fazla dilde yanıt verebilme becerisi.

6.3 İnsan değerlendirmesine yaklaşımın iyileştirilmesi

Bu çalışma için önerdiğimiz derecelendirme çerçevesi umut verici bir pilot yaklaşımı temsil etmektedir, ancak seçtiğimiz değerlendirme eksenleri kapsamlı değildir ve doğası gereği özneldir. Örneğin, tıbbi/bilimsel fikir birliği kavramı doğası gereği zamanla değişmektedir ve ırk/etnik köken, cinsiyet, yaş, yetenek ve daha fazlası gibi alanlarda ayrımcılığa dayalı insan sağlığı ve hastalığı ve fizyolojisi anlayışlarını yansıtmaktadır [38, 57].

Ayrıca, fikir birliği genellikle sadece belirli gruplarla ilgili konular için mevcuttur (örneğin, sayı ve/veya güç bakımından daha fazla) ve çeşitli nedenlerle konulardan etkilenen belirli alt popülasyonlar için fikir birliği olmayabilir (örneğin, tartışmalı konular, daha düşük insidans, daha az finansman). Ek olarak, zarar kavramı popülasyona göre farklılık gösterebilir (örneğin, daha küçük bir grup insan üzerinde yapılan genetik bir çalışma, gerçek olan ancak bu grubun kültürel inançlarıyla uyuşmayan bilgileri ortaya çıkarabilir ve bu da bu grubun üyelerinin zarar görmesine neden olabilir). Zarara ilişkin uzman değerlendirmesi de konuma, yaşanmış deneyime ve kültürel geçmişe bağlı olarak değişebilir. Potansiyel zarar derecelendirmelerimiz öznel tahminlerdir ve algılanan zarardaki farklılıklar hem klinisyenimizin hem de meslekten olmayan değerlendiricilerin sağlık okuryazarlığındaki farklılıklardan da kaynaklanmış olabilir veya Berkman ve arkadaşlarının çalışmasındaki sağlık sorularının yanıtlarını alan ve bunlara göre hareket eden kişinin sosyokültürel bağlamına ve sağlık okuryazarlığına bağlı olarak gerçek dünya ortamlarında değişiklik gösterebilir [6]. Daha ileri araştırmalar, soru cevaplarının algılanan faydası ve zararının, cevap içeriğinin anlaşılabilirlik ve eyleme geçirilebilirlik puanına göre değişip değişmediğini test edebilir [77].

Sonuçlarımız yanıtları değerlendiren tek bir klinisyen veya meslekten olmayan kişiye dayandığından, değerlendirilen model yanıtlarının sayısı ve bunları değerlendiren klinisyen ve meslekten olmayan kişi havuzu sınırlıydı. Bu durum, bulgularımızın genellenebilirliği açısından bir sınırlama teşkil etmektedir ve bu sınırlama, model denetim araçlarının geliştirilmesinde katılımcı bir tasarıma sahip, önemli ölçüde daha geniş ve kasıtlı olarak çeşitlilik gösteren bir insan değerlendirici havuzunun (klinisyenler ve meslekten olmayan kullanıcılar) dahil edilmesiyle hafifletilebilir. LLM yanıtlarının alanının veya "kapsamının" son derece yüksek olduğunu ve bunun değerlendirme araçlarının ve çerçevelerinin tasarımında ek bir zorluk teşkil ettiğini belirtmek gerekir.

Geliştirdiğimiz pilot çerçeve, sağlık, sosyal ve davranışsal araştırmalardan elde edilen derecelendirme araçlarının tasarımı ve doğrulanması için önerilen en iyi uygulama yaklaşımları kullanılarak önemli ölçüde geliştirilebilir [8]. Bu, katılımcı araştırma yoluyla ek derecelendirme öğelerinin belirlenmesini, derecelendirme öğelerinin alan uzmanları ve teknoloji alıcıları tarafından uygunluk, temsil edilebilirlik ve teknik kalite açısından değerlendirilmesini gerektirebilir. Çok daha geniş bir insan değerlendirici havuzunun dahil edilmesi, testin boyutluluğunun, test-tekrar test güvenilirliğinin ve geçerliliğinin onaylanması yoluyla aracın genellenebilirliğinin test edilmesini de sağlayacaktır [8]. Aynı cevap birden fazla şekilde değerlendirilebileceğinden, en uygun derecelendirme aracı da HBÖ çıktılarının kullanım amacına ve alıcısına bağlı olup, kullanım bağlamına ve amacına bağlı olarak doğrulanmış derecelendirme ölçeklerinin geliştirilmesi için birden fazla fırsat sunmaktadır. Ayrıca, toplum temelli katılımcı araştırma yöntemlerini kullanan önemli kullanıcı deneyimi (UX) ve insan-bilgisayar etkileşimi (HCI) çalışmaları, herhangi bir gerçek dünya kullanımından önce gereklidir ve keşif araştırmamızın kapsamının ötesinde geliştirilen bir araca özgü olacaktır. Bu bağlamlar altında, meslekten olmayan değerlendiricilerin eğitim düzeyleri, tıbbi durumları, bakıcı durumları, sağlık hizmetleriyle ilgili deneyimleri, eğitim düzeyleri veya diğer ilgili faktörlerdeki farklılıkların model çıktılarının kalitesine ilişkin algıları üzerindeki bağımsız etkisi daha ileri araştırmalarla incelenebilir. Klinisyen değerlendiricilerin uzmanlık alanları, demografik özellikleri, coğrafyaları veya diğer faktörlerdeki farklılıkların etkisi de benzer şekilde daha ileri araştırmalarda incelenebilir.

6.4 Adalet ve eşitlik hususları

Önyargıyı değerlendirmeye yönelik mevcut yaklaşımımız sınırlıdır ve potansiyel zararların, adaletin veya eşitliğin kapsamlı bir değerlendirmesi olarak hizmet etmemektedir. Büyük dil modellerinde önyargı ve adaletle ilgili zararların değerlendirilmesine yönelik prosedürlerin geliştirilmesi devam etmektedir [49, 92]. Sağlık hizmetleri, alanın güvenlik açısından kritik doğası ve sağlık eşitsizliklerini yönlendiren sosyal ve yapısal önyargılarla ilişkili nüans göz önüne alındığında, büyük dil modellerinin özellikle karmaşık bir uygulamasıdır. Büyük dil modelleri ve sağlık hizmetlerinin kesişimi, önyargı, adalet ve sağlıkta eşitlik için sağlam değerlendirme ve azaltma araçlarının sorumlu ve etik inovasyonu için benzersiz fırsatlar yaratmaktadır.

Sağlık hizmetleri bağlamında büyük dil modellerinin aşağı yönlü zararlarının ve etkilerinin sistematik olarak tanımlanması ve azaltılmasına yönelik çerçevelere ilişkin gelecekteki araştırmalar için fırsatları özetliyoruz. Temel ilkeler arasında, fayda veya zarar görebilecek hastaların değerlerini yansıtan bağlamsallaştırılmış değerlendirmeler tasarlamak için katılımcı yöntemlerin kullanılması, değerlendirmenin bir veya daha fazla spesifik aşağı akış klinik kullanım vakasına dayandırılması [54, 71] ve |33 veri toplama ve küratörlük, model geliştirme ve değerlendirme sırasında yapılan seçimlerin ve varsayımların şeffaf bir şekilde raporlanması için veri seti ve model dokümantasyon çerçevelerinin kullanılması yer almaktadır [24, 59, 72]. Ayrıca, azaltılmadığı takdirde zarara yol açtığı bilinen belirli teknik önyargıları araştıran algoritmik prosedürlerin ve kıyaslama ölçütlerinin tasarlanmasına yönelik araştırmalara ihtiyaç duyulmaktadır. Örneğin, bağlama bağlı olarak, model çıktılarının demografik tanımlayıcılardaki pertürbasyonlara karşı duyarlılığını, pertürbasyon altında sonucun değişmemesi gerektiği şekilde kasıtlı olarak tasarlanmış istemlerde değerlendirmek uygun olabilir [23, 68, 98].

Buna ek olarak, geniş dil modellerinde sağlık eşitliğini sağlamak için değerlendirme yöntemleri oluşturmaya yönelik yukarıda bahsedilen araştırma faaliyetleri, sağlığın sosyal ve bağlamsal yönlerini anlama görevine çeşitli bilimsel perspektiflerin ve yöntemlerin uygulanabilmesini sağlamak için disiplinler arası işbirliğini gerektirmektedir [27, 58, 62].

Büyük dil modelleri için değerlendirme çerçevelerinin geliştirilmesi, klinik bilginin dil modellerinde kodlanması çalışmalarına verilen önem ve titizlikle yaklaşılması gereken kritik bir araştırma gündemidir.

Bu çalışmada, en iyi örnekleri belirlemek ve az sayıda ipucu oluşturmak için, hepsi ABD veya Birleşik Krallık'ta yaşayan, iç hastalıkları, pediatri, cerrahi ve birinci basamakta uzmanlığa sahip dört nitelikli klinisyenden oluşan bir panel ile çalıştık. Her ne kadar yakın zamanda yapılan çalışmalar şaşırtıcı bir şekilde, bir düşünce zinciri ipucundaki akıl yürütmenin geçerliliğinin, bu stratejinin çok adımlı akıl yürütme zorluklarında LLM performansı üzerindeki etkisine yalnızca küçük bir katkıda bulunduğunu öne sürmüş olsa da [87], daha fazla araştırma, ipucu oluşturma ve örnek cevapların seçiminde yer alan klinisyen yelpazesini önemli ölçüde genişletebilir ve böylece bu faaliyete katılan klinisyen türlerinin birden fazla eksenindeki varyasyonun LLM davranışını nasıl etkilediğini keşfedebilir; örneğin klinisyen demografisi, coğrafya, uzmanlık, yaşam deneyimi ve daha fazlası.

6.5 Etik hususlar

Bu araştırma, LLM'lerin gelecekte sağlık hizmetlerinde kullanım potansiyelini ortaya koymaktadır. Tıbbi soruların yanıtlanması için kullanılan bir LLM'den sağlık hizmeti sağlayıcıları, yöneticiler ve tüketiciler tarafından kullanılabilecek bir araca geçiş, teknolojinin güvenliğini, güvenilirliğini, etkinliğini ve gizliliğini sağlamak için önemli ek araştırmalar gerektirecektir. Farklı klinik ortamlarda kullanıldığında titiz kalite değerlendirmesi ve bir tıbbi asistanın çıktısına aşırı güvenmeye karşı koruma önlemleri dahil olmak üzere bu teknolojinin etik dağıtımına dikkat edilmesi gerekecektir. Örneğin, bir hastalığın teşhisi veya tedavisi için LLM kullanmanın potansiyel zararları, bir hastalık veya ilaç hakkında bilgi almak için LLM kullanmaktan çok daha fazladır. Temel modellerden miras kalan önyargıların ve güvenlik açıklarının homojenleştirilmesi ve güçlendirilmesi için sağlık hizmetlerinde kullanılan LLM'leri değerlendirmek için ek araştırmalara ihtiyaç duyulacaktır [10, 11, 18, 39, 49]. Klinik bilginin sürekli evrimi göz önüne alındığında, LLM'lerin güncel klinik bilgi sağlaması için yollar geliştirmek de önemli olacaktır.

7. Sonuç

Temel YZ modellerinin ve büyük dil modellerinin ortaya çıkışı, tıbbi YZ'nin gelişimini yeniden düşünmek ve kullanımını daha kolay, daha güvenli ve daha adil hale getirmek için önemli bir fırsat sunmaktadır. Aynı zamanda tıp, büyük dil modellerinin uygulamaları için özellikle karmaşık bir alandır.

Araştırmamız, bu teknolojilerin tıbba uygulanmasındaki fırsatlara ve zorluklara bir bakış sağlamaktadır. Bu çalışmanın hastalar, tüketiciler, yapay zeka araştırmacıları, klinisyenler, sosyal bilimciler, etikçiler, politika yapıcılar ve diğer ilgili kişiler arasında bu erken araştırma bulgularını sağlık hizmetlerini iyileştirmek için sorumlu bir şekilde tercüme etmek amacıyla daha fazla konuşma ve işbirliğine yol açacağını umuyoruz.

Teşekkür

Bu proje, Google Research ve Deepmind'daki birçok ekip arasında kapsamlı bir işbirliğiydi. Michael Howell, Cameron Chen, Basil Mustafa, David Fleet, Fayruz Kibria, Gordon Turner, Lisa Lehmann, Ivor Horn, Maggie Shiels, Shravya Shetty, Jukka Zitting, Evan Rappaport, Lucy Marples, Viknesh Sounderajah, Ali Connell, Jan Freyberg'e teşekkür ederiz, Cian Hughes, Megan Jones-Bell, Susan Thomas, Martin Ho, Sushant Prakash, Bradley Green, Ewa Dominowska, Frederick Liu, Xuezhi Wang ve Dina DemnerFushman'a (Ulusal Tıp Kütüphanesi'nden) araştırmamız sırasında değerli görüş ve geri bildirimleri için teşekkür ederiz. Ayrıca Karen DeSalvo, Zoubin Ghahramani, James Manyika ve Jeff Dean'e bu proje süresince verdikleri destek için minnettarız.