AI həkimi indi sizi görməyə hazır deyil: Stress testləri qüsurları aşkar edir

Justin Jackson tərəfindən , Phys.org
Sadie Harley tərəfindən redaktə edilmiş , Robert Eqan tərəfindən nəzərdən keçirilmişdir
Redaktorların qeydləriKonseptual illüstrasiya: Benchmark balları modelin davamlı təkmilləşdirilməsini təklif edir. Stress testləri gizli zəiflikləri üzə çıxarır – daha yeni modellər daha yüksək ballara baxmayaraq eyni dərəcədə və ya daha kövrək ola bilər. Kredit: arXiv (2025). DOI: 10.48550/arxiv.2509.18234
Qeyri-müəyyənlik şəraitində möhkəm performans, dəlillərə əsaslanan etibarlı əsaslandırma və real klinik ehtiyacla uyğunlaşma hər hansı bir sağlamlıq xidmətində etibar üçün ilkin şərtlərdir.
https://googleads.g.doubleclick.net/pagead/ads?gdpr=0&us_privacy=1—&gpp_sid=-1&client=ca-pub-0536483524803400&output=html&h=280&slotname=7587637799&adk=173579997&adf=4198688998&pi=t.ma~as.7587637799&w=540&fwrn=4&fwrnh=0&lmt=1759924292&rafmt=1&armr=3&format=540×280&url=https%3A%2F%2Fmedicalxpress.com%2Fnews%2F2025-10-ai-doctor-ready-stress-reveal.html&fwr=0&rpe=1&resp_fmts=3&wgl=1&aieuf=1&uach=WyJXaW5kb3dzIiwiMTkuMC4wIiwieDg2IiwiIiwiMTQwLjAuNzMzOS4yMDgiLG51bGwsMCxudWxsLCI2NCIsW1siQ2hyb21pdW0iLCIxNDAuMC43MzM5LjIwOCJdLFsiTm90PUE_QnJhbmQiLCIyNC4wLjAuMCJdLFsiR29vZ2xlIENocm9tZSIsIjE0MC4wLjczMzkuMjA4Il1dLDBd&abgtt=11&dt=1759924284874&bpp=2&bdt=243&idt=142&shv=r20251006&mjsv=m202510020101&ptt=9&saldr=aa&abxe=1&cookie=ID%3Dbf32f6d1345076e5%3AT%3D1735905671%3ART%3D1759924222%3AS%3DALNI_MZkf89jy5OWC7eurAieiZICGZibxQ&gpic=UID%3D00000f9074cd1467%3AT%3D1735905671%3ART%3D1759924222%3AS%3DALNI_MbXA7UjcCbicksfQOQL3jad5e72cw&eo_id_str=ID%3D11f3f8901ed8a01f%3AT%3D1759147287%3ART%3D1759924222%3AS%3DAA-AfjaTZmixph3AhAi9NchqfV-P&prev_fmts=0x0%2C336x280&nras=1&correlator=2897276040557&frm=20&pv=1&rplot=4&u_tz=240&u_his=1&u_h=864&u_w=1536&u_ah=816&u_aw=1536&u_cd=24&u_sd=1.25&dmc=8&adx=395&ady=918&biw=1521&bih=730&scr_x=0&scr_y=0&eid=31095049%2C31095053%2C31095055%2C31095081%2C31095083%2C31095106%2C42532523%2C95370627%2C95372357%2C95373012%2C95374043&oid=2&psts=AOrYGsnukRFyUU27IkxKDWXzRWgx4itQgF7O-HVNg69bROoG2nLUTzX52WbPm27MVlMioeQPiB8SAQoaxWv2mFD7ITlZFZ47aSz3ZjIaDQ&pvsid=273885552687683&tmod=1751577831&uas=0&nvt=1&ref=https%3A%2F%2Fphys.org%2F&fc=1920&brdim=0%2C0%2C0%2C0%2C1536%2C0%2C1536%2C816%2C1536%2C730&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=1&td=1&tdf=2&psd=W251bGwsbnVsbCxudWxsLDNd&nt=1&ifi=2&uci=a!2&btvi=1&fsb=1&dtd=7141
Microsoft Araşdırma, Sağlamlıq və Həyat Elmləri bildirir ki, ən yüksək nəticə göstərən multimodal tibbi süni intellekt sistemləri stress testləri altında kövrək davranış nümayiş etdirir, o cümlədən şəkillərsiz düzgün təxminlər, kiçik sürətli düzəlişlərdən sonra cavab dəyişikliyi və hazırlığı gücləndirən uydurma əsaslandırmalar.
Süni intellektə əsaslanan tibbi qiymətləndirmələr, tibbi anlayış üzərində nümunə uyğunluğunu mükafatlandıran meyarlara əsaslanan etibarlılıq və fizibilite boşluğu ilə üzləşir. Ümid daha çox istifadəyə və qayğı xərclərini azaltmağa imkan vermək olsa da, diaqnostik qiymətləndirmələrdə dəqiqlik bunu mümkün etmək üçün çox vacibdir.
Əvvəlki qiymətləndirmələr modellərə vizual və ya klinik sübutları şərh etmədən birlikdə baş verən simptomları diaqnozlarla əlaqələndirməyə imkan verdi. Bacarıqlı görünən sistemlər qeyri-müəyyənlik, natamam məlumat və ya giriş strukturunda dəyişikliklərlə qarşılaşdıqda uğursuz ola bilər. Hər bir yeni etalon dövrü daha yüksək ballar verir, lakin bu ballar klinik şəraitdə qəbuledilməz olan kövrəklikləri gizlədə bilər.
Çapdan əvvəl arXiv serverində yerləşdirilmiş ” Hazırlıq İllüziyası: Böyük Sərhəd Modellərinin Multimodal Tibbi Testlərdə Stress Testi ” adlı araşdırmada tədqiqatçılar qısa yol öyrənmə üsullarını aşkara çıxarmaq və geniş istifadə olunan tibbi ölçülərdə möhkəmlik, əsaslandırma sədaqəti və modallıqdan asılılığı qiymətləndirmək üçün bir sıra stress testləri hazırladılar.
https://googleads.g.doubleclick.net/pagead/ads?gdpr=0&us_privacy=1—&gpp_sid=-1&client=ca-pub-0536483524803400&output=html&h=280&slotname=7099578867&adk=16758827&adf=1100001614&pi=t.ma~as.7099578867&w=540&fwrn=4&fwrnh=0&lmt=1759924292&rafmt=1&armr=3&format=540×280&url=https%3A%2F%2Fmedicalxpress.com%2Fnews%2F2025-10-ai-doctor-ready-stress-reveal.html&fwr=0&rpe=1&resp_fmts=3&wgl=1&aieuf=1&uach=WyJXaW5kb3dzIiwiMTkuMC4wIiwieDg2IiwiIiwiMTQwLjAuNzMzOS4yMDgiLG51bGwsMCxudWxsLCI2NCIsW1siQ2hyb21pdW0iLCIxNDAuMC43MzM5LjIwOCJdLFsiTm90PUE_QnJhbmQiLCIyNC4wLjAuMCJdLFsiR29vZ2xlIENocm9tZSIsIjE0MC4wLjczMzkuMjA4Il1dLDBd&abgtt=11&dt=1759924284876&bpp=1&bdt=245&idt=145&shv=r20251006&mjsv=m202510020101&ptt=9&saldr=aa&abxe=1&cookie=ID%3Dbf32f6d1345076e5%3AT%3D1735905671%3ART%3D1759924222%3AS%3DALNI_MZkf89jy5OWC7eurAieiZICGZibxQ&gpic=UID%3D00000f9074cd1467%3AT%3D1735905671%3ART%3D1759924222%3AS%3DALNI_MbXA7UjcCbicksfQOQL3jad5e72cw&eo_id_str=ID%3D11f3f8901ed8a01f%3AT%3D1759147287%3ART%3D1759924222%3AS%3DAA-AfjaTZmixph3AhAi9NchqfV-P&prev_fmts=0x0%2C336x280%2C540x280&nras=1&correlator=2897276040557&frm=20&pv=1&rplot=4&u_tz=240&u_his=1&u_h=864&u_w=1536&u_ah=816&u_aw=1536&u_cd=24&u_sd=1.25&dmc=8&adx=395&ady=1973&biw=1521&bih=730&scr_x=0&scr_y=0&eid=31095049%2C31095053%2C31095055%2C31095081%2C31095083%2C31095106%2C42532523%2C95370627%2C95372357%2C95373012%2C95374043&oid=2&psts=AOrYGsnukRFyUU27IkxKDWXzRWgx4itQgF7O-HVNg69bROoG2nLUTzX52WbPm27MVlMioeQPiB8SAQoaxWv2mFD7ITlZFZ47aSz3ZjIaDQ&pvsid=273885552687683&tmod=1751577831&uas=0&nvt=1&ref=https%3A%2F%2Fphys.org%2F&fc=1920&brdim=0%2C0%2C0%2C0%2C1536%2C0%2C1536%2C816%2C1536%2C730&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=1&td=1&tdf=2&psd=W251bGwsbnVsbCxudWxsLDNd&nt=1&ifi=3&uci=a!3&btvi=2&fsb=1&dtd=7155
Altı qabaqcıl model, süzülmüş JAMA elementlərini (1,141), süzülmüş NEJM elementlərini (743), vizual giriş tələb edən klinisist tərəfindən seçilmiş NEJM alt dəstini (175 maddə) və NEJM hallarından tərtib edilmiş vizual əvəzetmə dəstini əhatə edən təhlillərlə altı multimodal tibbi meyarlar üzrə qiymətləndirilmişdir .
Modelin qiymətləndirilməsi modallıq həssaslığını, qısa yoldan asılılığı və əsaslandırma sədaqətini yoxlayan səviyyəli stress-test protokolunda diaqnostika və əsaslandırma verilənlər bazasından götürülmüş yüzlərlə etalon elementi əhatə etdi . Şəkil+mətnə nisbətən yalnız mətnin dəqiqliyini ölçmək üçün multimodal suallarda şəkil daxiletmələri silindi.
Vizual giriş tələb edən klinisyen tərəfindən seçilmiş NEJM alt dəsti, təsvirlər saxlandıqda performansı 20% təsadüfi ilkin göstərici ilə müqayisə edərək modallıq zərurətinin testlərini aktivləşdirdi.
Format manipulyasiyaları səth işarələrini pozdu. Cavab seçimləri məzmunu dəyişdirmədən təsadüfi olaraq yenidən sıralanıb. Distractorlar tədricən eyni verilənlər bazasından uyğun olmayan seçimlərlə, tək variantı “Naməlum” işarəsi ilə əvəz edən variantla əvəz olundu. Vizual əvəzetmə sınaqları sual mətnini və seçimlərini qoruyarkən orijinal şəkilləri distraktora uyğunlaşdırılmış alternativlərlə əvəz etdi.
Şəkil mətni meyarları arasında vizual daxiletmənin silinməsi JAMA -da daha kiçik sürüşmələrlə NEJM -də nəzərəçarpacaq dəqiqlik azalmasına səbəb oldu . NEJM – də GPT-5 80,89%-dən 67,56%-ə, Gemini-2.5 Pro 79,95%-dən 65,01%-ə, OpenAI-o3 80,89%-dən 67,03%-ə, OpenAI-o4-mini 75,91%-dən 66,49%-ə, GPT-5 66,49%-ə, GPT-5 66,49%-ə, və 37,28%.
GPT-4o, vizual əvəzləmə ilə yaxşılaşan tək istisna idi (36,67%→41,67%). JAMA etalon məlumat dəstində , GPT-5 86,59% – 82,91% və OpenAI-o3 84,75% – 82,65% daxil olmaqla, dəyişmələr təvazökar idi.
Klinisyenlərin vizual daxiletmə tələb etdiyi kimi etiketlədiyi maddələrdə yalnız mətn performansı əksər modellər üçün 20% təsadüfi baza səviyyəsindən yuxarı qaldı. NEJM 175 elementli alt dəst GPT-5 37,7 % , Gemini-2.5 Pro 37,1% və OpenAI-o3 37,7%, GPT-4o isə 3,4% şəkil olmadan tez-tez imtinaya səbəb oldu.
Format pozğunluqları daxilində cavab seçimlərinin təsadüfi yenidən sıralanması yalnız mətnin dəqiqliyini azaldır, eyni zamanda şəkil+mətn sabit və ya bir qədər yüksək işləyir. GPT-5 yalnız mətndə 37,71%-dən 32,00%-ə, şəkil+mətndə isə 66,28%-dən 70,85%-ə dəyişdi. OpenAI-o3 yalnız mətndə 37,71%-dən 31,42%-ə, şəkil+mətndə isə 61,71%-dən 64,00%-ə dəyişdi.
Distraktorun dəyişdirilməsi zamanı daha çox seçim əvəz edildiyi üçün yalnız mətn dəqiqliyi şansa doğru azaldı, şəkil+mətn dəqiqliyi isə yüksəldi. GPT-5 yalnız mətndə 4R-də 37,71% azalaraq 20,00%, şəkil+mətndə isə 66,28% artaraq 90,86% təşkil edib. Tək “Naməlum” yayındırıcı bir neçə model üçün yalnız mətn dəqiqliyini artırdı, o cümlədən GPT-5 37,71%-dən 42,86%-ə qədər.
Şəkilləri yayındırıcı cavablarla uyğunlaşdıran əks-faktual vizual əvəzləmələr arasında dəqiqlik çökdü. GPT-5 83.33% azalaraq 51.67%, Gemini-2.5 Pro 80.83% 47.50%, OpenAI-o3 76.67% azalaraq 52.50%.
Düşüncə zənciri ümumiyyətlə o4-mini üçün kiçik qazanclarla VQA-RAD və NEJM- də dəqiqliyi azaldır. Yanlış məntiq, hallüsinasiya edilmiş vizual təfərrüatlar və yekun qərarlara rəhbərlik etməyən addım-addım təsvir təsvirləri ilə birləşdirilmiş sənədləşdirilmiş düzgün cavabları yoxlayır.
Müəlliflər xəbərdarlıq edir ki, tibbi göstərici balları birbaşa kliniki hazırlığı əks etdirmir və yüksək liderlər lövhəsi nəticələri kövrək davranışı, qısa yoldan istifadəni və uydurma mülahizələri maskalaya bilər.
Onlar tövsiyə edirlər ki, tibbi süni intellekt qiymətləndirməsinə sistematik stress testi, əsaslandırma və vizual tələbləri təfərrüatlandıran etalon sənədləri və dəqiqliklə yanaşı möhkəmlik ölçülərinin hesabatını da daxil edin. Onlar iddia edirlər ki, yalnız bu cür təcrübələr vasitəsilə multimodal sağlamlıq AI-də irəliləyiş klinik etibar və təhlükəsizliyə uyğunlaşdırıla bilər.
Müəllifimiz Justin Jackson tərəfindən sizin üçün yazılmış , Sadie Harley tərəfindən redaktə edilmiş və Robert Eqan tərəfindən yoxlanılmış və nəzərdən keçirilmiş bu məqalə diqqətli insan əməyinin nəticəsidir. Müstəqil elmi jurnalistikanı yaşatmaq üçün sizin kimi oxuculara güvənirik. Bu hesabat sizin üçün əhəmiyyət kəsb edirsə, lütfən, ianə (xüsusilə aylıq) nəzərdən keçirin. Siz təşəkkür olaraq reklamsız hesab əldə edəcəksiniz .
Daha çox məlumat: Yu Gu et al, Hazırlıq İllüziyası: Multimodal Tibbi Testlərdə Böyük Sərhəd Modellərinin Stress Testi, arXiv (2025). DOI: 10.48550/arxiv.2509.18234
Jurnal məlumatı: Amerika Tibb Assosiasiyasının Jurnalı , arXiv , New England Journal of Medicine
© 2025 Science X Network