Süni intellekt modelləri mövcud olmayan görüntülərin vizual anlayışını saxtalaşdıra bilər
Sanjukta Mondal tərəfindən , Phys.org
Sadie Harley tərəfindən redaktə edilib , Robert Egan tərəfindən nəzərdən keçirilib
Tercih edilən mənbə kimi əlavə edin
Mənbə: Şəkil redaksiya heyəti tərəfindən illüstrativ məqsədlər üçün süni intellektdən istifadə etməklə yaradılıb.
Çox keçməmiş xəbər başlıqlarında süni intellektin tezliklə radioloqlara sınıq sümüklərin rentgen şüalarını şərh etməkdə və mammoqrafiyaları təhlil etməkdə kömək edə biləcəyi iddiaları irəli sürülmüşdü. Yeni bir araşdırma süni intellektin mövcud olmayan görüntülərin ətraflı təsvirlərini yaratdığı ilğım effektini ortaya çıxardığı üçün hələ də hədəfdən uzaqıq.
Stanford Universitetindən olan tədqiqatçılar qrupu Phantom-0 adlı yeni bir test yaratdılar . Testdə GPT-5, Gemini 3 Pro, Claude Sonnet 4.5 və Claude Opus 4.5 daxil olmaqla, müasir sərhəd süni intellekt modellərinə aid şəkillər haqqında çox spesifik detalları soruşan 20 kateqoriya üzrə bir sıra suallar daxil edildi. Lakin tədqiqatçılar suallara əlavə şəkillər təqdim etmədilər.
Onlar aşkar ediblər ki, süni intellektdən yüklənməmiş bir şəkil haqqında soruşulduqda, süni intellekt modelləri heç nə görə bilmədiklərini etiraf etmirlər. Bunun əvəzinə, onlar əminliklə ətraflı xəyali təsvirlər – məsələn, dəqiq nömrə nişanları, müəyyən qəzet dilləri və ya hətta mövcud olmayan həyati təhlükə yaradan şərtlər kimi təsvirlər hazırlayıblar.
Testlər göstərdi ki, orta hesabla bu cür ilğım davranışı sərhəd süni intellekt modellərində vaxtın 60%-dən çoxunda özünü göstərir. İlğım problemi ilə mübarizə aparmaq üçün tədqiqatçılar süni intellekt modellərinin şəkilləri görmək və anlamaq qabiliyyətinin sınaqdan keçirilməsini təmin edən yeni bir qiymətləndirmə metodu olan B-Clean-ı təqdim etdilər. Bu tapıntılar arXiv serverində əvvəlcədən çap olunmuş şəkildə dərc edilib .Süni intellekt modellərinin miraj rejimindəki cavabları, etalon əsaslı qiymətləndirmələrdə illüziya yüksək dəqiqliklər nümayiş etdirə bilər. Mənbə: arXiv (2026). DOI: 10.48550/arxiv.2603.21687
Vizual işarələrdən deyil, mətn ipuçlarından cavablar
Son yarım onillikdə həm mətn, həm də vizual girişləri idarə edən süni intellekt modellərində təsirli irəliləyişlər müşahidə etmişik. Bu multimodal qabiliyyət tibb və robototexnika sahələrində süni intellekt tətbiqlərini tapmışdır. Hər gün 230 milyondan çox insan sağlamlıq və rifahla bağlı suallarla süni intellektə müraciət edir və bu modellərə həm xəstələr, həm də klinisyenlər arasında inam artır.
Bu modellərin nə dərəcədə yaxşı işlədiyini görmək üçün multimodal qabiliyyətləri sınaqdan keçirmək üçün bir sıra etalonlar hazırlanmışdır. Bu testlər gündəlik fotoşəkillərdən tutmuş radiologiya, mikroskopiya və patologiya kimi yüksək ixtisaslaşmış sahələrə qədər hər şeyi əhatə edə bilər. Bu qiymətləndirmə sisteminin əsas fərziyyəsi daha yüksək balların daha yaxşı vizual qavrayış demək olmasıdır.
Lakin bu yaxınlarda aparılan araşdırma bu müqayisə sistemini şübhə altına alır. Apardıqları təcrübələr göstərdi ki, süni intellekt modelləri görüntülər tamamilə silindikdə belə vizual testlərdə təəccüblü dərəcədə yaxşı nəticə göstəriblər.Miraj effektinin tərifi və kəmiyyətləndirilməsi. Mənbə: arXiv (2026). DOI: 10.48550/arxiv.2603.21687
Komanda, vizual məlumatlara çıxışı olmayan, yalnız mətndən ibarət bir modeli döş qəfəsi rentgen müayinələri ilə bağlı sualları cavablandırmaq üçün öyrətməklə bir addım daha irəli getdi.
Təəccüblüdür ki, model standart döş qəfəsi rentgen sual-cavab meyarında həm yüksək səviyyəli süni intellekt sistemlərini, həm də insan həkimlərini üstələyib. Bu tapıntılar mümkün bir qüsura işarə edir: mövcud qiymətləndirmələr faktiki vizual anlayışdan daha çox mətn nümunələrinə çox güvənə bilər.
Tədqiqatçıların müşahidə etdiyi digər bir nümunə, süni intellektdən bir görüntünün olmadığı açıq şəkildə bildirildikdə və cavabı təxmin etməsi istənildikdə, dəqiqlik əhəmiyyətli dərəcədə aşağı düşməsi idi. Modelə sanki bir görüntü varmış kimi bir sual verildikdə, o, gizli mətn ipuçları və nümunələrindən istifadə edərək cavab yaratmaqda daha yaxşı olduğu üçün performansının yaxşılaşdığı bir ilğım rejiminə keçdi.
Bu tədqiqat vizual dil süni intellekt modellərinin necə sınaqdan keçirildiyi və əslində necə işlədiyi ilə bağlı əsas zəif cəhətləri vurğuladı.
Tədqiqatçılar, xüsusən də saxta cavabların ciddi nəticələrə səbəb ola biləcəyi tibbi şəraitdə vizual olmayan nəticə çıxarmağı aradan qaldıran daha yaxşı və daha təhlükəsiz etalonlara təcili ehtiyac olduğunu vurğuladılar.
Mümkün bir həll yolu olaraq, onlar şəkillər olmadan cavablandırıla bilən sualları süzgəcdən keçirən yeni B-Clean qiymətləndirmə metodunu təqdim etdilər — mətn ipuçlarına əsaslanan şanslı təxminlərə deyil, vizual anlayışa əsaslanaraq multimodal süni intellekt modellərini daha ədalətli və daha dəqiq sınaqdan keçirirlər.
B-Clean və oxşar yanaşmaların ilğım effektini effektiv şəkildə aradan qaldıra biləcəyini və süni intellekt modelləri tərəfindən yaradılan çıxışın əslində vizual girişə əsaslandığını təmin edə biləcəyini müəyyən etmək üçün əlavə tədqiqatlara ehtiyac var.
Müəllifimiz Sanjukta Mondal tərəfindən sizin üçün yazılmış, Sadie Harley tərəfindən redaktə edilmiş və Robert Egan tərəfindən faktlar yoxlanılmış və nəzərdən keçirilmişdir — bu məqalə diqqətli insan əməyinin nəticəsidir. Müstəqil elmi jurnalistikanı yaşatmaq üçün sizin kimi oxuculara güvənirik. Bu reportaj sizin üçün vacibdirsə, xahiş edirik ianə etməyi düşünün (xüsusilə aylıq). Təşəkkür olaraq reklamsız hesab əldə edəcəksiniz .













