Psixologiyaya əsaslanan tapşırıqlar multimodal LLM vizual idrak məhdudiyyətlərini qiymətləndirir

Son onilliklər ərzində kompüter alimləri getdikcə təkmilləşmiş süni intellekt (AI) modellərini yaratdılar, bəziləri xüsusi tapşırıqları insanlara bənzər şəkildə yerinə yetirə bilər. Bu modellərin insanlar kimi məlumatları nə dərəcədə “düşündüyü” və təhlil etdiyi hələ də qızğın müzakirə mövzusudur.
Maks Plank adına Bioloji Kibernetika İnstitutunun, Helmholtz Münhendəki İnsan Mərkəzli Süni İntellekt İnstitutunun və Tübingen Universitetinin tədqiqatçıları bu yaxınlarda süni intellekt modellərinin perspektivli sinfi olan multimodal böyük dil modellərinin (LLM) vizual qavrayışda mürəkkəb qarşılıqlı əlaqə və əlaqələri qavrama dərəcəsini daha yaxşı başa düşmək üçün yola çıxdılar.
Onların Nature Machine Intelligence- də dərc olunmuş tapıntıları göstərir ki, bəzi LLM-lər məlumatların işlənməsi və şərh edilməsini tələb edən tapşırıqları yaxşı yerinə yetirsələr də, çox vaxt insanların qavraya biləcəyi incəlikləri əldə edə bilmirlər.
“Biz Brenden M. Lake və başqalarının maşın öyrənmə modellərinin insana bənzədilməsi üçün tələb olunan əsas koqnitiv komponentləri əks etdirən təsirli məqalədən ilham aldıq”, – deyə kağızın həmmüəllifləri Luca M. Schulze Buschoff və Elif Akata Tech Xplore-a bildiriblər.
“Layihəmizə başlayanda həm dili, həm də təsvirləri emal edə bilən görmə dili modellərində ümidverici irəliləyiş var idi. Bununla belə, bu modellərin insana bənzər vizual mülahizələri yerinə yetirə bilib-bilmədiyinə dair bir çox suallar qalırdı.”
Buschoff, Akata və onların həmkarları tərəfindən aparılan son araşdırmanın əsas məqsədi multimodal LLM-lərin intuitiv fizika, təsadüfi əlaqələr və insanların seçimlərinin intuitiv başa düşülməsi kimi vizual emal tapşırıqlarının xüsusi aspektlərini qavramaq qabiliyyətini qiymətləndirmək idi. Bu, öz növbəsində, bu modellərin imkanlarının nə dərəcədə insana bənzədiyinə işıq salmağa kömək edə bilər.
https://googleads.g.doubleclick.net/pagead/ads?gdpr=0&us_privacy=1—&gpp_sid=-1&client=ca-pub-0536483524803400&output=html&h=135&slotname=2793866484&adk=675901022&adf=746485419&pi=t.ma~as.2793866484&w=540&abgtt=6&fwrn=4&lmt=1738907781&rafmt=11&format=540×135&url=https%3A%2F%2Ftechxplore.com%2Fnews%2F2025-02-psychology-based-tasks-multi-modal.html&wgl=1&uach=WyJXaW5kb3dzIiwiMTUuMC4wIiwieDg2IiwiIiwiMTMyLjAuNjgzNC4xNjAiLG51bGwsMCxudWxsLCI2NCIsW1siTm90IEEoQnJhbmQiLCI4LjAuMC4wIl0sWyJDaHJvbWl1bSIsIjEzMi4wLjY4MzQuMTYwIl0sWyJHb29nbGUgQ2hyb21lIiwiMTMyLjAuNjgzNC4xNjAiXV0sMF0.&dt=1738907548075&bpp=1&bdt=929&idt=485&shv=r20250205&mjsv=m202502040101&ptt=9&saldr=aa&abxe=1&cookie=ID%3D594147a00c618f4c%3AT%3D1735548631%3ART%3D1738907548%3AS%3DALNI_MYbuCvlfveSCnpeUIQKyQ2DBT11fQ&gpic=UID%3D00000f84124e2904%3AT%3D1735548631%3ART%3D1738907548%3AS%3DALNI_Maf8g334ShSARz9IhljaNTJv-vUzg&eo_id_str=ID%3D639b28d7655b7aa4%3AT%3D1735548631%3ART%3D1738907548%3AS%3DAA-Afjakj_-HiAALGKSfOxRJbP3s&prev_fmts=0x0%2C1519x730&nras=2&correlator=8351091160672&frm=20&pv=1&rplot=4&u_tz=240&u_his=1&u_h=864&u_w=1536&u_ah=816&u_aw=1536&u_cd=24&u_sd=1.25&dmc=8&adx=395&ady=1838&biw=1519&bih=730&scr_x=0&scr_y=0&eid=31090151%2C31090193%2C95350441%2C95347433%2C95348348%2C95350015&oid=2&pvsid=2734757257980225&tmod=1985943554&uas=0&nvt=1&ref=https%3A%2F%2Fphys.org%2F&fc=1920&brdim=0%2C0%2C0%2C0%2C1536%2C0%2C1536%2C816%2C1536%2C730&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=1&td=1&tdf=2&psd=W251bGwsbnVsbCxudWxsLDNd&nt=1&ifi=2&uci=a!2&btvi=1&fsb=1&dtd=M
Bunu müəyyən etmək üçün tədqiqatçılar bir sıra idarə olunan təcrübələr həyata keçirdilər, burada modelləri keçmiş psixologiya tədqiqatlarından əldə edilən tapşırıqlar üzərində sınaqdan keçirdilər. Süni intellektin sınaqdan keçirilməsinə bu yanaşma ilk dəfə PNAS- da nəşr olunan Marsel Binz və Eric Schulz tərəfindən daha əvvəlki bir məqalədə ortaya çıxdı .
“Məsələn, onların intuitiv fizika anlayışını yoxlamaq üçün biz modellərə blok qüllələrin şəkillərini verdik və onlardan verilən qüllənin dayanıqlı olub-olmadığını mühakimə etmələrini istədik” dedi Buschoff və Akata.
“Səbəbli əsaslandırma və intuitiv psixologiya üçün modellər hadisələr arasındakı əlaqələri çıxarmaq və ya digər agentlərin üstünlüklərini anlamaq üçün lazım idi. Sonra onların əsas performansını qiymətləndirdik və onları eyni təcrübələrdə iştirak edən insan iştirakçılarla müqayisə etdik.”
Tədqiqatçılar, tapşırıqlar zamanı LLM-lərin cavablarını insan iştirakçılarının verdiyi cavablarla müqayisə edərək, modellərin insanlarla uyğunlaşma yollarını və onların nə yerdə qısa olduğunu daha yaxşı başa düşə bildilər.
Ümumilikdə, onların tapıntıları göstərdi ki, bəzi modellər əsas vizual məlumatları emal etməkdə yaxşı olsalar da, onlar hələ də insan idrakının daha mürəkkəb aspektlərini təqlid etmək üçün mübarizə aparırlar.
Buschoff və Akata, “Hazırda bunun miqyaslı və təlim məlumatlarında daha çox müxtəlifliklə həll edilə bilən bir şey olub olmadığı aydın deyil” dedi.
“Bu, bu modellərin təchiz edilməli olduğu induktiv qərəzlərin növləri ilə bağlı daha geniş müzakirələrə səbəb olur. Məsələn, bəziləri iddia edirlər ki, bu modellər fiziki dünya haqqında ümumi və möhkəm anlayışa nail olmaq üçün fizika mühərriki kimi bəzi əsas emal modulları ilə təchiz edilməlidir. Bu, hətta bəzi uşaqlarda fiziki prosesləri erkən yaşdan proqnozlaşdıra biləcəklərini göstərən tapıntılara qayıdır.”
Buschoff, Akata və onların həmkarlarının son işi hazırkı ən müasir multimodal LLM-lərin insana bənzər idrak bacarıqlarını nə dərəcədə nümayiş etdirdiyinə dair yeni dəyərli fikirlər təqdim edir. İndiyə qədər komanda böyük verilənlər bazasında əvvəlcədən öyrədilmiş modelləri sınaqdan keçirib, lakin onlar tezliklə eksperimentlərdə istifadə edilən eyni növ tapşırıqlar üzərində dəqiq tənzimlənmiş modellər üzərində əlavə sınaqlar keçirmək istəyirlər.
“İncə tənzimləmə ilə ilk nəticələrimiz göstərir ki, onlar öyrədildikləri xüsusi tapşırıqda daha yaxşı olurlar” dedi Buschoff və Akata.
“Lakin bu təkmilləşdirmələr heç də həmişə müxtəlif vəzifələr üzrə daha geniş, daha ümumiləşdirilmiş anlayışa çevrilmir ki, bu da insanların olduqca yaxşı bacardığı bir şeydir.”
Daha çox məlumat: Luca M. Schulze Buschoff et al, Multimodal böyük dil modellərində vizual idrak, Təbiət Maşın Zəka (2025). DOI: 10.1038/s42256-024-00963-y .
Jurnal məlumatı: Milli Elmlər Akademiyasının Materialları , Təbiət Maşın Kəşfiyyatı
© 2025 Science X Network