Yeni model yaddaş və vərdişlər kontekstində insanın gücləndirilməsi öyrənilməsini nəzərdə tutur

Ingrid Fadelli , Medical Xpress

Lisa Lock tərəfindən redaktə edilmiş , Robert Eqan tərəfindən nəzərdən keçirilmişdir

Redaktorların qeydləriKredit: CC0 Public Domain

İnsanlar və digər heyvanların əksəriyyəti gözlənilən mükafatlar və ya mənfi nəticələrlə güclü şəkildə idarə olunduğu bilinir. Müsbət nəticələrə cavab olaraq yeni bacarıqların əldə edilməsi və ya davranışların tənzimlənməsi prosesi gücləndirici öyrənmə (RL) kimi tanınır.

RL son onilliklər ərzində geniş şəkildə öyrənilmiş və hətta bəzi hesablama modellərini, məsələn, bəzi dərin öyrənmə alqoritmlərini öyrətmək üçün uyğunlaşdırılmışdır. Mövcud RL modelləri bu cür öyrənmənin dopaminerjik yollarla (yəni, gözlənilən və təcrübəli nəticələr arasındakı fərqlərə cavab verən sinir yolları) əlaqəli olduğunu göstərir .

Berkli Kaliforniya Universitetinin tədqiqatçısı Anne GE Collins bu yaxınlarda insanların seçimlərinin qeyri-müəyyən kontekstdən asılı nəticələrinin olduğu vəziyyətlərə xas olan yeni RL modelini inkişaf etdirdi və onlar mükafatlara səbəb olacaq hərəkətləri öyrənməyə çalışırlar. Onun “Nature Human Behavior” jurnalında dərc olunmuş məqaləsi mövcud RL alqoritmlərinin psixoloji və sinir mexanizmlərini sədaqətlə əks etdirdiyi fərziyyəsinə qarşı çıxır.

Kollinz Medical Xpress-ə deyib: “Mənim tədqiqatımın məqsədi keçmiş məlumatlardan öyrənmə üçün necə istifadə etdiyimizi anlamaqdır”. “Beynimizin öyrənmə üçün bir çox mexanizmləri var və onlar hətta çox sadə şeyləri öyrəndiyimiz zaman da paralel olaraq işləyir (məsələn, mən konkret təsviri görəndə hansı düymənin basılması xal verəcək). Onların töhfələrini yaxşı müəyyən etmək çox vaxt çətindir və bəzən biz birini digəri ilə səhv salırıq.

“Bu araşdırma ilə mən iki mexanizmin, iş yaddaşı (WM) və vərdişlərin (H) xüsusi töhfələrini göstərmək və onların niyə daha populyar olan RL ilə səhv salına biləcəyini göstərmək istədim.”Collins tərəfindən təqdim edilən RLWM eksperimental paradiqması. İştirakçılar NS stimulunun hər biri üçün üç hərəkətdən hansının düzgün olduğunu (Kor.) müəyyən etmək üçün deterministik ikili rəydən istifadə edərək, RL tapşırığının çoxsaylı müstəqil bloklarını yerinə yetirdilər. Dəyişən ns WM yükünü hədəfləyir və tədqiqatçılara onun töhfəsini təcrid etməyə imkan verir. Kredit: Təbiət İnsan Davranışı (2025). DOI: 10.1038/s41562-025-02340-0

Mükafat əsaslı qərarları dəstəkləyən mexanizmlərin ayrılması

Tədqiqatının bir hissəsi olaraq, Collins, insan iştirakçıları mükafata əsaslanan qərar vermə tapşırıqlarını yerinə yetirərkən toplanmış yeddi əvvəllər dərc edilmiş məlumat dəstini yenidən təhlil etdi. Bu tapşırıqlar zamanı iştirakçılar müxtəlif şəkillərə baxarkən xal qazanmaq üçün hansı düymələri basmalı olduqlarını öyrənməyi tələb edən sadə kompüter oyunu oynadılar.

“Biz bilirik ki, iş yaddaşı bu vəzifədə böyük rol oynayır, çünki iştirakçılar cəmi iki şəkil olduqda, beş və ya altı şəkil olduqda (burada düzgün açarı açıq şəkildə yadda saxlamaq daha çətindir) daha sürətli öyrənirlər” deyə Kollinz izah etdi. “RL və H-ni müqayisə etmək üçün, öyrənmək üçün beş və ya altı elementlə işləyən yaddaşın tam işi görmədiyinə daha çox diqqət yetirə bilərik.”

Collins tərəfindən nəzərdən keçirilən tapşırıqda iştirakçılar həmçinin WM və vərdiş kimi davranış nümunələrinə çox etibar edə bilərlər. Xüsusilə, onlar hansı seçimlərin müsbət nəticələrə səbəb olduğunu xatırlamağa çalışa və ya sadəcə olaraq oxşar qərarlar verməyə davam edə bilərlər.

“Seçim etdikdə və xal itirmək kimi məyusedici nəticə əldə etdikdə, RL və WM hər ikisi deyir ki, növbəti dəfə bu seçimdən qaçmalısan” dedi Collins. “Əksinə olaraq, vərdiş kimi bir proses nəticələrə daha az diqqət yetirir və sadəcə olaraq əvvəlki seçimləri təkrarlamağa meyllidir – yaxşı və ya pis.”

Kollinz daha sonra iştirakçıların buraxdığı səhvləri təhlil etdi və bu səhvlərə nəyin səbəb olduğunu aydınlaşdırmağa çalışdı. O, insanların vərdişlərini güclü şəkildə rəhbər tutduqlarını və onlardan öyrənmək əvəzinə əvvəlki səhvləri təkrarlamağa meylli olduqlarını tapdı.

“Hesablama modelləşdirməsi insanların davranışlarının WM-i dəstəkləyən RL ilə müqayisədə iş yaddaşını dəstəkləyən vərdişlərə daha uyğun olduğunu təsdiqlədi” dedi.

RL-ni yenidən tərtib etmək və əlavə araşdırmalara ilham vermək

Collins tərəfindən aparılan təhlillərin nəticələri göstərir ki, insanlarda mükafata əsaslanan öyrənmə standart RL modelləri ilə ən yaxşı şəkildə izah olunmur. Bunun əvəzinə, bu öyrənmənin iş yaddaşı prosesləri və vərdiş kimi təkrarlanan davranışlarla izah oluna biləcəyini təklif edir.

“WM və H hər ikisinin güclü məhdudiyyətləri var: İnsan qısa müddət ərzində yalnız çox az şey öyrənə bilər, yalnız bir şeyi təkrarlamağı öyrənə bilər (yaxşı olanı deyil)” Collins dedi. “Lakin siz onları bir araya gətirdiyiniz zaman onlar onların cəmindən çoxdur: WM bizi kifayət qədər tez-tez yaxşı hərəkətlərə sövq etdiyinə görə, H-yə yaxşı hərəkətləri təkrarlamağı öyrədir ki, bu da ona yaxşı siyasət öyrənməyə imkan verir. Bu, iki məhdud sistemin daha güclü sistemdə birləşərək meydana çıxan xüsusiyyətidir.”

Bu son araşdırma göstərir ki, digər prosesləri RL ilə səhv salmaq asandır. Bu, RL-nin insanların maksimum mükafatlarla əlaqəli seçimlər etməyi öyrənməsində rol oynaması ehtimalını istisna etməsə də, bəzi kontekstlərdə WM və vərdişlərin eyni dərəcədə mühüm rol oynadığını göstərir.

“Məqaləmdə nəzərdən keçirilən situasiyalarda RL-nin bu öyrənmə növü üçün dominant modelləşdirmə çərçivəsi olmasına baxmayaraq, öyrənməni izah etmək lazım deyil” deyə Kollinz əlavə etdi. “Mən indi anlamaq istəyirəm ki, RL hansı şəraitdə yaranır və beynimizi öyrənmə kontekstində WM, RL və ya H (və ya digər proseslər) cəlb etməyə nə sövq edir. Bu, daha dəqiq eksperimentlərin aparılmasını və daha çox modelləşdirməni əhatə edəcək.”

Gələcəkdə Collins tərəfindən toplanan tapıntılar RL vasitəsilə öyrədilmiş yeni hesablama modellərinin inkişafına rəhbərlik edə bilər. Bundan əlavə, onlar digər tədqiqat qruplarını mükafata əsaslanan öyrənmə ilə əlaqəli psixoloji və sinir proseslərini daha da araşdırmaq üçün ruhlandıra bilər.

Collins əlavə etdi: “Mən həm də bu tapşırıqda tapdığımız H prosesinin real həyatda vərdişlər kimi düşündüyümüzə uyğun olub-olmadığını yoxlamaq istəyirəm”. “Mən real həyatda adi davranışlara fərqli şəkildə həssas olan müxtəlif fərdləri tapşırıqda sınaya bilərəm və bunun bu tapşırıqda davranışlarında əks olunub-olunmadığını görə bilərəm.”

Müəllifimiz İnqrid Fadelli tərəfindən sizin üçün yazılmış, Liza Lok tərəfindən redaktə edilmiş və Robert Eqan tərəfindən yoxlanılmış və nəzərdən keçirilmiş bu məqalə diqqətli insan əməyinin nəticəsidir. Müstəqil elmi jurnalistikanı yaşatmaq üçün sizin kimi oxuculara güvənirik. Bu hesabat sizin üçün əhəmiyyət kəsb edirsə, lütfən, ianə (xüsusilə aylıq) nəzərdən keçirin. Siz təşəkkür olaraq reklamsız hesab əldə edəcəksiniz .

Daha çox məlumat: Anne GE Collins, İnsan mükafatına əsaslanan öyrənmənin alternativ hesabı kimi vərdiş və işləyən yaddaş modeli, Təbiət İnsan Davranışı (2025). DOI: 10.1038/s41562-025-02340-0

Jurnal məlumatı: Nature Human Behavior

BE	ÇA	Ç	CA	C	Ş	B
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Pozitivlikdən qaynaqlanan cazibə qüvvəsi:...

Attosaniyədə zaman şkalasında tutulan...

Bir protein hər iki...

Bu kiçik orqanizm sadəcə...

Vera C. Rubin Rəsədxanasının...

Artemis II Günəş hissəcikləri...