Sadə fizikadan ilhamlanan model süni intellektin necə öyrəndiyinə işıq salır

SISSA Medialab tərəfindən
Sadie Harley tərəfindən redaktə edilib , Robert Egan tərəfindən nəzərdən keçirilib
Tercih edilən mənbə kimi əlavə edin
Kredit: Unsplash/CC0 İctimai Sahə
Neyron şəbəkələrinə əsaslanan süni intellekt sistemləri — məsələn, ChatGPT, Claude, DeepSeek və ya Gemini — olduqca güclüdür, lakin onların daxili işləmə mexanizmi əsasən “qara qutu” olaraq qalır. Bu sistemlərin cavablarını necə yaratdığını daha yaxşı başa düşmək üçün Harvard Universitetinin bir qrup fizikləri statistik fizika alətlərindən istifadə edərək riyazi olaraq təhlil edilə bilən neyron şəbəkələrində öyrənmənin sadələşdirilmiş riyazi modelini hazırlayıblar.
“Oyuncaq modelləri”, Statistik Mexanika Jurnalında dərc olunmuş bir araşdırmada təqdim edilən kimi , tədqiqatçılara neyron şəbəkələrinin fundamental mexanizmlərini araşdırmaq üçün nəzarətli nəzəri laboratoriya təqdim edir.
Bu sistemlərin necə işlədiyini daha dərindən anlamaq, mövcud problemlərin bəzilərini həll etməklə yanaşı, daha səmərəli və etibarlı süni intellekt sistemlərinin dizaynına kömək edə bilər.
Süni intellekt qanunları
Bu, Keplerin planetlərin hərəkətini tənzimləyən qanunları təsvir etdiyi dövrə bənzəyir. Harvard Universitetinin nəzəri fizika üzrə doktorantura tələbəsi və yeni tədqiqatın ilk müəllifi Aleksandr Atanasov izah edir: “Nyutonun cazibə qanunlarının kəşf edilməsi yolu əvvəlcə planetlərin orbital dövrləri ilə onların radiusları arasında miqyaslanma qanunlarının müəyyən edilməsi idi”.
Kepler qanunlarını planetlərin hərəkətini müşahidə edərək, onun arxasındakı mexanizmləri tam anlamadan formalaşdırdı. Lakin bu iş çox vacib oldu: sonradan Nyutonun cazibə qüvvəsini kəşf etməsinə imkan verdi və bu da kainatı daha dərindən anlamasına səbəb oldu.
Neyron şəbəkələrinə əsaslanan süni intellektin bir qolu olan dərin öyrənmə tədqiqatlarında biz hələ də oxşar Keplerian mərhələsində ola bilərik. Bu gün tədqiqatçılar neyron şəbəkələrinin necə davrandığını təsvir edən bir neçə empirik qanun müəyyən ediblər, lakin hələ də onların niyə bu cür davrandığını izah edən bir növ “cazibə nəzəriyyəsi” yoxdur.
Məsələn, alimlər miqyaslanma qanunları haqqında məlumatlıdırlar. “Bilirik ki, bir modeli götürüb daha böyük etsək və ya ona daha çox məlumat versək, onun performansı artar”, Harvard Universitetinin Tətbiqi Riyaziyyat üzrə dosenti və tədqiqatın baş müəllifi Cengiz Pehlevan izah edir.
Bu qanunlar performansı proqnozlaşdırıla bilən edir, lakin hələlik bunun arxasındakı daha dərin mexanizmləri aşkar etmir. Bu yanaşma nəinki səmərəsizdir – bugünkü süni intellekt sistemləri çoxlu miqdarda enerji istehlak edir – həm də bu sistemlərin əslində necə işlədiyini anlamağımıza az təsir göstərir.
Bioloji orqanizmlər kimi neyron şəbəkələri
Atanasov izah edir ki, “Dərin öyrənmə modelləri əl ilə qaydalar toplusu kimi yazılmış alqoritmlər deyil. Onlar əl ilə hazırlanmır. Bu, laboratoriyada yetişdirilən orqanizmə daha çox bənzəyir.”
Generativ süni intellekt çatbotları neyron şəbəkələrinə əsaslanır və bu texnologiya — çox uzaqdan — bioloji beynin fəaliyyətinə bənzəyir. Onlar süni neyron adlanan bir çox kiçik emal vahidlərindən ibarətdir və hər biri sadə əməliyyatlar yerinə yetirir, lakin mürəkkəb şəbəkədə bir-birinə bağlıdır.
Məhz bu şəbəkə quruluşu “ağıllı” davranışın ortaya çıxmasına imkan verir. Hər bir fərdi komponent tərəfindən yerinə yetirilən riyazi əməliyyatları bilsək də, sistemin bütövlükdə davranışını proqnozlaşdırmaq və mexaniki olaraq izah etmək olduqca çətin olaraq qalır: komponentlərin sayı artdıqca mürəkkəblik sürətlə artır.
Oyuncaq modeli
Hazırda tammiqyaslı neyron şəbəkəsini dəqiq riyazi metodlarla təhlil etmək mümkün olmadığı üçün Atanasov və həmkarları daha mürəkkəb sistemlərin bir çox əsas xüsusiyyətlərini özündə əks etdirən sadələşdirilmiş modellə işləməyi seçdilər.
Harvard Təqaüdçülər Cəmiyyətinin kiçik elmi işçisi və tədqiqatın həmmüəllifi Ceykob Zavatone-Vet izah edir: “Öyrəndiyimiz model riyazi olaraq həll ediləcək qədər sadədir. Eyni zamanda, o, böyük neyron şəbəkələrində müşahidə olunan bir neçə əsas hadisəni təkrarlayır.”
Tədqiqatda istifadə edilən oyuncaq modeli, xətti reqressiyanın bir variantı olan silsilə reqressiyasıdır.
Xətti reqressiya dəyişənlər arasındakı əlaqələri qiymətləndirmək üçün istifadə olunan statistik metoddur. Məsələn, 100 nəfərin boy və çəkisini biliriksə, xətti reqressiyadan istifadə edərək ikisi arasında riyazi əlaqəni müəyyən edə və yeni bir insanın boyunu yalnız onların çəkisinə əsasən qiymətləndirə bilərik.
Həddindən artıq uyğunlaşmanın sirri – və niyə bu, tez-tez baş vermir
Ridge reqressiyası, həddindən artıq uyğunlaşma kimi tanınan fenomeni azaltmağa kömək edən bir reqressiya növüdür. Modellər böyük məlumat dəstləri üzərində öyrədildikdə, neyron şəbəkəsi – bir az çox çalışqan, lakin bəlkə də xüsusilə də dərin düşüncəli olmayan bir tələbə kimi – yeni məlumatlar üzərində ümumiləşdirməyə və etibarlı proqnozlar verməyə imkan verən nümunələri öyrənmək əvəzinə, sadəcə təlim məlumatlarını əzbərləyə bilər.
Lakin dərin öyrənmə modelləri çox vaxt təəccüblü şəkildə davranırlar. “Son dərəcə böyük olmalarına baxmayaraq, bu modellər məlumatlardan həddindən artıq uyğunlaşmadan öyrənə bilərlər”, – deyə Atanasov izah edir və bunu “dərin öyrənmənin ən böyük sirlərindən biri” adlandırır.
İlk baxışdan bu, əksinə görünür. Nəzəri olaraq, daha böyük modellər həddindən artıq uyğunlaşmaya daha çox meylli olmalıdır. Bunun əvəzinə, miqyas qanunları göstərir ki, təlim zamanı daha çox məlumat istifadə olunduqca performans tez-tez yaxşılaşır.
Yeni anlayışlar
Yeni tədqiqat bu izahın mümkün bir hissəsini təqdim edir. Tədqiqatçılara görə, neyron şəbəkələrinin həddindən artıq uyğunlaşmadan öyrənmə qabiliyyəti statistik fizikada geniş istifadə olunan bir çərçivə olan renormalizasiya nəzəriyyəsi ilə əlaqəli prinsiplərdən irəli gələ bilər.
Bunun səbəbini anlamaq üçün müasir süni intellekt sistemləri tərəfindən işlənən məlumatların ölçülülüyünü nəzərə almaq faydalıdır. Xətti reqressiyanın əvvəlki nümunəsində biz yalnız iki dəyişəni – boy və çəkini nəzərdən keçirdik.
Lakin ChatGPT kimi real sistemlər minlərlə və ya hətta milyonlarla dəyişən olan fəzalarda işləyir və bu da dəqiq riyazi analizi olduqca çətinləşdirir.
Burada statistik fizikadan gələn ideyalar faydalı olur. Çox yüksək ölçülü məlumatlarda kiçik təsadüfi variasiyalar — statistik dalğalanmalar kimi tanınır — təbii olaraq ortaya çıxır. Yenidən normallaşdırma nəzəriyyəsi göstərir ki, bir çox mikroskopik detallar az sayda parametrə effektiv şəkildə hopdurula bilər, yəni hətta çox mürəkkəb sistemlər belə nisbətən sadə, genişmiqyaslı davranış nümayiş etdirə bilər.
Tədqiqatçılar bu çərçivədən və sadələşdirilmiş oyuncaq modelindən istifadə edərək, bu yüksək ölçülü dalğalanmaların öyrənməni necə pozmaq əvəzinə, sabitləşdirə biləcəyini göstərirlər.
“Bunu daha sadə xətti modelləri təhlil etməklə başa düşə biləcəyimiz bir şeydir”, – deyə Pehlevan izah edir və eyni mexanizmin mövcud neyron şəbəkələrinin həddindən artıq parametrləşdirildikdə belə həddindən artıq uyğunlaşmadan qaçmasının səbəbini izah edə biləcəyini irəli sürür.
Sadələşdirilmiş model başqa bir məqsədə də xidmət edə bilər. Zavatone-Vetin qeyd etdiyi kimi, bu, çox yüksək ölçülü sistemlərdə öyrənmənin necə davam edə biləcəyini anlamaq üçün bir növ əsas ola bilər.
Riyazi təhlil etmək üçün kifayət qədər sadə olan bir modeli öyrənməklə, tədqiqatçılar öyrənmənin hansı aspektlərinin ümumi olacağını, yəni bir çox fərqli neyron şəbəkələrində görünməsinin gözlənildiyini və bunun əvəzinə müəyyən bir modelin detallarından asılı olduğunu müəyyən edə bilərlər. Bu mənada, bu kimi tədqiqatlar mürəkkəb sistemlərdə öyrənmənin əsasını təşkil edən bəzi daha fundamental prinsipləri aydınlaşdırmağa kömək edə bilər.
Daha çox məlumat
Yüksək ölçülü reqressiyada miqyaslanma və yenidən normallaşdırma, Statistik Mexanika Jurnalı: Nəzəriyyə və Təcrübə (2026).













