AI bir gün repetitorları əvəz edə bilər, lakin onun etibarlılığı hələ də geri qalır

Würzburg Julius Maximilian Universiteti tərəfindən
Stefani Baum tərəfindən redaktə edilmiş , Robert Eqan tərəfindən nəzərdən keçirilmişdir
Redaktorların qeydləriAI alqoritmlərini öyrətmək üçün istifadə edilən məlumat dəstləri yaşlı insanları az təmsil edə bilər. Kredit: Pixabay/CC0 Public Domain
Süni intellekt bir çox insanın gündəlik həyatının ayrılmaz hissəsinə çevrilib. ChatGPT, Gemini və ya Copilot kimi böyük dil modelləri (LLMs) onlar üçün məktublar və kurs işləri yazır, tətildə ekskursiyalar üçün məsləhətlər verir və ya hər hansı bir mövzuda suallara cavab verirlər.
Süni intellektin istifadəsi bir çox sahələrdə universitetlərdə də uzun müddətdir ki, adi haldır. Böyük dil modelləri təbiət elmləri üzrə tələbələri nəzarətsiz repetitor kimi nə dərəcədə dəstəkləyə bilər ? Julius-Maximilians-Universität Würzburg (JMU) bir araşdırma qrupu indi bu sualı araşdırdı. Komandanın nəticələri arXiv preprint serverində dərc olunur .
Sərbəst şəkildə əldə edilə bilən qiymətləndirmə vasitəsi
İndiyə qədər əsasən nanomaterialların spektroskopiyası ilə bağlı tədqiqatlar aparmış Fiziki Kimya Departamentinin tədqiqat qrupu indi müasir LLM-lərin termodinamik anlayışını, xüsusən də onların bacarıqlarının sadəcə faktiki biliklərdən kənara çıxıb-çıxmamasını sınayan alət hazırlayıb. UTQA (Bakalavriat Termodinamikası Sualına Cavab) adlanan alət sərbəst şəkildə əlçatandır və müəllimlərə və tədqiqatçılara LLM-ləri ədalətli və mövzuya uyğun olaraq qiymətləndirmək və irəliləyişləri ölçülə bilən etmək üçün dəstək olmaq üçün nəzərdə tutulub.
Layihə meneceri professor Tobias Hertel deyir: “Arzumuz odur ki, süni intellekt bir gün bizə tədrisdə nəzarətsiz partnyor kimi dəstək ola bilsin – məsələn, mühazirələrin hazırlanması və izlənilməsi zamanı hər bir tələbənin ehtiyaclarına fərdi şəkildə cavab verən səriştəli chatbotlar şəklində. Biz hələ aydın deyilik, lakin irəliləyiş heyranedicidir”.
“UTQA ilə biz hazırkı dil modellərinin harada inandırıcı olduğunu və sistematik olaraq uğursuz olduğu yerləri göstəririk – müəllimlərin tədrisdə istifadəsini məsuliyyətlə planlaşdıra bilmələri üçün məhz bu lazımdır.”
https://googleads.g.doubleclick.net/pagead/ads?gdpr=0&us_privacy=1—&gpp_sid=-1&client=ca-pub-0536483524803400&output=html&h=280&slotname=8188791252&adk=1645945215&adf=308666314&pi=t.ma~as.8188791252&w=750&fwrn=4&fwrnh=0&lmt=1757316722&rafmt=1&armr=3&format=750×280&url=https%3A%2F%2Fphys.org%2Fnews%2F2025-09-ai-day-reliability-lags.html&fwr=0&rpe=1&resp_fmts=3&wgl=1&uach=WyJXaW5kb3dzIiwiMTkuMC4wIiwieDg2IiwiIiwiMTM4LjAuNzIwNC4xNzAiLG51bGwsMCxudWxsLCI2NCIsW1siTm90KUE7QnJhbmQiLCI4LjAuMC4wIl0sWyJDaHJvbWl1bSIsIjEzOC4wLjcyMDQuMTcwIl0sWyJHb29nbGUgQ2hyb21lIiwiMTM4LjAuNzIwNC4xNzAiXV0sMF0.&abgtt=6&dt=1757316722667&bpp=2&bdt=190&idt=-M&shv=r20250903&mjsv=m202509020101&ptt=9&saldr=aa&abxe=1&cookie=ID%3Df22668bce9793ae4%3AT%3D1735196613%3ART%3D1757316597%3AS%3DALNI_Mb4Xpwl1SO1AcvqroR6xccDm_sheQ&gpic=UID%3D00000f7c5320f40b%3AT%3D1735196613%3ART%3D1757316597%3AS%3DALNI_Mb1dz_DHiT2yDzXLMaB9CDkQl4XGg&eo_id_str=ID%3D1241933dda87baba%3AT%3D1750839581%3ART%3D1757316597%3AS%3DAA-AfjZwPuiSAour3k16ZA1JtXua&prev_fmts=0x0&nras=1&correlator=2363717793640&frm=20&pv=1&rplot=4&u_tz=240&u_his=4&u_h=1080&u_w=1920&u_ah=1032&u_aw=1920&u_cd=24&u_sd=1&dmc=8&adx=448&ady=2041&biw=1905&bih=945&scr_x=0&scr_y=0&eid=31093040%2C31093850%2C31094361%2C31094367%2C95369803%2C95370330%2C95371269%2C95371231&oid=2&pvsid=3249114411419195&tmod=1484537529&uas=0&nvt=1&ref=https%3A%2F%2Fphys.org%2F&fc=1920&brdim=0%2C0%2C0%2C0%2C1920%2C0%2C1920%2C1032%2C1920%2C945&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=1&td=1&tdf=2&psd=W251bGwsbnVsbCxudWxsLDNd&nt=1&ifi=2&uci=a!2&btvi=1&fsb=1&dtd=141
Müəllimlikdən doğulub
Hertel komandası 2023-cü ilin qış semestrindən bəri həftəlik bilik yoxlaması üçün 150-dən çox tələbə ilə termodinamika mühazirələrində LLM-lərdən istifadə edir. ChatGPT-3.5 və ChatGPT-4 kimi modellər güclü tərəflərini, eyni zamanda zəif tərəflərini də göstərdi.
Bu, xüsusi bir fənnə aid etalon üçün arzuya səbəb oldu: “UTQA buna görə də əsas termodinamika mühazirəsindən 50 çətin tək seçimli tapşırıqdan ibarətdir – üçdə ikisi mətn əsaslı, üçdə biri diaqramlar və eskizlərlə, didaktik məşqlər üçün xarakterikdir”, – Hertel izah edir.
Məqsəd təkcə faktiki bilik və tərifləri yoxlamaq deyil, həm də dil modellərinin müxtəlif sərhəd şərtlərini məqsədyönlü şəkildə əlaqələndirmək və mürəkkəb proses ardıcıllıqlarını başa düşmək bacarığını yoxlamaq idi.
Nəticələr: Möhkəm, lakin (hələ) kifayət qədər etibarlı deyil
Hertelin fikrincə, 2025-ci ilin ən yaxşı performans göstərən modellərinin sınağı aydın mənzərə yaradır: UTQA ilə heç bir model AI müəllimi kimi nəzarətsiz yardım üçün tədqiqat qrupunun tələb etdiyi 95%-lik müvəffəqiyyət dərəcəsinə nail ola bilməyib. Hətta bir çox göstəricilərdə aparıcı GPT-o3 modeli cəmi 82% ümumi dəqiqliyə nail oldu.
“İki zəif cəhət nəzərə çarpırdı: Birincisi, modellər ardıcıl olaraq vəziyyətin dəyişmə sürətinin nəticəyə təsir etdiyi geri dönməz proseslərdə çətinlik çəkirdilər. İkincisi, təsvirin şərhini tələb edən tapşırıqlarda aydın çatışmazlıqlar var idi”, – alim deyir.
Tarixi araşdırma göstərir ki, bu təəccüblü deyil. Təxminən 100 il əvvəl fransız fiziki Pierre Duhem artıq tərs çevrilmə hadisəsini termodinamikada ən çətin hadisələrdən biri kimi təsvir etmişdir. LLM-lərin diaqramları şərh etməkdə problemlərinin olması da təəccüblü deyil, çünki vizual məzmunun qavranılması və işlənməsi insanların görkəmli idrak güclərindən biridir.
Gündəlik anlayışlar üçün Phys.org-a etibar edən 100.000-dən çox abunəçi ilə elm, texnologiya və kosmosda ən son yenilikləri kəşf edin . Pulsuz xəbər bülleteni üçün qeydiyyatdan keçin və mühüm nailiyyətlər, yeniliklər və tədqiqatlar haqqında gündəlik və ya həftəlik yeniləmələr əldə edin .
Hələ nəzarətsiz istifadə üçün kifayət qədər yaxşı deyil
“Praktikada bu o deməkdir ki, LLM-lər nəzarətlə və ya nəzarətsiz tədrisdə çox faydalı ola bilər, lakin nəzarətsiz repetitor kimi istifadə etmək üçün hələ kifayət deyil”, – Hertel deyir. “Eyni zamanda, biz son iki ildə çox böyük irəliləyiş gördük. Buna görə də əminik ki, inkişaf birdən-birə dayanmamaq şərti ilə – fənmiz üzrə müəllim köməkçiləri üçün tələb olunan təcrübə tezliklə əldə edilə bilər.”
Hertel iki tələbə müəllimin xüsusi didaktik perspektivlərinə töhfə verərək tədqiqat layihəsində əhəmiyyətli dərəcədə iştirak etməsindən xüsusilə məmnundur. Luca-Sophie Bien bir çox tapşırıqların ilkin Alman versiyasını yaratdı; Anna Geißler kolleksiyanı beynəlxalq istifadə üçün tərcümə etdi və genişləndirdi.
Niyə termodinamika?
Hertelin fikrincə, termodinamika modellərin dərk etmə və düşünmə qabiliyyətini yoxlamaq üçün idealdır.
“O, təbiəti dərk etməyimiz üçün əsasdır, yığcam əsas qanunlara malikdir, lakin tətbiqdə vəziyyət və proses dəyişənləri, istilik və ya iş və geri dönən və ya geri dönməyən proseslər arasında dəqiq fərq tələb olunur. Məhz burada düşünmə qabiliyyəti sadəcə yadda saxlamaqdan ayrılır”, – fiziki kimyaçı deyir.
Növbəti addım olaraq, komanda indi real qazları, qarışıqları, faza diaqramlarını və standart dövrləri daxil etmək üçün aləti genişləndirməyi planlaşdırır. Məqsəd tədrisin mərkəzi olan digər anlayışları əhatə etməkdir.
“Nə qədər yaxşı modellər multimodal bağlamanı, yəni mətn və şəkillərin birləşməsini, eləcə də geri dönməz rejimləri idarə edə bilsə, biz etibarlı, mövzuya həssas AI dərsliklərinə bir o qədər yaxınlaşırıq”, – Hertel deyir.
Daha çox məlumat: Anna Geißler et al, Canonical From Complex: Bakalavr Termodinamikada LLM İmkanlarının müqayisəsi, arXiv (2025). DOI: 10.48550/arxiv.2508.21452
Jurnal məlumatı: arXiv
Würzburg Julius Maximilian Universiteti tərəfindən təmin edilmişdir