Süni intellekt alim kimi məqalələri oxuya bilərmi? Yeni bir etalon, LLM-lərin harada uğursuz olduğunu göstərir

Kate Blackwood, Kornell Universiteti tərəfindən

Robert Egan tərəfindən redaktə edilib , Andrew Zinin tərəfindən nəzərdən keçirilib

Mənbə: Şəkil redaksiya heyəti tərəfindən illüstrativ məqsədlər üçün süni intellektdən istifadə etməklə yaradılıb.

Elm adamlarının öz sahələrində müasirlikdən xəbərdar olmaq və irəliləmək üçün əllərində və zehnlərində minlərlə nəşr olunmuş tədqiqat olmalıdır. Geniş dil modelləri (LLM) geniş elmi ədəbiyyatı araşdırmaq üçün bir vasitə kimi perspektivli görünür, lakin ixtisaslaşmış sahələrdə mürəkkəb suallara tam və elmi cəhətdən dəqiq cavablar vermək baxımından etibarlıdırlarmı?

Dil modellərinin sınaqdan keçirilməsi

Bunu öyrənmək üçün Kornell fizikləri və Google tədqiqatçıları altı LLM sisteminin – ChatGPT, Claude və digərlərinin – elmi ədəbiyyatı mütəxəssis səviyyəsində başa düşmək qabiliyyətini sınaqdan keçirmək üçün 12 insan mütəxəssisindən ibarət bir panel cəlb etdilər. Bu, nümunə olaraq superkeçirici materiallar sinfi olan yüksək temperaturlu kupratlar sahəsindən istifadə etməklə mümkün oldu. Bəzi sistemlərin digərlərindən daha yaxşı işlədiyini aşkar etdilər. Tədqiqat həmçinin mövcud LLM imkanlarında bəzi boşluqları aşkar etdi və süni intellekt inkişaf etdiricilərinin gələcək modellərdə təkmilləşdirmələri üçün istək siyahısını daraltdı.

“Bu tədqiqat LLM-lərin ədəbiyyatı bir mütəxəssisin oxuduğu kimi oxumaq qabiliyyətini sınaqdan keçirməklə bağlıdır”, – deyə tədqiqatın müxbir müəllifi, İncəsənət və Elmlər Kollecinin (A&S) Hans A. Bethe fizika professoru Eun-Ah Kim bildirib. “Bu məqalə hazırda vacibdir, çünki hər kəs LLM-lərin, xüsusən də süni ümumi intellekt (AGI) kontekstində nə edə biləcəyi və edə bilməyəcəyi ilə çox maraqlanır. LLM-lərin hazırda nə edə biləcəklərində ciddi boşluqlar var ki, bu da onların AGI-də olmadığını açıq şəkildə göstərir.”

Etalon necə dizayn edilib

“LLM Dünya Modellərinin Ekspert Qiymətləndirilməsi: Yüksək Texnoloji Superkeçiricilik üzrə Tədqiqat” 10 mart tarixində Milli Elmlər Akademiyasının Materiallarında dərc olunub . Əsas müəllif Kornell Atom və Bərk Cisim Fizikası Laboratoriyasının (LAASP) Bethe/KIC postdoktorantura təqaüdçüsü Haoyu Guodur.

Aspirant kimi Guo, hazırkı tədqiqatın nümunə sahəsi olan kupratlı yüksək Tc superkeçiriciləri üzərində işləmişdir. “Çətinlik onilliklər ərzində toplanmış çoxlu sayda eksperimental nəticələr idi”, – deyə o bildirib. “Mənə maraqlıdır ki, LLM-in gənc tələbələrə və ya yeni bir sahəyə – ümumiyyətlə, yalnız kupratlara deyil, tədqiqatçılara – kömək edə biləcəyini görə bilərəm.”

Tədqiqatçılar, yüksək temperaturlu kubratlar sahəsinin tarixini əhatə edən, insan mütəxəssisləri tərəfindən hazırlanmış 1726 elmi məqalədən ibarət verilənlər bazası və ədəbiyyatın dərindən başa düşülməsini araşdıran daha böyük bir mütəxəssis qrupu tərəfindən yazılmış 67 sualdan ibarət bir dəst yaratdılar.

https://60e73b66788d7f58abde0082ab4d6b1b.safeframe.googlesyndication.com/safeframe/1-0-45/html/container.html

Hansı süni intellekt alətləri qabaqda çıxdı

Bu aktivlərlə onlar dörd LLM-i — ChatGPT-4, Claude 3.5, Perplexity və Gemini Advanced Pro 1.5 — və istifadəçinin suallarını təqdim olunmuş sənədlərə əsasən cavablandıran Google məhsulu olan NotebookLM-i araşdırdılar. Onlar həmçinin seçilmiş sənədlərdən müvafiq şəkilləri və mətni əldə edə bilən xüsusi axtarış-artırılmış generasiya (RAG) sistemini də əlavə etdilər.

Mütəxəssislər hansı sistemi qiymətləndirdiklərini bilmədən hər bir sistem tərəfindən verilən cavabları əl ilə qiymətləndirdilər.

Kurator məlumatları özündə əks etdirən sistemlər — Google məhsulu və xüsusi RAG sistemi — ən yaxşı nəticəni göstərdi.

Guo dedi: “Etibarlı məlumat mənbələri — internetdə axtarış aparan LLM-dən deyil, özümüz topladığımız sənədlər — üzərində işləyən LLM-lər daha yaxşı nəticələr göstərirlər. Bunların arasında daha yaxşı başa düşmək istədiyim bir sıra sənədlərim olduqda NotebookLM daha yaxşı nəticələr göstərir.”

Mətndəki güclü tərəflər, vizualdakı zəif tərəflər

Kimin sözlərinə görə, bütün LLM-lər mətn əsaslı məlumatları çıxarmaqda təəccüblü dərəcədə yaxşı idilər, lakin məlumatların vizuallaşdırılması ilə məşğul olmaqda “tamamilə aciz” idilər. Bu, ciddi bir çatışmazlıqdır; o, tələbələrə məlumatların vizuallaşdırılmasına tənqidi şəkildə, bir məqalənin vacib bir hissəsi kimi baxmağı öyrədir.

Kurasiya olunmuş sənədlərdən şəkilləri əldə etmək üçün unikal qabiliyyətinə malik xüsusi model məlumatların vizuallaşdırılmasında xeyli yaxşı idi.

Tədqiqatçıların gələcək modellərdən nə gözlədiyi

Guonun sözlərinə görə, süni intellekt inkişaf etdiricilərinin təkmilləşdirilmiş LLM-lər üçün istək siyahısında LLM-lərin iddialarına daha dəqiq istinadlar (bəzən istinadlar təşkil edirlər), bir problemin bir çox aspektini sintez etmək və problemin mürəkkəbliyini əks etdirmək üçün daha yaxşı qabiliyyət; və süjetlərin və fiqurların daha yaxşı başa düşülməsi var.

“Etalonu həyata keçirdiyimizdən təxminən bir il keçib və modellərdə bir çox cəhətdən irəliləyişlər müşahidə olunub”, – deyə Guo bildirib. “Lakin vizual düşüncə hələ də inkişaf etməyib.”

Kim bildirib ki, elmi ədəbiyyatı araşdırmaq üçün etibarlı LLM sistemlərindən istifadə yaradıcı ideyaları olan gənc tədqiqatçılara üstünlük verə bilər. “Faktları bilmək əvvəllər masaya bilet kimi təqdim olunurdu. Faktı başınızda saxlamaq bilet olmamalıdır. Bilet belə olmalıdır: Yaradıcı şəkildə necə düşünməyi bilirsinizmi? Problemlərə yaradıcı baxımdan yanaşa bilərsinizmi?”

Nəşr detalları

LLM dünya modellərinin ekspert qiymətləndirilməsi: Yüksək Tc superkeçiricilik nümunəsi, Milli Elmlər Akademiyasının materialları (2026). DOI: 10.1073/pnas.2533676123 , pnas.org/doi/10.1073/pnas.2533676123

Jurnal məlumatları: Milli Elmlər Akademiyasının materialları Kornell Universiteti tərəfindən təmin edilir

BE	ÇA	Ç	CA	C	Ş	B
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Potensial xərçəng əleyhinə agentin...

Qrafen “yarpaq döyməsi” sensoru...

Fotonik çip qablaşdırması ekstremal...

Beyin naqilləri modeli yeni...

Tədqiqatlar göstərir ki, vəhşi...

Tasmaniya pələngi Arnhem Torpaq...