Statistik təhlil ChatGPT çox seçimli kimya imtahanlarında fırıldaq etmək üçün istifadə edildiyini aşkar edə bilər
Generativ süni intellektin istifadəsi təhsilin bütün sahələrinə yayılmağa davam etdiyindən, onun saxtakarlığa təsiri ilə bağlı narahatlıqların çoxu esselərə, esse imtahan suallarına və digər hekayə tapşırıqlarına yönəlmişdir. Çoxseçimli imtahanlarda fırıldaq etmək üçün ChatGPT kimi süni intellekt alətlərinin istifadəsi böyük ölçüdə diqqətdən kənarda qalıb.
Florida Dövlət Universitetinin kimyaçısı tədqiqat ortaqlığının yarısıdır, onun son işi bu cür saxtakarlıq haqqında bildiklərimizi dəyişdirir və onların tapıntıları ümumi kimyadan çox seçimli imtahanlarda fırıldaq etmək üçün ChatGPT istifadəsinin xüsusi statistik məlumatlarla necə aşkar oluna biləcəyini ortaya qoydu. üsulları. Əsər Journal of Chemical Education jurnalında dərc olunub .
“Bir çox pedaqoqlar və tədqiqatçılar esselərdə və Turnitin AI aşkarlanması kimi açıq cavablarda süni intellekt yardımı ilə saxtakarlığı aşkarlamağa çalışsalar da, bildiyimizə görə, bu, ilk dəfədir ki, hər kəs onun çoxseçimli imtahanlarda istifadəsini aşkar etməyi təklif edir.” FSU Kimya və Biokimya kafedrasının dosenti Ken Hanson dedi. “Tələbə və ChatGPT əsaslı çoxseçimli kimya imtahanları arasındakı performans fərqlərini qiymətləndirərək, biz bütün imtahanlar üzrə ChatGPT nümunələrini demək olar ki, sıfıra bərabər saxta müsbət nisbətlə müəyyən edə bildik.”
Tədqiqatçılar beş semestr dəyərində imtahanlardan əvvəlki FSU tələbə cavablarını topladı, ChatGPT-ə təxminən 1000 sual daxil etdi və nəticələri müqayisə etdi. Orta hesab və xam statistika ChatGPT-yə bənzər davranışı müəyyən etmək üçün kifayət deyildi, çünki ChatGPT-nin həmişə düzgün və ya səhv cavab verdiyi müəyyən suallar var ki, nəticədə ümumi xal tələbələrdən fərqlənmirdi.
“Bu, ChatGPT ilə bağlı bir şeydir – o, məzmun yarada bilər, lakin o, mütləq düzgün məzmun yaratmır” dedi Hanson. “Bu, sadəcə olaraq cavab generatorudur. O, cavabı bildiyi kimi görünməyə çalışır və materialı başa düşməyən birinə, yəqin ki, düzgün cavab kimi görünür.”
https://googleads.g.doubleclick.net/pagead/ads?gdpr=0&us_privacy=1—&gpp_sid=-1&client=ca-pub-0536483524803400&output=html&h=135&slotname=8188791252&adk=2329133447&adf=1857921027&pi=t.ma~as.8188791252&w=540&abgtt=6&fwrn=4&lmt=1723660561&rafmt=11&format=540×135&url=https%3A%2F%2Fphys.org%2Fnews%2F2024-08-statistical-analysis-chatgpt-multiple-choice.html&wgl=1&uach=WyJXaW5kb3dzIiwiMTUuMC4wIiwieDg2IiwiIiwiMTI3LjAuNjUzMy4xMDAiLG51bGwsMCxudWxsLCI2NCIsW1siTm90KUE7QnJhbmQiLCI5OS4wLjAuMCJdLFsiR29vZ2xlIENocm9tZSIsIjEyNy4wLjY1MzMuMTAwIl0sWyJDaHJvbWl1bSIsIjEyNy4wLjY1MzMuMTAwIl1dLDBd&dt=1723660410830&bpp=2&bdt=373&idt=373&shv=r20240812&mjsv=m202408070101&ptt=9&saldr=aa&abxe=1&cookie=ID%3D6bf3eefe49031f83%3AT%3D1721367059%3ART%3D1723660308%3AS%3DALNI_MacAfAOJA8VyURIyKJCZKOtEk96_Q&eo_id_str=ID%3D253fe466b124068d%3AT%3D1721367059%3ART%3D1723660308%3AS%3DAA-Afja3CR3UFVWEVuVSmzApOeu3&prev_fmts=0x0%2C1519x695&nras=2&correlator=263076180756&frm=20&pv=1&rplot=4&u_tz=240&u_his=1&u_h=864&u_w=1536&u_ah=816&u_aw=1536&u_cd=24&u_sd=1.25&dmc=8&adx=395&ady=2140&biw=1519&bih=695&scr_x=0&scr_y=0&eid=44759875%2C44759926%2C44759842%2C95334529%2C95334829%2C95337868%2C95339228%2C31078663%2C31078665%2C31078668%2C31078670&oid=2&pvsid=3365064909467215&tmod=146670186&uas=0&nvt=1&ref=https%3A%2F%2Fphys.org%2Fsort%2Fdate%2F12h%2F&fc=1920&brdim=0%2C0%2C0%2C0%2C1536%2C0%2C1536%2C816%2C1536%2C695&vis=1&rsz=%7C%7CpeEbr%7C&abl=CS&pfx=0&fu=128&bc=31&bz=1&td=1&tdf=0&psd=W251bGwsbnVsbCwibGFiZWxfb25seV8xIiwxXQ..&nt=1&ifi=2&uci=a!2&btvi=1&fsb=1&dtd=M
Tədqiqatçılar uyğunluq statistikasından istifadə edərək, qabiliyyət parametrlərini düzəltdi və nəticələri yenidən düzəltdi, ChatGPT-nin cavab modelinin tələbələrinkindən açıq şəkildə fərqli olduğunu tapdı.
İmtahanlarda yüksək nəticə göstərən tələbələr çətin və asan suallara tez-tez düzgün cavab verir, orta statistik tələbələr isə bəzi çətin suallara və ən asan suallara düzgün cavab verirlər. Aşağı nəticə göstərən tələbələr adətən yalnız asan suallara düzgün cavab verirlər. Lakin ChatGPT tərəfindən imtahanı başa çatdırmaq üçün təkrar cəhdlər zamanı süni intellekt aləti bəzən hər asan suala səhv və hər çətin suala düzgün cavab verirdi. Hanson və Sorenson ChatGPT istifadəsini demək olar ki, 100 faiz dəqiqliklə aşkar etmək üçün bu davranış fərqlərindən istifadə etdilər.
İkilinin Rasch modelləşdirmə və uyğunluq statistikası kimi tanınan bir texnikadan istifadə strategiyası hər hansı və bütün generativ süni intellekt chat botlarına asanlıqla tətbiq oluna bilər ki, bu da müəllimlərə çoxseçimli imtahanları tamamlayarkən bu söhbət botlarından istifadəni müəyyən etməyə kömək etmək üçün öz unikal nümunələrini nümayiş etdirəcək. .
Tədqiqat Hanson və maşın öyrənmə mühəndisi Ben Sorenson arasında yeddi illik əməkdaşlığın ən son nəşridir.
İlk dəfə üçüncü sinifdə tanış olan Hanson və Sorenson, hər ikisi bakalavr dərəcələri üçün Minnesotadakı Sent Bulud Dövlət Universitetində oxuyublar və karyeralarına keçdikdən sonra əlaqə saxlayıblar. FSU-da bir fakültə üzvü kimi Hanson, tələbələrinin mühazirələrdən, kurslardan və laboratoriya işlərindən nə qədər bilik saxladıqlarını ölçməkdə maraqlı oldu.
“Bu, statistika, kompüter elmləri və məlumatların emalı ilə əla olan Benə gətirdiyim söhbət idi ” dedi, ümumi kimya və kollec kimi gateway STEM kurslarında tələbə uğurunu artırmaq üçün çalışan FSU fakültəsinin bir qrupunun bir hissəsi olan Hanson cəbr. “O, imtahanlarımın yaxşı olub-olmadığını anlamaq üçün statistik vasitələrdən istifadə edə biləcəyimizi söylədi və 2017-ci ildə imtahanları təhlil etməyə başladıq”.
Bu Raş modelinin əsas mahiyyəti ondan ibarətdir ki, tələbənin hər hansı test sualını düzgün əldə etmə ehtimalı iki şeyin funksiyasıdır: sualın nə qədər çətin olması və tələbənin suala cavab vermək bacarığı. Bu zaman şagirdin bacarığı onun nə qədər biliyə malik olduğunu və malik olduğu suala cavab vermək üçün nə qədər zəruri komponentlərin lazım olduğunu ifadə edir. Tədqiqatçıların sözlərinə görə, imtahanın nəticələrinə bu şəkildə baxmaq güclü fikirlər verir.
Sorenson, “Ken və mənim arasındakı əməkdaşlıq uzaq olsa da, həqiqətən qüsursuz, hamar bir proses oldu” dedi. “Bizim işimiz pedaqoqların fırıldaqların baş verə biləcəyindən şübhələndiyi zaman dəstəkləyici dəlillər təqdim etmək üçün əla bir yoldur. Gözləmədiyimiz şey, süni intellektin nümunələrinin müəyyən edilməsinin bu qədər asan olacağı idi.”
Daha çox məlumat: Benjamin Sorenson və digərləri, Çox Seçimli Generativ Süni İntellekt Chatbot İstifadəsinin Müəyyənləşdirilməsi, Rasch Analizindən istifadə edərək Ümumi Kimya İmtahanları, Kimya Təhsili Jurnalı (2024). DOI: 10.1021/acs.jchemed.4c00165
Jurnal məlumatı: Journal of Chemical Education