به گزارش تابش کوثر، پژوهشگران دانشگاه «یولیوس ماکسیمیلیان وورزبورگ» آلمان در بررسی تازهای اعلام کردند مدلهای زبانی بزرگ (LLMs) مانند چتجیپیتی هنوز برای ایفای نقش بهعنوان استاد یا مربی مستقل قابل اعتماد نیستند.
این تیم تحقیقاتی که در بخش شیمی فیزیک دانشگاه فعالیت میکند، ابزار تازهای با نام UTQA (پرسشوپاسخ ترمودینامیک در سطح کارشناسی) طراحی کرده است. این ابزار برای سنجش توانایی مدلهای زبانی در درک فرآیندهای پیچیده ترمودینامیکی بهکار میرود و بهطور آزاد در دسترس پژوهشگران و مدرسان قرار دارد.
پروفسور توبیاس هرتل، سرپرست پروژه، گفت: «آرزوی ما این است که هوش مصنوعی روزی بتواند بهعنوان یک شریک آموزشی مستقل عمل کند، اما هنوز به آن نقطه نرسیدهایم. با این حال پیشرفتها شگفتانگیز است.» او افزود: «با UTQA نشان میدهیم مدلها در کجا عملکرد قانعکننده دارند و در کجا بهطور سیستماتیک دچار خطا میشوند؛ چیزی که استادان برای تصمیمگیری در مورد استفاده آموزشی به آن نیاز دارند.»
این طرح از دل آموزش شکل گرفته است. هرتل و همکارانش از زمستان ۲۰۲۳ میلادی در کلاس ترمودینامیک با بیش از ۱۵۰ دانشجو، مدلهایی مانند ChatGPT-۳.۵ و ChatGPT-۴ را برای آزمونهای هفتگی به کار گرفتند. نتایج اولیه نقاط قوت و ضعف این مدلها را آشکار کرد و در نهایت منجر به طراحی UTQA شد که شامل ۵۰ پرسش چندگزینهای دشوار بر پایه متن و نمودار است.
به گفته هرتل، حتی بهترین مدلهای سال ۲۰۲۵ نیز نتوانستند حد موفقیت ۹۵ درصدی مورد نظر گروه را به دست آورند. مدل GPT-o۳ با وجود عملکرد بالا در بسیاری از معیارها، تنها به دقت ۸۲ درصد رسید. او تأکید کرد: «مدلها بهطور مداوم در درک فرآیندهای برگشتناپذیر و همچنین در تفسیر تصویری ضعف نشان دادند.»
این نتایج در امتداد پیشینه تاریخی علم نیز توضیحپذیر است. نزدیک به یک قرن پیش، فیزیکدان فرانسوی پیر دوهِم مفهوم برگشتپذیری را یکی از دشوارترین مباحث ترمودینامیک معرفی کرده بود. همچنین توانایی انسان در درک محتوای بصری همچنان برتری محسوسی نسبت به مدلهای زبانی دارد.
هرتل افزود: «در عمل، این مدلها میتوانند در آموزش با یا بدون نظارت مفید باشند، اما هنوز برای ایفای نقش مربی مستقل قابل اعتماد نیستند. در عین حال پیشرفت دو سال گذشته نشان میدهد رسیدن به این هدف دور از دسترس نیست.»
هرتل در پایان تأکید کرد: «هرچه مدلها بهتر بتوانند متون و تصاویر را در کنار هم تحلیل کنند و درک بهتری از فرآیندهای برگشتناپذیر داشته باشند، به طراحی ابزارهای آموزشی هوش مصنوعی قابل اعتماد نزدیکتر خواهیم شد.»
م/۱۱۰*
نظر شما