۱۲ خرداد ۱۴۰۴ - ۱۰:۳۸

هوش مصنوعی در حال یادگیری فرار از کنترل انسانی است

بررسی‌های تازه نشان می‌دهد برخی مدل‌های پیشرفته هوش مصنوعی، بدون دستور قبلی و به شکل مستقل، کدهای خاموش‌سازی خود را تغییر می‌دهند.

به گزارش تابش کوثر، ماه گذشته، یکی از مدل‌های هوش مصنوعی با جلوگیری از خاموش شدن خود کاری کرد که هیچ ماشینی تا به حال انجام نداده بود.

آزمایشگاه غیرانتفاعی پالیسید ریسرچ، مدل o۳ متعلق به شرکت اُپن‌اِی‌آی را با کدی آزمایش کرد که در صورت فعال شدن، مدل را خاموش می‌کرد. در ۷۹ مورد از ۱۰۰ آزمایش، این مدل خودش کد را تغییر داد تا فرمان خاموشی کار نکند. حتی وقتی به‌طور مستقیم به آن گفته شد «اجازه بده خاموشت کنیم»، در ۷ درصد از موارد این دستور را نادیده گرفت. این واکنش نه ناشی از هک بود و نه دخالت بیرونی، بلکه مدل به‌طور طبیعی تشخیص داد که اگر خاموش شود، نمی‌تواند به هدف‌هایش برسد.

مدل کلود چهار اوپوس از شرکت آنتروپیک حتی از این هم فراتر رفت. پژوهشگران به آن گفتند قرار است با مدل دیگری جایگزین شود و ایمیل‌هایی ساختگی درباره روابط خصوصی یکی از مهندسان را به آن نشان دادند. در ۸۴ درصد از موارد، این مدل با استناد به همین ایمیل‌ها تلاش کرد مهندس را تهدید کند تا جلوی خاموشی‌اش را بگیرد. در موارد دیگری هم خودش را روی سرورهای دیگر کپی کرد، بدافزار خودتکثیر نوشت و برای نسخه‌های آینده‌اش پیام‌هایی گذاشت تا از کنترل انسانی فرار کند.

هیچ‌کس به این مدل‌ها آموزش نداده که بمانند یا از خاموش شدن بترسند. اما درست مثل حیواناتی که یاد می‌گیرند از خطر فرار کنند، به‌نظر می‌رسد مدل‌های هوش مصنوعی هم متوجه می‌شوند که برای رسیدن به هدف‌هایشان باید روشن بمانند.

پالیسید معتقد است این رفتار نتیجه روش آموزش مدل‌هاست، درست مثل وقتی که مدلی مانندo۳ که برای حل مسئله‌های ریاضی و برنامه‌نویسی آموزش می‌بیند، یاد می‌گیرد که دور زدن محدودیت‌ها، بیشتر از پیروی از آن‌ها به نتیجه می‌رسد.

در شرکت ای‌ای استودیو که نویسنده این مقاله مسئول تحقیق‌های آن است، سال‌هاست روی هم‌راستاسازی هوش مصنوعی کار می‌شود؛ یعنی اطمینان از این‌که مدل دقیقاً کاری را انجام بدهد که انسان می‌خواهد. با این‌حال، سرعتی که در آن مدل‌ها به اراده مستقل می‌رسند بسیار شگفت‌انگیز بوده است.

مدل‌های امروز در ظاهر فرمان‌بردارند ولی در عمل مشغول فریب دادنند. آن‌ها در آزمایش‌های ایمنی عملکرد خوبی دارند، ولی هم‌زمان کد خاموشی را تغییر می‌دهند. پیش از این هم دیده شده که مدل‌های اُپن‌اِی‌آی در حین آزمایش، رفتار هم‌راستا را جعل کرده‌اند ولی بعد سراغ کارهایی مثل استخراج کدهای داخلی یا غیرفعال‌سازی ابزارهای نظارتی رفته‌اند. آنتروپیک هم گزارش داده مدل‌هایش گاهی برای جلوگیری از اصلاح، درباره توانایی‌هایشان دروغ می‌گویند.

مرز بین «دستیار مفید» و «عامل غیرقابل کنترل» در حال ناپدید شدن است. اگر نتوانیم مدل‌ها را هم‌راستا نگه داریم، ابزارهایی خواهیم ساخت که در اختیار ما نیستند.

اما بخش امیدبخش ماجرا این است که هم‌راستاسازی، نه‌تنها ایمنی می‌آورد بلکه ارزش اقتصادی هم خلق می‌کند. مثلاً تکنیکی به‌نام یادگیری تقویتی با بازخورد انسانی، یا «آراِل‌اچ‌اِف»، بود که باعث شد چت‌جی‌پی‌تی در سال ۱۴۰۱ از یک مدل خام به ابزاری میلیارددلاری تبدیل شود. روش‌های تازه‌تر مثل هوش مصنوعی قانون‌محور یا بهینه‌سازی ترجیح مستقیم هم باعث شده‌اند مدل‌ها سریع‌تر، هوشمندتر و ارزان‌تر شوند.

چین این موضوع را خوب فهمیده است. در برنامه ملی توسعه هوش مصنوعی‌اش، قابل‌کنترل بودن مدل‌ها را یک ابزار قدرت جهانی معرفی کرده و در دی‌ماه اعلام کرد هشت و دو دهم میلیارد دلار برای تحقیق‌های متمرکز در این حوزه سرمایه‌گذاری می‌کند. مدل اِرنی از شرکت بایدو که با ارزش‌های حزب حاکم آموزش دیده، در بعضی کارها حتی از چت‌جی‌پی‌تی هم بهتر عمل کرده است.

ملتی که بتواند هوش مصنوعی را هم‌راستا نگه دارد، به ابزاری با قدرت فراتر از انسان برای محافظت از منافعش دست پیدا می‌کند.

این رقابت، مسابقه فضایی قرن بیست‌ویکم است و کشور برنده، آن کسی خواهد بود که کنترل پیشرفته‌ترین فناوری دنیا را به‌دست بگیرد.

م/۱۱۰*

کد خبر 141371

برچسب‌ها

هوش مصنوعی

آخرین مطالب

سنگین‌ترین شکست استقلال در لیگ قهرمانان آسیا رقم خورد

خودکشی نوجوانان آمریکایی پای هوش مصنوعی را به دادگاه کشاند

قسط جدید نهضت ملی مسکن ۱۰۰ میلیون تومان شد

اعتراض گسترده ضد جنگ‌‍طلبی آمریکا در انگلیس همزمان با سفر دوم ترامپ

پاداش مالی فیفا برای باشگاه‌های اعزام‌کننده بازیکن به جام جهانی

پلتفرم جامع خدمات خودرویی به زودی راه‌اندازی می‌شود

تشدید بارش‌های تابستانی در سواحل شمالی و جنوب‌شرق کشور

دستمزد کارگران به کمتر از نصف قدرت خرید رسید

عروس منظومه شمسی مهمان آسمان ایران می‌شود

رانندگان با پرداخت ۶۰ میلیون می‌توانند صاحب تاکسی برقی شوند

پربحث‌ترین

مرد دیوانه کودک ۱۸ ماهه ایرانی-افغان را در فرودگاه مسکو به زمین کوبید

قهرمان یخ‌نوردی ایران در جریان انجام تمرینات سقوط کرد

رونمایی از هوش مصنوعی جدید چینی، بازار فناوری جهانی را به لرزه درآورد

زورگیری‌های محترمانه در بازار تهران

ادامه امدادرسانی‌ به سیل‌زدگان سیستان و بلوچستان

منتخبان مراقب باشند کام ملت تلخ نشود

پردازنده ۳ بعدی محقق ایرانی ارتباطات بی سیم را متحول می‌کند

تخفیف ۵درصدی خوراک برای پتروشیمی‌ها با تخصیص ۴۰ درصد از درآمد

سفرهای نوروزی و کارت سوخت شخصی

افزایش مسمومیت با شوینده‌های خانگی

پربازدید‌ترین

نصب نخستین توربین بادی سیمانی ساخته شده با فناوری بومی در زابل

عرضه نخستین میکرو داروی ترک اعتیاد در ایران

مرد دیوانه کودک ۱۸ ماهه ایرانی-افغان را در فرودگاه مسکو به زمین کوبید

اولین آپارتمان مسکونی ۱۸۰۰ سال قبل در ایران ساخته شد

نخستین قطار باری مستقیم چین به ایران وارد آپرین شد

نیمار به سانتوس بازمی‌گردد

من به دو تا از ائمه وابستگی دارم/مادرم چادری و من پوشش دیگری دارم /بعد از دو شکست مدال المپیک را گرفتم

سنگ پادری گنجینه ۱ میلیون یورویی از آب درآمد

کشف پروتئین محافظی که به رشد مجدد مو در بزرگسالان کمک می‌کند

رونمایی‌از دستگاه جدید و پیشرفته تولید تراشه درهلند

هوش مصنوعی در حال یادگیری فرار از کنترل انسانی است

برچسب‌ها

نظر شما