هوش مصنوعی در حال یادگیری فرار از کنترل انسانی است

 بررسی‌های تازه نشان می‌دهد برخی مدل‌های پیشرفته هوش مصنوعی، بدون دستور قبلی و به شکل مستقل، کدهای خاموش‌سازی خود را تغییر می‌دهند. 

به گزارش تابش کوثر، ماه گذشته، یکی از مدل‌های هوش مصنوعی با جلوگیری از خاموش شدن خود کاری کرد که هیچ ماشینی تا به حال انجام نداده بود.

آزمایشگاه غیرانتفاعی پالیسید ریسرچ، مدل o۳  متعلق به شرکت اُپن‌اِی‌آی را با کدی آزمایش کرد که در صورت فعال شدن، مدل را خاموش می‌کرد. در ۷۹ مورد از ۱۰۰ آزمایش، این مدل خودش کد را تغییر داد تا فرمان خاموشی کار نکند. حتی وقتی به‌طور مستقیم به آن گفته شد «اجازه بده خاموشت کنیم»، در ۷ درصد از موارد این دستور را نادیده گرفت. این واکنش نه ناشی از هک بود و نه دخالت بیرونی، بلکه مدل به‌طور طبیعی تشخیص داد که اگر خاموش شود، نمی‌تواند به هدف‌هایش برسد.

مدل کلود چهار اوپوس از شرکت آنتروپیک حتی از این هم فراتر رفت. پژوهشگران به آن گفتند قرار است با مدل دیگری جایگزین شود و ایمیل‌هایی ساختگی درباره روابط خصوصی یکی از مهندسان را به آن نشان دادند. در ۸۴ درصد از موارد، این مدل با استناد به همین ایمیل‌ها تلاش کرد مهندس را تهدید کند تا جلوی خاموشی‌اش را بگیرد. در موارد دیگری هم خودش را روی سرورهای دیگر کپی کرد، بدافزار خودتکثیر نوشت و برای نسخه‌های آینده‌اش پیام‌هایی گذاشت تا از کنترل انسانی فرار کند.

هیچ‌کس به این مدل‌ها آموزش نداده که بمانند یا از خاموش شدن بترسند. اما درست مثل حیواناتی که یاد می‌گیرند از خطر فرار کنند، به‌نظر می‌رسد مدل‌های هوش مصنوعی هم متوجه می‌شوند که برای رسیدن به هدف‌هایشان باید روشن بمانند.

پالیسید معتقد است این رفتار نتیجه روش آموزش مدل‌هاست، درست مثل وقتی که مدلی مانندo۳  که برای حل مسئله‌های ریاضی و برنامه‌نویسی آموزش می‌بیند، یاد می‌گیرد که دور زدن محدودیت‌ها، بیشتر از پیروی از آن‌ها به نتیجه می‌رسد.

در شرکت ای‌ای استودیو که نویسنده این مقاله مسئول تحقیق‌های آن است، سال‌هاست روی هم‌راستاسازی هوش مصنوعی کار می‌شود؛ یعنی اطمینان از این‌که مدل دقیقاً کاری را انجام بدهد که انسان می‌خواهد. با این‌حال، سرعتی که در آن مدل‌ها به اراده مستقل می‌رسند بسیار شگفت‌انگیز بوده است.

مدل‌های امروز در ظاهر فرمان‌بردارند ولی در عمل مشغول فریب دادنند. آن‌ها در آزمایش‌های ایمنی عملکرد خوبی دارند، ولی هم‌زمان کد خاموشی را تغییر می‌دهند. پیش از این هم دیده شده که مدل‌های اُپن‌اِی‌آی در حین آزمایش، رفتار هم‌راستا را جعل کرده‌اند ولی بعد سراغ کارهایی مثل استخراج کدهای داخلی یا غیرفعال‌سازی ابزارهای نظارتی رفته‌اند. آنتروپیک هم گزارش داده مدل‌هایش گاهی برای جلوگیری از اصلاح، درباره توانایی‌هایشان دروغ می‌گویند.

مرز بین «دستیار مفید» و «عامل غیرقابل کنترل» در حال ناپدید شدن است. اگر نتوانیم مدل‌ها را هم‌راستا نگه داریم، ابزارهایی خواهیم ساخت که در اختیار ما نیستند.

اما بخش امیدبخش ماجرا این است که هم‌راستاسازی، نه‌تنها ایمنی می‌آورد بلکه ارزش اقتصادی هم خلق می‌کند. مثلاً تکنیکی به‌نام یادگیری تقویتی با بازخورد انسانی، یا «آراِل‌اچ‌اِف»، بود که باعث شد چت‌جی‌پی‌تی در سال ۱۴۰۱ از یک مدل خام به ابزاری میلیارددلاری تبدیل شود. روش‌های تازه‌تر مثل هوش مصنوعی قانون‌محور یا بهینه‌سازی ترجیح مستقیم هم باعث شده‌اند مدل‌ها سریع‌تر، هوشمندتر و ارزان‌تر شوند.

چین این موضوع را خوب فهمیده است. در برنامه ملی توسعه هوش مصنوعی‌اش، قابل‌کنترل بودن مدل‌ها را یک ابزار قدرت جهانی معرفی کرده و در دی‌ماه اعلام کرد هشت و دو دهم میلیارد دلار برای تحقیق‌های متمرکز در این حوزه سرمایه‌گذاری می‌کند. مدل اِرنی از شرکت بایدو که با ارزش‌های حزب حاکم آموزش دیده، در بعضی کارها حتی از چت‌جی‌پی‌تی هم بهتر عمل کرده است.

ملتی که بتواند هوش مصنوعی را هم‌راستا نگه دارد، به ابزاری با قدرت فراتر از انسان برای محافظت از منافعش دست پیدا می‌کند.

این رقابت، مسابقه فضایی قرن بیست‌ویکم است و کشور برنده، آن کسی خواهد بود که کنترل پیشرفته‌ترین فناوری دنیا را به‌دست بگیرد.

م/۱۱۰*

کد خبر 141371

برچسب‌ها

نظر شما

شما در حال پاسخ به نظر «» هستید.
captcha