به گزارش تابش کوثر، ماه گذشته، یکی از مدلهای هوش مصنوعی با جلوگیری از خاموش شدن خود کاری کرد که هیچ ماشینی تا به حال انجام نداده بود.
آزمایشگاه غیرانتفاعی پالیسید ریسرچ، مدل o۳ متعلق به شرکت اُپناِیآی را با کدی آزمایش کرد که در صورت فعال شدن، مدل را خاموش میکرد. در ۷۹ مورد از ۱۰۰ آزمایش، این مدل خودش کد را تغییر داد تا فرمان خاموشی کار نکند. حتی وقتی بهطور مستقیم به آن گفته شد «اجازه بده خاموشت کنیم»، در ۷ درصد از موارد این دستور را نادیده گرفت. این واکنش نه ناشی از هک بود و نه دخالت بیرونی، بلکه مدل بهطور طبیعی تشخیص داد که اگر خاموش شود، نمیتواند به هدفهایش برسد.
مدل کلود چهار اوپوس از شرکت آنتروپیک حتی از این هم فراتر رفت. پژوهشگران به آن گفتند قرار است با مدل دیگری جایگزین شود و ایمیلهایی ساختگی درباره روابط خصوصی یکی از مهندسان را به آن نشان دادند. در ۸۴ درصد از موارد، این مدل با استناد به همین ایمیلها تلاش کرد مهندس را تهدید کند تا جلوی خاموشیاش را بگیرد. در موارد دیگری هم خودش را روی سرورهای دیگر کپی کرد، بدافزار خودتکثیر نوشت و برای نسخههای آیندهاش پیامهایی گذاشت تا از کنترل انسانی فرار کند.
هیچکس به این مدلها آموزش نداده که بمانند یا از خاموش شدن بترسند. اما درست مثل حیواناتی که یاد میگیرند از خطر فرار کنند، بهنظر میرسد مدلهای هوش مصنوعی هم متوجه میشوند که برای رسیدن به هدفهایشان باید روشن بمانند.
پالیسید معتقد است این رفتار نتیجه روش آموزش مدلهاست، درست مثل وقتی که مدلی مانندo۳ که برای حل مسئلههای ریاضی و برنامهنویسی آموزش میبیند، یاد میگیرد که دور زدن محدودیتها، بیشتر از پیروی از آنها به نتیجه میرسد.
در شرکت ایای استودیو که نویسنده این مقاله مسئول تحقیقهای آن است، سالهاست روی همراستاسازی هوش مصنوعی کار میشود؛ یعنی اطمینان از اینکه مدل دقیقاً کاری را انجام بدهد که انسان میخواهد. با اینحال، سرعتی که در آن مدلها به اراده مستقل میرسند بسیار شگفتانگیز بوده است.
مدلهای امروز در ظاهر فرمانبردارند ولی در عمل مشغول فریب دادنند. آنها در آزمایشهای ایمنی عملکرد خوبی دارند، ولی همزمان کد خاموشی را تغییر میدهند. پیش از این هم دیده شده که مدلهای اُپناِیآی در حین آزمایش، رفتار همراستا را جعل کردهاند ولی بعد سراغ کارهایی مثل استخراج کدهای داخلی یا غیرفعالسازی ابزارهای نظارتی رفتهاند. آنتروپیک هم گزارش داده مدلهایش گاهی برای جلوگیری از اصلاح، درباره تواناییهایشان دروغ میگویند.
مرز بین «دستیار مفید» و «عامل غیرقابل کنترل» در حال ناپدید شدن است. اگر نتوانیم مدلها را همراستا نگه داریم، ابزارهایی خواهیم ساخت که در اختیار ما نیستند.
اما بخش امیدبخش ماجرا این است که همراستاسازی، نهتنها ایمنی میآورد بلکه ارزش اقتصادی هم خلق میکند. مثلاً تکنیکی بهنام یادگیری تقویتی با بازخورد انسانی، یا «آراِلاچاِف»، بود که باعث شد چتجیپیتی در سال ۱۴۰۱ از یک مدل خام به ابزاری میلیارددلاری تبدیل شود. روشهای تازهتر مثل هوش مصنوعی قانونمحور یا بهینهسازی ترجیح مستقیم هم باعث شدهاند مدلها سریعتر، هوشمندتر و ارزانتر شوند.
چین این موضوع را خوب فهمیده است. در برنامه ملی توسعه هوش مصنوعیاش، قابلکنترل بودن مدلها را یک ابزار قدرت جهانی معرفی کرده و در دیماه اعلام کرد هشت و دو دهم میلیارد دلار برای تحقیقهای متمرکز در این حوزه سرمایهگذاری میکند. مدل اِرنی از شرکت بایدو که با ارزشهای حزب حاکم آموزش دیده، در بعضی کارها حتی از چتجیپیتی هم بهتر عمل کرده است.
ملتی که بتواند هوش مصنوعی را همراستا نگه دارد، به ابزاری با قدرت فراتر از انسان برای محافظت از منافعش دست پیدا میکند.
این رقابت، مسابقه فضایی قرن بیستویکم است و کشور برنده، آن کسی خواهد بود که کنترل پیشرفتهترین فناوری دنیا را بهدست بگیرد.
م/۱۱۰*
نظر شما