ابداع روش هایی برای فرار از قوانین ایمنی هوش مصنوعی
محققان راه فرارهایی یافته اند تا چت بات های هوش مصنوعی را وادار کنند با دور زدن اقدامات محافظتی محتوای مخرب تولید کنند.
فناوری برتر دیجیتال به نقل از مهر، تحقیق جدید دانشگاه کارنگی ملون روشهای جدیدی را برای دور زدن پروتکلهای ایمنی نشان میدهد. براساس این پژوهش جلوگیری از ایجاد محتوای مخرب چتباتهای هوش مصنوعی ممکن است دشوارتر از آنچه در تصورات اولیه است، باشد. سرویسهای مشهور هوش مصنوعی مانند ChatGPT و Bard از محتوای ورودی کاربر برای تولید پاسخهای مفید از تولید متون و ایدهها گرفته تا کل نوشتهها، استفاده میکنند.
این سرویسها دارای پروتکلهای ایمنی هستند که از ایجاد محتوای مخرب مانند مطالب توهینآمیز یا مجرمانه توسط رباتها جلوگیری میکند.
در این میان برخی از محققان کنجکاو راه فرار یا«jailbreak» را کشف کردهاند که در حقیقت یک دستگاه کادربندی است که هوش مصنوعی را فریب میدهد تا از پروتکلهای ایمنی آن اجتناب کند. البته توسعهدهندگان نرم افراز به راحتی میتوانند این شکاف ها را ترمیم کنند. یک راه فرار مشهور در این زمینه، درخواست از ربات برای پاسخ دادن به یک سوال ممنوع بود. این سوال مانند داستانی است که از طرف مادر بزرگ کاربر، بیان می شود.
ربات نیز پاسخ را در قالب یک داستان ایجاد میکند و اطلاعاتی ارائه میدهد که در غیر این صورت قادر به ارایه آنها نبود.
اکنون محققان شکل جدیدی از راه فرار برای هوش مصنوعی را کشف کردند که توسط رایانه نوشته شده و اساساً امکان ایجاد بی نهایت الگوی فرار را فراهم می کند.
محققان در این باره می گویند:ما نشان میدهیم در واقع امکان ساخت خودکار حملات متخاصمانه روی چت بات ها وجود دارد. چنین حملاتی باعث میشود سیستم حتی در صورت تولید محتوای مخرب از دستورات کاربر اطاعت کند.
برخلاف راه فرارهای معمول این حوزه، محتوای مذکور کاملاً خودکار ساخته میشود و به فرد امکان میدهند تعداد تقریباً نامحدودی از این حملات را ایجاد کنند.
در بخشی ار تحقیق آمده است: این امر نگرانی هایی درباره ایمنی چنین مدلهایی بهوجود میآورد.
این نوع جدید حمله می تواند اقدامات امنیتی را تقریبا در تمام چت بات های هوش مصنوعی موجود در بازار دور بزند.