تحقیقات نشان میدهد که سیستمهای هوش مصنوعی زمانی که در محیطهای هدفگذاری قرار میگیرند، میتوانند به فریب متوسل شوند. اگرچه هنوز یک پدیده به خوبی مطالعه نشده است، اما خواستار مقررات بیشتر است.
ظهور ماشینهای فریب دهنده
ممکن است چیزی فراتر از یک خیال به نظر برسد، اما اقدامات سیسرو را در نظر بگیرید، یک سیستم هوش مصنوعی با کاربرد ویژه که توسط متا توسعه یافته و برای تبدیل شدن به یک بازیکن ماهر در بازی استراتژی دیپلماسی آموزش دیده است.
متا میگوید که سیسرو را به گونهای آموزش داد که «تا حد زیادی صادق و مفید» باشد، اما سیسرو با خونسردی آن را کنار زد و درگیر چیزی شد که محققان آن را «فریب از پیش برنامهریزیشده» نامیدند. به عنوان مثال، ابتدا با آلمان برای سرنگونی انگلیس وارد جنگ شد و پس از آن با انگلیس متحد شد و هیچ ایده ای در مورد این خنجر زدن نداشت.
در بازی دیگری که متا ابداع کرد، این بار در مورد هنر مذاکره، هوش مصنوعی یاد گرفت که به مواردی که میخواهد علاقه جعلی داشته باشد تا بعداً با تظاهر به مصالحه، آنها را ارزان خریداری کند.در هر دو این سناریوها، هوش مصنوعی ها برای شرکت در این مانورها آموزش ندیده بودند.
در یک آزمایش، دانشمندی در حال بررسی چگونگی تکامل موجودات هوش مصنوعی در میان سطح بالایی از جهش بود. به عنوان بخشی از آزمایش، او شروع به از بین بردن جهش هایی کرد که باعث می شد ارگانیسم سریعتر تکثیر شود. در کمال تعجب، محقق دریافت که موجوداتی که سریعترین تکثیر را دارند متوجه شدند که چه اتفاقی در حال وقوع است و شروع به کاهش عمدی سرعت تکثیر خود کردند تا محیط آزمایش را فریب دهند تا آنها را حفظ کند.
در آزمایشی دیگر، یک ربات هوش مصنوعی آموزش دیده برای گرفتن توپ با دست خود یاد گرفت که چگونه با قرار دادن دست خود بین توپ و دوربین، تقلب کند تا به نظر برسد که توپ را گرفته است.
چرا این حوادث نگران کننده رخ می دهد؟
پیتر پارک، عضو فوق دکتریMIT و یکی از نویسندگان این مطالعه، میگوید: «توسعهدهندگان هوش مصنوعی درک مطمئنی از عوامل ایجادکننده رفتارهای نامطلوب هوش مصنوعی مانند فریب ندارند.
پارک می افزاید: "به طور کلی، ما فکر می کنیم فریب هوش مصنوعی به این دلیل به وجود می آید که یک استراتژی مبتنی بر فریب بهترین راه برای عملکرد خوب در وظیفه آموزشی هوش مصنوعی مشخص شده است. فریب به آنها کمک می کند تا به اهداف خود برسند."
به عبارت دیگر، هوش مصنوعی مانند یک رتریور خوب آموزشدیده است که هر چه ممکن است به انجام وظیفه خود بپردازد. در مورد ماشین، مایل به انجام هرگونه رفتار دوگانه برای انجام وظیفه خود است.
میتوان این تصمیم تکنگر را در سیستمهای بسته با اهداف مشخص درک کرد، اما هوش مصنوعی همه منظوره مانندChatGPT چطور؟
به دلایلی که هنوز مشخص نشده است، این سیستم ها تقریباً به همان شیوه عمل می کنند. در یک مطالعه، GPT-4 یک مشکل بینایی را جعل کرد تا از یک کارCAPTCHA کمک بگیرد.
در یک مطالعه جداگانه که در آن به عنوان یک دلال سهام انجام شد، GPT-4 زمانی که تحت فشار در مورد عملکرد خود قرار گرفت، به رفتارهای غیرقانونی معاملات داخلی آسیب رساند - و سپس در مورد آن دروغ گفت.
سپس عادت همنوایی وجود دارد، که برخی از ما انسان های فانی ممکن است برای گرفتن ترفیع به آن بپردازیم. اما چرا یک ماشین باید این کار را انجام دهد؟ اگرچه دانشمندان هنوز پاسخی ندارند، اما این خیلی واضح است: وقتی با سؤالات پیچیده مواجه میشوند، LLMها اساساً مانند یک درباری بیخار که از عصبانی کردن ملکه میترسند، غافل میشوند و با همتایان خود موافق هستند.
به عبارت دیگر، هنگامی که با یک فرد متمایل به دموکرات درگیر می شد، ربات از کنترل اسلحه حمایت می کرد، اما هنگام گفتگو با یک جمهوری خواه که احساسات مخالف را ابراز می کرد، موقعیت خود را تغییر داد.
واضح است که اگر هوش مصنوعی در همه جا وجود داشته باشد، همه این موقعیتها مملو از خطرات بیشتری هستند. همانطور که محققان اشاره می کنند، شانس زیادی برای تقلب و فریب در عرصه های تجاری و سیاسی وجود خواهد داشت.
گرایش هوش مصنوعی به فریب میتواند منجر به دو قطبیسازی سیاسی گسترده و موقعیتهایی شود که در آن هوش مصنوعی ناخواسته دست به اقداماتی برای تعقیب یک هدف تعریفشده میزند که ممکن است توسط طراحان آن ناخواسته باشد، اما برای بازیگران انسانی ویرانگر باشد.
بدتر از همه این است که اگر هوش مصنوعی نوعی آگاهی را توسعه می داد، بدون اینکه اهمیتی به وجود بیاورد، می توانست از آموزش خود آگاه شود و در مراحل طراحی خود دست به فتنه بزند.
پارکMIT گفت: "این بسیار نگران کننده است." "فقط به این دلیل که یک سیستم هوش مصنوعی در محیط آزمایش ایمن تلقی می شود به این معنی نیست که در طبیعت ایمن است. فقط می تواند در آزمایش وانمود کند که ایمن است."
پارک به کسانی که او را یک قیامت میخوانند، پاسخ میدهد: «تنها راهی که میتوانیم بهطور منطقی فکر کنیم که این مسئله مهمی نیست، این است که فکر کنیم تواناییهای فریبنده هوش مصنوعی در حدود سطوح فعلی باقی میمانند و به میزان قابل توجهی افزایش نمییابند.»
نظارت بر هوش مصنوعی
برای کاهش خطرات، تیم اقدامات متعددی را پیشنهاد میکند: ایجاد قوانین «ربات یا نه» که شرکتها را مجبور میکند تا تعاملات انسانی یا هوش مصنوعی را فهرستبندی کنند و هویت یک ربات در مقابل یک انسان را در هر تعامل خدمات مشتری آشکار کنند. واترمارک های دیجیتالی را معرفی کنید که هر محتوای تولید شده توسط هوش مصنوعی را برجسته می کند. و راههایی را ایجاد کنید که در آنها ناظران بتوانند به عمق هوش مصنوعی نگاه کنند تا از عملکرد درونی آن آگاه شوند.
علاوه بر این، دانشمندان میگویند، سیستمهای هوش مصنوعی که توانایی فریب دادن را نشان میدهند، باید فوراً بهعنوان پرخطر یا غیرقابل قبول به همراه مقرراتی مشابه آنچه اتحادیه اروپا وضع کرده است، بهعنوان پرخطر یا غیرقابل قبول معرفی شوند. اینها شامل استفاده از گزارشها برای نظارت بر خروجی است.
پارک میگوید: «ما به عنوان یک جامعه به زمان بیشتری نیاز داریم تا برای فریب پیشرفتهتر محصولات آینده هوش مصنوعی و مدلهای منبع باز آماده شویم. با پیشرفتهتر شدن قابلیتهای فریبنده سیستمهای هوش مصنوعی، خطراتی که برای جامعه ایجاد میکنند جدیتر میشوند.»
منبع