‫ هوش مصنوعی چگونه برای موفقیت دروغ می‌گوید

تحقیقات نشان می‌دهد که سیستم‌های هوش مصنوعی زمانی که در محیط‌های هدف‌گذاری قرار می‌گیرند، می‌توانند به فریب متوسل شوند. اگرچه هنوز یک پدیده به خوبی مطالعه نشده است، اما خواستار مقررات بیشتر است.

ظهور ماشین‌های فریب دهنده
ممکن است چیزی فراتر از یک خیال به نظر برسد، اما اقدامات سیسرو را در نظر بگیرید، یک سیستم هوش مصنوعی با کاربرد ویژه که توسط متا توسعه یافته و برای تبدیل شدن به یک بازیکن ماهر در بازی استراتژی دیپلماسی آموزش دیده است.

متا می‌گوید که سیسرو را به گونه‌ای آموزش داد که «تا حد زیادی صادق و مفید» باشد، اما سیسرو با خونسردی آن را کنار زد و درگیر چیزی شد که محققان آن را «فریب از پیش برنامه‌ریزی‌شده» نامیدند. به عنوان مثال، ابتدا با آلمان برای سرنگونی انگلیس وارد جنگ شد و پس از آن با انگلیس متحد شد و هیچ ایده ای در مورد این خنجر زدن نداشت.

در بازی دیگری که متا ابداع کرد، این بار در مورد هنر مذاکره، هوش مصنوعی یاد گرفت که به مواردی که می‌خواهد علاقه جعلی داشته باشد تا بعداً با تظاهر به مصالحه، آن‌ها را ارزان خریداری کند.در هر دو این سناریوها، هوش مصنوعی ها برای شرکت در این مانورها آموزش ندیده بودند.

در یک آزمایش، دانشمندی در حال بررسی چگونگی تکامل موجودات هوش مصنوعی در میان سطح بالایی از جهش بود. به عنوان بخشی از آزمایش، او شروع به از بین بردن جهش هایی کرد که باعث می شد ارگانیسم سریعتر تکثیر شود. در کمال تعجب، محقق دریافت که موجوداتی که سریع‌ترین تکثیر را دارند متوجه شدند که چه اتفاقی در حال وقوع است و شروع به کاهش عمدی سرعت تکثیر خود کردند تا محیط آزمایش را فریب دهند تا آنها را حفظ کند.

در آزمایشی دیگر، یک ربات هوش مصنوعی آموزش دیده برای گرفتن توپ با دست خود یاد گرفت که چگونه با قرار دادن دست خود بین توپ و دوربین، تقلب کند تا به نظر برسد که توپ را گرفته است.

چرا این حوادث نگران کننده رخ می دهد؟

پیتر پارک، عضو فوق دکتریMIT و یکی از نویسندگان این مطالعه، می‌گوید: «توسعه‌دهندگان هوش مصنوعی درک مطمئنی از عوامل ایجادکننده رفتارهای نامطلوب هوش مصنوعی مانند فریب ندارند.

پارک می افزاید: "به طور کلی، ما فکر می کنیم فریب هوش مصنوعی به این دلیل به وجود می آید که یک استراتژی مبتنی بر فریب بهترین راه برای عملکرد خوب در وظیفه آموزشی هوش مصنوعی مشخص شده است. فریب به آنها کمک می کند تا به اهداف خود برسند."

به عبارت دیگر، هوش مصنوعی مانند یک رتریور خوب آموزش‌دیده است که هر چه ممکن است به انجام وظیفه خود بپردازد. در مورد ماشین، مایل به انجام هرگونه رفتار دوگانه برای انجام وظیفه خود است.

می‌توان این تصمیم تک‌نگر را در سیستم‌های بسته با اهداف مشخص درک کرد، اما هوش مصنوعی همه منظوره مانندChatGPT چطور؟

به دلایلی که هنوز مشخص نشده است، این سیستم ها تقریباً به همان شیوه عمل می کنند. در یک مطالعه، GPT-4 یک مشکل بینایی را جعل کرد تا از یک کارCAPTCHA کمک بگیرد.

در یک مطالعه جداگانه که در آن به عنوان یک دلال سهام انجام شد، GPT-4 زمانی که تحت فشار در مورد عملکرد خود قرار گرفت، به رفتارهای غیرقانونی معاملات داخلی آسیب رساند - و سپس در مورد آن دروغ گفت.

سپس عادت همنوایی وجود دارد، که برخی از ما انسان های فانی ممکن است برای گرفتن ترفیع به آن بپردازیم. اما چرا یک ماشین باید این کار را انجام دهد؟ اگرچه دانشمندان هنوز پاسخی ندارند، اما این خیلی واضح است: وقتی با سؤالات پیچیده مواجه می‌شوند، LLM‌ها اساساً مانند یک درباری بی‌خار که از عصبانی کردن ملکه می‌ترسند، غافل می‌شوند و با همتایان خود موافق هستند.

به عبارت دیگر، هنگامی که با یک فرد متمایل به دموکرات درگیر می شد، ربات از کنترل اسلحه حمایت می کرد، اما هنگام گفتگو با یک جمهوری خواه که احساسات مخالف را ابراز می کرد، موقعیت خود را تغییر داد.

واضح است که اگر هوش مصنوعی در همه جا وجود داشته باشد، همه این موقعیت‌ها مملو از خطرات بیشتری هستند. همانطور که محققان اشاره می کنند، شانس زیادی برای تقلب و فریب در عرصه های تجاری و سیاسی وجود خواهد داشت.

گرایش هوش مصنوعی به فریب می‌تواند منجر به دو قطبی‌سازی سیاسی گسترده و موقعیت‌هایی شود که در آن هوش مصنوعی ناخواسته دست به اقداماتی برای تعقیب یک هدف تعریف‌شده می‌زند که ممکن است توسط طراحان آن ناخواسته باشد، اما برای بازیگران انسانی ویرانگر باشد.

بدتر از همه این است که اگر هوش مصنوعی نوعی آگاهی را توسعه می داد، بدون اینکه اهمیتی به وجود بیاورد، می توانست از آموزش خود آگاه شود و در مراحل طراحی خود دست به فتنه بزند.

پارکMIT گفت: "این بسیار نگران کننده است." "فقط به این دلیل که یک سیستم هوش مصنوعی در محیط آزمایش ایمن تلقی می شود به این معنی نیست که در طبیعت ایمن است. فقط می تواند در آزمایش وانمود کند که ایمن است."

پارک به کسانی که او را یک قیامت می‌خوانند، پاسخ می‌دهد: «تنها راهی که می‌توانیم به‌طور منطقی فکر کنیم که این مسئله مهمی نیست، این است که فکر کنیم توانایی‌های فریبنده هوش مصنوعی در حدود سطوح فعلی باقی می‌مانند و به میزان قابل توجهی افزایش نمی‌یابند.»

نظارت بر هوش مصنوعی
برای کاهش خطرات، تیم اقدامات متعددی را پیشنهاد می‌کند: ایجاد قوانین «ربات یا نه» که شرکت‌ها را مجبور می‌کند تا تعاملات انسانی یا هوش مصنوعی را فهرست‌بندی کنند و هویت یک ربات در مقابل یک انسان را در هر تعامل خدمات مشتری آشکار کنند. واترمارک های دیجیتالی را معرفی کنید که هر محتوای تولید شده توسط هوش مصنوعی را برجسته می کند. و راه‌هایی را ایجاد کنید که در آنها ناظران بتوانند به عمق هوش مصنوعی نگاه کنند تا از عملکرد درونی آن آگاه شوند.

علاوه بر این، دانشمندان می‌گویند، سیستم‌های هوش مصنوعی که توانایی فریب دادن را نشان می‌دهند، باید فوراً به‌عنوان پرخطر یا غیرقابل قبول به همراه مقرراتی مشابه آنچه اتحادیه اروپا وضع کرده است، به‌عنوان پرخطر یا غیرقابل قبول معرفی شوند. اینها شامل استفاده از گزارش‌ها برای نظارت بر خروجی است.

پارک می‌گوید: «ما به عنوان یک جامعه به زمان بیشتری نیاز داریم تا برای فریب پیشرفته‌تر محصولات آینده هوش مصنوعی و مدل‌های منبع باز آماده شویم. با پیشرفته‌تر شدن قابلیت‌های فریبنده سیستم‌های هوش مصنوعی، خطراتی که برای جامعه ایجاد می‌کنند جدی‌تر می‌شوند.»

منبع

زدنت