‫ ابزار رونویسی هوش مصنوعی OpenAI بیش از حد توهم ایجاد می‌کند

هفته گذشته، AP گزارش داد که یک محقق در دانشگاه میشیگان "در هشت رونوشت صوتی از هر 10 رونویسی صوتی که بررسی کرده بود" که توسطWhisper در طول مطالعه جلسات عمومی تهیه شده بود، توهم پیدا کرد.

به طور جداگانه، یک مهندس که 100 ساعت رونویسیWhisper را بررسی نموده بهAP گفت که تقریباً در 50٪ آنها توهم پیدا کرده است، در حالی که توسعه دهنده دیگری تقریباً در هر متنی که با استفاده ازWhisper تولید نمود، توهمات را کشف کرده که در مجموع به 26000 می‌رسد.

در حالی که کاربران همیشه می‌توانند انتظار داشته باشند که رونویس‌کننده‌های هوش مصنوعی یک کلمه یا املایی را اینجا و آنجا اشتباه بگیرند، محققان خاطرنشان کردند که آنها «هرگز ابزار رونویسی مجهز به هوش مصنوعی دیگری به اندازهWhisper توهم ندیده‌اند».

OpenAI می‌گویدWhisper، یک شبکه عصبی منبع باز، "به استحکام و دقت در سطح انسانی در تشخیص گفتار انگلیسی نزدیک می‌شود." این به طور گسترده در چندین صنعت برای انواع رایج تشخیص گفتار، از جمله رونویسی و ترجمه مصاحبه‌ها و ایجاد زیرنویس‌های ویدئویی، ادغام شده است.

این سطح از همه جا می‌تواند به سرعت متن ساختگی، نقل قول‌های نادرست نسبت داده شده و اختراع شده و سایر اطلاعات نادرست را در چندین رسانه منتشر کند، که می‌تواند بر اساس ماهیت مطالب اصلی از نظر اهمیت متفاوت باشد. به گفتهAP، Whisper در برخی از نسخه‌هایChatGPT، در مراکز تماس، دستیارهای صوتی و پلتفرم‌های ابریOracle وMicrosoft تعبیه شده است و ماه گذشته بیش از 4.2 میلیون بار ازHuggingFace دانلود شده است.

کارشناسان بهAP گفتند، نکته نگران‌کننده‌تر این است که متخصصان پزشکی به طور فزاینده‌ای از «ابزارهای مبتنی برWhisper» برای رونویسی مشاوره‌های بیمار و پزشک استفاده می‌کنند. AP با بیش از 12 مهندس، محقق و توسعه‌دهنده مصاحبه کرد که تأیید کردندWhisper عبارات و جملات کاملی را در متن رونویسی ساخته است، که برخی از آنها «می‌تواند شامل تفسیر نژادی، لفاظی‌های خشونت‌آمیز و حتی درمان‌های پزشکی خیالی باشد».

آلوندرا نلسون، استاد مؤسسه مطالعات پیشرفته، می‌گوید: ‌هیچ کس خواهان تشخیص اشتباه نیست.

OpenAI ممکن است از موارد استفاده پزشکی حمایت نکرده باشد. این شرکت توصیه می‌کند "در مقابل استفاده در حوزه‌های پرخطر مانند زمینه‌های تصمیم‌گیری، جایی که نقص در دقت می‌تواند منجر به نقص‌های آشکار در نتایج شود" باید دقت کرد اما قرار دادن این ابزار در بازار و تبلیغ دقت آن به این معنی است که احتمالاً توسط چندین صنعت که تلاش می‌کنند بدون توجه به خطرات احتمالی، کار را تسریع بخشند و کارآیی ایجاد کنند.

به گزارش آسوشیتدپرس، دانشمندان کامپیوتر اخیراً برخی از توهمات را در نمونه‌های صوتی کوتاه و واضح یافته‌اند. محققان بهAP گفتند که این روند "به ده‌ها هزار رونویسی معیوب در میلیون ها ضبط منجر می‌شود."

به گزارش آسوشیتدپرس، «تشخیص کامل این مشکل دشوار است، اما محققان و مهندسان گفتند که اغلب در کار خود با توهمات ویسپر مواجه شده‌اند». علاوه بر این، همانطور که کریستین ووگلر، مدیر برنامه دسترسی به فناوری دانشگاه گالودت و ناشنوا است، خاطرنشان کرد، کسانی که ناشنوا یا کم شنوا هستند نمی‌توانند توهمات "پنهان شده در میان این همه متن دیگر" را ببینند.

یافته‌های محققان نشان‌دهنده یک مشکل گسترده‌تر در صنعت هوش مصنوعی است: ابزارها برای کسب سود خیلی سریع به بازار عرضه می‌شوند، به‌ویژه در حالی که ایالات متحده هنوز مقررات مناسب هوش مصنوعی را ندارد. این همچنین با توجه به بحث‌های جاریOpenAI در مقابل غیرانتفاعی و پیش‌بینی‌های اخیر رهبری که خطرات هوش مصنوعی را در نظر نمی‌گیرند، مرتبط است.

AP نوشت: «سخنگویOpenAI گفت که این شرکت به طور مداوم در حال مطالعه چگونگی کاهش توهمات است و از یافته‌های محققان قدردانی می‌کند و اضافه کرد کهOpenAI بازخورد را در به‌روزرسانی‌های مدل گنجانده است.