هفته گذشته، AP گزارش داد که یک محقق در دانشگاه میشیگان "در هشت رونوشت صوتی از هر 10 رونویسی صوتی که بررسی کرده بود" که توسطWhisper در طول مطالعه جلسات عمومی تهیه شده بود، توهم پیدا کرد.
به طور جداگانه، یک مهندس که 100 ساعت رونویسیWhisper را بررسی نموده بهAP گفت که تقریباً در 50٪ آنها توهم پیدا کرده است، در حالی که توسعه دهنده دیگری تقریباً در هر متنی که با استفاده ازWhisper تولید نمود، توهمات را کشف کرده که در مجموع به 26000 میرسد.
در حالی که کاربران همیشه میتوانند انتظار داشته باشند که رونویسکنندههای هوش مصنوعی یک کلمه یا املایی را اینجا و آنجا اشتباه بگیرند، محققان خاطرنشان کردند که آنها «هرگز ابزار رونویسی مجهز به هوش مصنوعی دیگری به اندازهWhisper توهم ندیدهاند».
OpenAI میگویدWhisper، یک شبکه عصبی منبع باز، "به استحکام و دقت در سطح انسانی در تشخیص گفتار انگلیسی نزدیک میشود." این به طور گسترده در چندین صنعت برای انواع رایج تشخیص گفتار، از جمله رونویسی و ترجمه مصاحبهها و ایجاد زیرنویسهای ویدئویی، ادغام شده است.
این سطح از همه جا میتواند به سرعت متن ساختگی، نقل قولهای نادرست نسبت داده شده و اختراع شده و سایر اطلاعات نادرست را در چندین رسانه منتشر کند، که میتواند بر اساس ماهیت مطالب اصلی از نظر اهمیت متفاوت باشد. به گفتهAP، Whisper در برخی از نسخههایChatGPT، در مراکز تماس، دستیارهای صوتی و پلتفرمهای ابریOracle وMicrosoft تعبیه شده است و ماه گذشته بیش از 4.2 میلیون بار ازHuggingFace دانلود شده است.
کارشناسان بهAP گفتند، نکته نگرانکنندهتر این است که متخصصان پزشکی به طور فزایندهای از «ابزارهای مبتنی برWhisper» برای رونویسی مشاورههای بیمار و پزشک استفاده میکنند. AP با بیش از 12 مهندس، محقق و توسعهدهنده مصاحبه کرد که تأیید کردندWhisper عبارات و جملات کاملی را در متن رونویسی ساخته است، که برخی از آنها «میتواند شامل تفسیر نژادی، لفاظیهای خشونتآمیز و حتی درمانهای پزشکی خیالی باشد».
آلوندرا نلسون، استاد مؤسسه مطالعات پیشرفته، میگوید: هیچ کس خواهان تشخیص اشتباه نیست.
OpenAI ممکن است از موارد استفاده پزشکی حمایت نکرده باشد. این شرکت توصیه میکند "در مقابل استفاده در حوزههای پرخطر مانند زمینههای تصمیمگیری، جایی که نقص در دقت میتواند منجر به نقصهای آشکار در نتایج شود" باید دقت کرد اما قرار دادن این ابزار در بازار و تبلیغ دقت آن به این معنی است که احتمالاً توسط چندین صنعت که تلاش میکنند بدون توجه به خطرات احتمالی، کار را تسریع بخشند و کارآیی ایجاد کنند.
به گزارش آسوشیتدپرس، دانشمندان کامپیوتر اخیراً برخی از توهمات را در نمونههای صوتی کوتاه و واضح یافتهاند. محققان بهAP گفتند که این روند "به دهها هزار رونویسی معیوب در میلیون ها ضبط منجر میشود."
به گزارش آسوشیتدپرس، «تشخیص کامل این مشکل دشوار است، اما محققان و مهندسان گفتند که اغلب در کار خود با توهمات ویسپر مواجه شدهاند». علاوه بر این، همانطور که کریستین ووگلر، مدیر برنامه دسترسی به فناوری دانشگاه گالودت و ناشنوا است، خاطرنشان کرد، کسانی که ناشنوا یا کم شنوا هستند نمیتوانند توهمات "پنهان شده در میان این همه متن دیگر" را ببینند.
یافتههای محققان نشاندهنده یک مشکل گستردهتر در صنعت هوش مصنوعی است: ابزارها برای کسب سود خیلی سریع به بازار عرضه میشوند، بهویژه در حالی که ایالات متحده هنوز مقررات مناسب هوش مصنوعی را ندارد. این همچنین با توجه به بحثهای جاریOpenAI در مقابل غیرانتفاعی و پیشبینیهای اخیر رهبری که خطرات هوش مصنوعی را در نظر نمیگیرند، مرتبط است.
AP نوشت: «سخنگویOpenAI گفت که این شرکت به طور مداوم در حال مطالعه چگونگی کاهش توهمات است و از یافتههای محققان قدردانی میکند و اضافه کرد کهOpenAI بازخورد را در بهروزرسانیهای مدل گنجانده است.
منبع