الگوریتمی برای شناسایی مقالات تقلبی تولیدشده با هوش مصنوعی
یکی از پژوهشگران «دانشگاه بینگهمتون» الگوریتم یادگیری ماشینی جدیدی ابداع کرده است که میتواند مقالات تولیدشده با نرمافزارهای هوش مصنوعی را تشخیص دهد.
فناوری برتر دیجیتال به نقل از ایسنا، وقتی ChatGPT و سایر نرمافزارهای هوش مصنوعی مولد میتوانند مقالات علمی تولید کنند که واقعی به نظر میرسند -به ویژه برای افرادی که خارج از آن حوزه پژوهشی هستند- یافتن بهترین راه برای تشخیص جعلی بودن آنها ضروری به نظر میرسد.
«احمد عبدین حامد»(Ahmed Abdeen Hamed)، پژوهشگر مدعو «دانشگاه بینگهمتون»(Binghamton University) در آمریکا، یک الگوریتم یادگیری ماشینی ابداع کرده است که آن را «ایکسفیکسای»(xFakeSci) مینامد. این الگوریتم میتواند تا ۹۴ درصد از مقالات جعلی را شناسایی کند که تقریباً دو برابر موفقیت روشهای معمول بررسی را داشته است.
حامد گفت: حوزه پژوهشی اصلی من انفورماتیک زیستپزشکی است؛ اما از آنجا که با نشریات پزشکی، کارآزماییهای بالینی، منابع آنلاین و رسانههای اجتماعی کار میکنم، همیشه نگران صحت دانشی هستم که دیگران منتشر میکنند. بهویژه مقالات زیستپزشکی در طول همهگیری جهانی به شدت آسیب دیدند، زیرا برخی افراد تحقیقات نادرست را تبلیغ میکردند.
حامد و همکارش «شیندونگ وو»(Xindong Wu)، استاد «دانشگاه فناوری ههفی»(HFUT) در چین، ۵۰ مقاله جعلی را برای هر یک از سه موضوع رایج پزشکی شامل آلزایمر، سرطان و افسردگی ایجاد کردند و آنها را با مقالات واقعی در همان زمینهها مورد مقایسه قرار دادند.
حامد درباره استفاده از ChatGPT برای تولید مقالات، گفت: من سعی کردم دقیقا از همان کلمات کلیدی استفاده کنم که برای استخراج اطلاعات از پایگاه داده «PubMed» استفاده کردم. بنابراین، ما یک مبنای مشترک را برای مقایسه خواهیم داشت. نظر من این بود که باید الگویی در دنیای جعلی در مقابل دنیای واقعی به نمایش گذاشته شود، اما نمیدانستم این الگو چیست.
او پس از مدتی آزمایش، ایکسفیکسای را برای تجزیه و تحلیل دو ویژگی اصلی پیرامون نحوه نگارش مقالات برنامهریزی کرد. اولین مورد تعداد بیگرامهاست. بیگرامها دو کلمه هستند که اغلب با هم ظاهر میشوند؛ مانند تغییرات اقلیمی، آزمایشهای بالینی یا سوابق زیستپزشکی. دوم این است که چگونه بیگرامها با کلمات و مفاهیم دیگر موجود در متن پیوند مییابند.
حامد گفت: اولین نکته قابل توجه این بود که تعداد بیگرامها در دنیای جعلی بسیار کم بود، اما در دنیای واقعی بیگرامها بسیار بیشتر هستند. همچنین، در دنیای جعلی به رغم اینکه بیگرامهای بسیار کمی وجود داشتند، با بقیه موارد متن پیوند خورده بودند.
حامد و «وو» این نظریه را مطرح میکنند که سبک نگارش افراد متفاوت است؛ زیرا پژوهشگران انسانی اهداف مشابه هوش مصنوعی را برای تولید مقاله ندارند. حامد گفت: از آنجا که ChatGPT هنوز از نظر دانش محدود است، سعی دارد با استفاده از مهمترین کلمات شما را متقاعد کند. این وظیفه یک دانشمند نیست که برای شما استدلال قانعکنندهای ارائه دهد. یک مقاله پژوهشی واقعی، صادقانه درباره آنچه در طول یک آزمایش اتفاق افتاده و روشی که استفاده شده است، گزارش میدهد. ChatGPT درباره عمق یک نقطه است، اما علم واقعی به وسعت آن میپردازد.
حامد قصد دارد برای توسعه بیشتر ایکسفیکسای، دامنه موضوعات را گسترش دهد تا ببیند آیا الگوهای کلمات گویا برای سایر حوزههای پژوهشی نیز قابل استفاده هستند. همچنین، او پیشبینی میکند که هوش مصنوعی در آینده به طور فزایندهای پیچیده شود. بنابراین، تعیین اینکه چه چیزی واقعی است و چه چیزی نیست، حتما دشوار خواهد شد.