سیستم هوش مصنوعی DALL-E 2 برای تبدیل متن به تصویر معرفی شد
OpenAI از ابزار هوش مصنوعی جدیدی رونمایی کرده است که میتواند متن را به تصویر تبدیل کند؛ ابزاری که با نتایج خیره کننده قادر است آینده هنر در هوش مصنوعی را رقم بزند.
فناوری برتر دیجیتال به تقل از شهر سخت افزار؛ این سیستم که DALL-E 2 نام دارد، جانشین مدلی است که سال گذشته رونمایی شد. هرچند نسخه قبلی آن خروجیهای چشمگیری داشت، اما نسخه جدید به نسبت قبل یک پیشرفت بزرگ است!DALL-E-2 درک متنی پیشرفته، تولید تصویر سریعتر و وضوح چهار برابر بیشتر را به این فناوری اضافه میکند.
Aditya Ramesh، محقق OpenAI در این رابطه به The Next Web گفت:
هنگامی که روی DALL-E 2 کار میکردیم، به جای ساختن یک سیستم بزرگتر، بر بهبود کیفیت وضوح تصویر و بهبود تأخیر تمرکز کردیم.
ابزار جدید همچنین دو قابلیت اضافی را معرفی میکند: تداخل مجدد تصاویر موجود و یک ویژگی ویرایش به نام Inpainting.
Inpainting با تجزیه و تحلیل یک عنوان در زبان طبیعی، تصویر موجود را ویرایش میکند. این ویژگی میتواند اجزایی را به تصویر اضافه یا از آن حذف و در عین حال، تغییرات مورد نظر را در سایهها، بازتابها و بافتها یکپارچهسازی کند.
DALL-E 2 بر اساس تصاویر و زیرنویسهای مربوط به آنها آموزش داده شده سبب میشود این ابزار روابط بین تصاویر و کلمات را بشناسد. پس از آن، تصاویر جدید از طریق فرآیندی به نام Diffusion (انتشار) تولید میشوند. این فرآیند با الگویی از نقاط تصادفی شروع میشود. سپس سیستم زمانی که جنبههای خاصی از آن تصویر را تشخیص میدهد، به تدریج الگو را به تصویر تبدیل میکند.
برخی از ساختههای DALL-E 2 تقریباً بیش از حد واقعی به نظر میرسند. با این حال، محققان میگویند که این سیستم تمایل دارد برای اکثر عنوانهایی که افراد امتحان میکنند، تصاویر منطقی بصری ایجاد کند.
برای مثال، تصاویر بالا از یک فضانورد از مجموعه 9 تایی تولید شده توسط این مدل تهیه شده است. Prafulla Dhariwal، دانشمند تحقیقاتی در OpenAI، در این رابطه میگوید که نتایج به طور کلی ثابت هستند:
گاهی اوقات، تکرار با مدل در یک حلقه بازخورد با اصلاح دستور بر اساس تفسیر قبلی یا با استفاده از سبکی متفاوت مانند «نقاشی رنگ روغن»، «هنر دیجیتال»، «عکس» یا یک «ایموجی» و غیره میتواند مفید باشد. این کار میتواند برای دستیابی به یک سبک یا زیبایی شناسی دلخواه به کار بیاید.
به طور کلی کاربردهای این ابزار زیاد است. طراحان گرافیک، توسعهدهندگان اپلیکیشن، رسانهها، معماران، تصویرگران تجاری و طراحان محصول، همگی میتوانند از این ابزار برای الهام گرفتن، خلاقیتهای جدید و ویرایش استفاده کنند.
علاوه بر مزایایی که دارد اما،DALL-E 2 سوگیریهای مختلفی را از دادههای آموزشی خود به ارث میبرد و خروجیهای آن گاهی اوقات کلیشههای اجتماعی را تقویت میکند. این تیم قبلاً محتوای صریح را از دادههای آموزشی حذف کرده و محتوای خشونتآمیز، نفرت پراکنانه و محتوای بزرگسالان را در خط مشی موارد ممنوع خود گذاشته است.
با این حال،DALL-E ممکن است درک ما را از اینکه هوش مصنوعی جهان را چگونه میبیند، تقویت کند. OpenAI امیدوار است چنین ابزاری به آنها کمک کند تا سیستمهایی را ایجاد کنند که به نفع بشریت بوده و برای ایجاد نفرت و فریب دستکاری نشوند.