یک مدل هوش مصنوعی مولد جدید موسوم به PFGM++ در زمینه تولید تصویر عملکرد بهتری از مدلهای پراکنش (diffusion) نشان داده و قادر به تولید تصاویر واقعگرایانه با تقلید از فرایندهای موجود در جهان واقعی است.
به گزارش پایگاه بری هیچ یک _ از «سای تک دیلی»، هوش مصنوعی مولد (Generative AI) وعده دنیایی را میدهد که در آن «ساده» تبدیل به «پیچیده» میشود؛ جایی که یک توزیع ساده به الگوهای ظریف و پیچیدهای از تصاویر، صداها یا متن تبدیل شده و موجب میشود که «مصنوعی» به طرز عجیبی «واقعی» شود.
قلمروی پندار و خیال دیگر صرفا حوزهای از امور انتزاعی نیست چرا که محققانی از آزمایشگاه علوم رایانه و هوش مصنوعی دانشگاه «ام آی تی» (CSAIL) یک مدل هوش مصنوعی نوآورانه را ابداع کردهاند. فناوری جدید این محققان، دو قانون فیزیکی ظاهرا نامرتبط یعنی قانون «پراکنش» (diffusion) و «جریان پواسون» (Poisson Flow) را با هم یکپارچه میسازد. پراکنش حرکت تصادفی (راندوم) عناصر مانند گسترش گرما در اتاق یا گاز در فضا را به نمایش میگذارد و جریان پواسون نیز از اصول زیربنایی فعالیت بارهای الکتریکی استفاده میکند.
ظهور یک مدل جدید
این ترکیب موزون منجر به عملکرد برتری در تولید تصاویر جدید شده و از مدلهای پیشرفته موجود پیشی گرفته است. مدل موسوم به «مدل مولد جریان پواسون» (PFGM++) کاربردهای بالقوهای در حوزههای مختلف از تولید آنتیبادی و زنجیره «آر ان ای» گرفته تا تولید صوتی (اودیو) و نمودار (گراف) پیدا کرده است.
این مدل میتواند الگوهای پیچیدهای تولید کند از جمله اینکه قادر به ایجاد تصاویر واقعگرایانه یا تقلید از فرایندهای جهان واقعی است. این مدل جدید برگرفته از کار سال گذشته این تیم تحقیقاتی موسوم به PFGM است که از معادله ریاضیاتی موسوم به معادله «پواسون» الهام گرفته و آن را در مورد دادههایی به کار میبرد که مدل تلاش دارد از آن یاد بگیرد.
محققان برای این کار یک بعد اضافی به «فضای» مدل اضافه کردند که این کار مانند تبدیل از یک طرح دوبعدی به یک مدل سه بعدی است. این بعد اضافی فضای بیشتری برای مانور ایجاد میکند و دادهها را در متن بزرگتری قرار میدهد و اجازه میدهد که در هنگام تولید نمونههای جدید بتوان از همه جهات به دادهها نزدیک شد.
«جسی تالر» فیزیکدان ذرات تئوریک در آزمایشگاه علوم هستهای دانشگاه «ام آی تی» گفت: مدل PFGM++ یک نمونه از پیشرفت های هوش مصنوعی است که از طریق همکاری بین رشتهای بین فیزیکدان ها و دانشمندان علوم رایانه قابل استفاده است.
وی افزود: در سال های اخیر، مدل های مولد مبتنی بر هوش مصنوعی نتایج خیرهکننده متعددی از تصاویر واقعگرایانه (photorealistic) تا جریانهای واضح متنی ایجاد کردهاند. برخی از نیرومندترین مدل های مولد ریشه در مفاهیم گذشته مانند تقارن و ترمودینامیک دارند. مدل PFGM++ از یک ایده با سابقه یک قرنی از فیزیک بنیادی استفاده میکند حاکی از اینکه ممکن است بعدهای بیشتری از مکان-زمان وجود داشته باشد و این را به یک ابزار نیرومند برای تولید مجموعهدادههای مصنوعی (سنتتیک) اما واقعگرایانه تبدیل میکند.
محققان برای این کار دادهها را با بار الکتریکی تشبیه کردند و این بارهای الکتریکی یک «میدان الکتریکی» تولید میکنند بطوری که بارها (شارژها) درصدد حرکت به سمت بالا در امتداد خطوط میدان به درون یک بعد اضافی و تشکیل یک توزیع همشکل بر روی یک کره بزرگ تخیلی (imaginary) هستند. برای تحقق بخشیدن به این تئوری، این تیم تحقیقاتی یک زوج معادله دیفرانسیل درباره حرکت این ذرات در داخل میدان الکتریکی را حل کردند. مدل PFGM++ مقاومت بیشتری نیز در برابر اشتباهات در معادلات دیفرانسیل نشان داده است.
این محققان قصد دارند در ادامه کار خود برخی جنبههای خاص این مدل به خصوص در راه های متقارن را بهبود دهند و اصلاح کنند تا بتوانند «نقطه بهینه» برای دادههای خاص را از طریق تحلیل رفتار اشتباهات برآوردی شبکههای عصبی شناسایی کنند. آنها همچنین قصد دارند این مدل را در مورد تولید متن به تصویر/متن به ویدئو در مقیاس بزرگ به کار ببرند.