گروهی از محققان موسسه علم و فناوری ژاپن شیوه جدیدی برای تقویت مدلهای بزرگ زبانی ابداع کردهاند که میتواند به ارائه پاسخهای کوتاه و روشن حتی در حوزههای حساس منجر شود.
به گزارش هیچ یک : از «تک اکسپلور»، مدلهای بزرگ زبانی (LLMs) مدلهای یادگیری ماشین هستند که برای فهم و تولید زبان انسان طراحی شدهاند. مدلهای بزرگ زبانی پیشرفته، پتانسیل قابل توجهی در پاسخ به سوالات در حوزه باز (ODQA) نشان دادهاند؛ جایی که وظیفه این مدلها ارائه پاسخهایی به سوالهای حقیقی است.
این قابلیت بهخصوص در حوزههایی مانند مالی، بهداشت و سلامت و آموزش سودمند است با این حال، مدلهای بزرگ زبانی عموما بر دانش از پیش آموزشدیده خود برای پاسخ به سوالات متکی هستند که این دانش در جهان به سرعت در حال تغییر میتواند تاریخ گذشته و منسوخ بشود.
از طریق استفاده از «تولید تقویت شده با بازیابی» (RAG) با یک مدل بزرگ زبانی از پیش آموزشدیده میتوان با این محدودیت مقابله کرد. در این رویکرد، سوال با اسنادی از یک پایه دانش تقویت میشود. با وجود این پیشرفتها، مدلهای بزرگ زبانی اغلب پاسخهای طولانی تولید میکنند بهطوریکه با اطلاعات زیادی چهارچوب دریافت پاسخ کوتاه و روشن دشوار میشود.
برای پرداختن به این محدودیتها، یک گروه از محققان از موسسه علوم و فناوری ژاپن با هدایت پروفسور «انگوین لو مین» یک شیوه جدید موسوم به «تولید پاسخ پیشوند» (ANSPRE) ابداع کردهاند که میتواند کیفیت تولید مدلهای بزرگ زبانی را ارتقا بدهد و به آنها اجازه میدهد که عبارت دقیق پاسخ را مشخص کنند. این شیوه میتواند در هر نوع مدل بزرگ زبانی به کار برود.
ایده اصلی در این شیوه جدید، اضافه کردن یک زنجیره از متن به پیامواره مدل بزرگ زبانی است که به عبارت پاسخ منجر میشود. به این زنجیره متن «پیشوند پاسخ» گفته میشود. این شیوه نوآورانه یک گام مهم به جلو برای مدلهای بزرگ زبانی به شمار میرود و میتواند به کاربرد گستردهتر آنها حتی در حوزههای حساس منجر شود.