محققان یک روش حریم شخصی ابداع کردهاند که در عین حفظ عملکرد مدل یادگیری ماشین، از دادههای حساس محافظت میکند.
به گزارش گروه علم و آموزش هیچ یک _ از «ام آی تی نیوز»، تصور کنید که یک گروه از دانشمندان یک مدل یادگیری ماشین ابداع کرده است که از تصاویر اسکن ریه میتواند پیش بینی کند که آیا یک بیمار مبتلا به سرطان است یا نه. آنها میخواهند این مدل را در بیمارستان های جهان به اشتراک بگذارند.
اما یک مشکل وجود دارد. این دانشمندان برای اینکه به مدل یادگیری ماشین یاد بدهند که چگونه سرطان را پیش بینی کند، میلیون ها تصویر واقعی از اسکن ریه را به آن نشان دادند که به این فرایند آموزش گفته میشود. این دادههای حساس که اکنون کدگذاری و وارد کارهای داخلی مدل شده است، میتواند بطور بالقوه توسط یک کارگزار بدخواه استخراج شود. دانشمندان می توانند با افزودن «نویز» از این کار جلوگیری کنند اما این اختلال ها از میزان صحت کار مدل کم میکند و بنابراین هر چه نویز کمتر باشد، بهتر است.
محققان دانشگاه «ام آی تی» تکنیکی ابداع کرده اند که کاربر را قادر می سازد تا بطور بالقوه کمترین میزان ممکن نویز را اضافه کند و در عین حال همچنان تضمین کند که دادههای حساس حفاظت میشوند.
این محققان یک معیار اندازهگیری جدید برای حریم خصوصی ابداع کردند که نام آن را «حریم خصوصی احتمالا تقریبا صحیح» (PAC) گذاشته اند و چهارچوبی بر اساس این معیار ساخته اند که می تواند بطور اتوماتیک میزان حداقل نویز مورد نیاز برای اضافه کردن را مشخص کند. مضاف بر اینکه این مدل نیازمند دانشی درباره کارهای داخلی آن مدل یا فرایند آموزش آن نیست که این مساله موجب می شود کاربرد آن برای انواع مختلف مدل ها آسانتر باشد.
در چندین مورد، محققان نشان دادند که مقدار نویز مورد نیاز برای محافظت از دادههای حساس با استفاده از حریم خصوصی PAC بسیار کمتر از رویکردهای دیگر است. این می تواند به مهندسان کمک کند تا مدل های یادگیری ماشینی ابداع کنند که دادههای آموزشی را پنهان کرده و در عین حال صحت کار را در محیط ها و شرایط جهان واقعی حفظ کند.