اگر تا به حال در یک مسابقه یادگیری ماشین (مانند مواردی که توسط Kaggle برگزار می شود) شرکت کرده اید ، ممکن است با میانگین هندسی به عنوان یک روش ساده که ترکیبی از خروجی چندین مدل است ، آشنا باشید. در این پست ، میانگین هندسی و ارتباط آن با واگرایی Kullbac k-Leibler (KL) را مرور می کنم. بر اساس این رابطه ، خواهیم دید که چرا میانگین هندسی ممکن است یک رویکرد خوب برای ترکیب مدل باشد. سپس ، من نشان خواهم داد که چگونه می توانید این رابطه را برای ایجاد یک چارچوب ساده برای تمیز کردن برچسب های پر سر و صدا یا آموزش مدل های یادگیری ماشین از داده های دارای برچسب پر سر و صدا ایجاد کنید.
میانگین هندسی برای همجوشی طبقه بندی
تصور کنید که می خواهید یک مدل طبقه بندی تصویر برای طبقه بندی گربه ها ، سگ ها و افراد در تصاویر شخصی خود بسازید. یک استراتژی برای دستیابی به بهترین دقت طبقه بندی ، فیوز خروجی چندین مدل آموزش داده شده در مجموعه داده های شما است. بیایید بگوییم که شما سه شبکه عصبی Convolutional (CNN) را برای طبقه بندی تصاویر در این سه دسته آموزش داده اید. CNN ها ممکن است مقادیر احتمال زیر را در مورد دسته ها برای یک تصویر پیش بینی کنند: اما ، چگونه می توانیم خروجی CNN ها را جمع کنیم تا یک پیش بینی واحد برای تصویر ایجاد شود؟برای این مثال ، شما ممکن است از رای گیری اکثریت استفاده کنید که تصویر را به دسته افراد اختصاص می دهد ، زیرا 2 از 3 CNN این گروه را پیش بینی کرده است. با این حال ، اکثریت رأی اعتماد به نفس هر طبقه بندی را در نظر نمی گیرند و نادیده می گیرد که CNN2 کمی به سمت افراد متمایل است در حالی که CNN1 نسبت به این گروه بسیار اطمینان دارد.
در عمل ، یک رویکرد بهتر استفاده از میانگین هندسی مقادیر پیش بینی شده برای ساخت توزیع بر روی دسته ها است. ما این را با استفاده از جایی که نشان می دهد توزیع متناسب با میانگین هندسی است ، نشان خواهیم داد. بیایید ببینیم چگونه می توانیم این را محاسبه کنیم:
در کجا بعد از عادی سازی:
-->همانطور که مشاهده می کنید ، میانگین هندسی به جای افراد ، دسته گربه را انتخاب می کند ، زیرا CNN1 در مورد این کیتوری بسیار مطمئن است در حالی که سایر CNN ها احتمال متوسطی را به این دسته داده اند.
ما می توانیم میانگین هندسی را با میانگین هندسی وزنی که در آن قرار دارد ، جایگزین کنیم ، و مقیاس های مثبت هستند که کنترل هر توزیع در توزیع نهایی را کنترل می کنند. به عنوان مثال وقتی می دانید CNN1 از CNN2 و CNN3 دقیق تر است ، مفید است. با تنظیم بزرگتر از و ، می توانید مجبور شوید به آن نزدیک شوید.
میانگین هندسی و واگرایی KL
واگرایی KL معیاری است که معمولاً برای مشخص کردن اینکه چگونه یک توزیع احتمال با توزیع دیگر متفاوت است استفاده می شود. به جای تجمیع پیشبینیهای طبقهبندی با استفاده از میانگین هندسی، میتوانیم از واگرایی KL برای یافتن توزیعی استفاده کنیم که نزدیکترین به، و . اگر چنین یافت شد، میتوانیم از آن برای پیشبینی نهایی استفاده کنیم، زیرا به همه توزیعها نزدیک است. این به این معنی است که ما حل می کنیم:
(1)
با استفاده از تعریف واگرایی KL، می توانیم هدف فوق را به موارد زیر گسترش دهیم:
(2)
جایی که ثابت نرمال سازی است که توزیع میانگین هندسی را به یک توزیع معتبر تبدیل می کند. در بالا، ما جمع KL در (1) را به یک KL در (2) تبدیل کردهایم. به راحتی می توان فهمید که KL در (2) اگر متناسب با . این یک نتیجه جالب است. میانگین هندسی و توزیعی نزدیک به هر سه بر اساس هدف KL در (1) است. این ممکن است توضیح دهد که چرا میانگین هندسی یک رویکرد خوب برای همجوشی طبقه بندی کننده است. به سادگی نزدیک ترین توزیع را به همه پیش بینی ها پیدا می کند.
به طور مشابه، میتوانیم نشان دهیم که میانگین هندسی وزنی، راهحل هدف KL وزنی است:
از KL Divergence تا Noisy Labels
بیایید اکنون مشکل آموزش یک مدل طبقهبندی تصویر از تصاویر برچسبدار نویزدار را در نظر بگیریم. باز هم دسته بندی هایی که ما در نظر داریم گربه، سگ و مردم هستند. اما، حاشیه نویسی های آموزشی ما پر سر و صدا هستند، و ما می خواهیم یک رویکرد ساده برای تمیز کردن حاشیه نویسی های آموزشی و استفاده از آنها برای آموزش ایجاد کنیم. در اینجا، خواهیم دید که چگونه می توانیم از میانگین هندسی و به طور معادل واگرایی KL برای توسعه چنین رویکردی استفاده کنیم.
بیایید فرض کنیم میتوانیم احتمال انتقال از برچسبهای پر سر و صدا به برچسبهای تمیز را تخمین بزنیم. این را میتوان به این صورت نشان داد: این ماتریس توزیع شرطی را در یک برچسب تمیز ( ) با یک برچسب نویزدار ( ) نشان میدهد. به عنوان مثال، ورودی سمت چپ بالا نشان می دهد که، به عنوان مثال، اگر تصویری به عنوان گربه برچسب گذاری شده باشد، به احتمال 60٪ برچسب واقعی نیز گربه است.
احتمالات انتقال ، ارائه شده توسط ماتریس ، توزیع بر روی برچسب های واقعی برای هر نمونه با برچسب پر سر و صدا را تشکیل می دهد. به جای استفاده از حاشیه نویسی های پر سر و صدا ، می توانیم از برچسب های احتمالی تهیه شده توسط مدل طبقه بندی تصویر استفاده کنیم. به عنوان مثال ، اگر تصویری توسط CAT حاشیه نویسی شود ، می توانیم فرض کنیم که برچسب واقعی گربه با احتمال 0. 6 ، سگ با احتمال 0. 3 و افراد با احتمال 0. 1 است. اگرچه این رویکرد استحکام را برای برچسب زدن به برخی از درجات فراهم می کند ، اما این کار را تنها با در نظر گرفتن وابستگی بین برچسب های پر سر و صدا و تمیز ، مستقل از محتوای تصویر ، یعنی ، برچسب های واقعی را به طور خاص برای هر تصویر استنباط نمی کند. این نوع تصحیح نویز به عنوان مدل نویز مشروط کلاس شناخته می شود (برای بحث نظری به این مقاله مراجعه کنید).
هنگامی که ما در حال آموزش یک مدل طبقه بندی تصویر هستیم ، خود مدل ممکن است با توجه به یک تصویر آموزشی ، برچسب های واقعی (یا حداقل توزیع معقول بر روی برچسب های واقعی) را با موفقیت پیش بینی کند. در این حالت ، ما می توانیم از مدل برای استنباط توزیع بر روی برچسب های واقعی استفاده کنیم. بیایید مدل طبقه بندی را که آموزش داده می شود ، با توجه به تصویر ، توزیع بر روی برچسب های واقعی پیش بینی کنیم. ما می توانیم از واگرایی KL در زیر استفاده کنیم تا نزدیکترین توزیع به هر دو را پیدا کنیم و:
(3)
یک مقیاس کجاستدر مراحل اولیه آموزش ، نمی توان برچسب های واقعی را به درستی پیش بینی کرد. ما می توانیم به یک مقدار بزرگ تنظیم کنیم به گونه ای که فقط به آن نزدیک است. از آنجا که مدل طبقه بندی آموزش دیده است ، می توانیم کاهش دهیم تا به هر دو توزیع نزدیک شویم.
برای به حداقل رساندن KL در (3) دو مزیت وجود دارد: i) راه حل جهانی را می توان برای استفاده از میانگین هندسی (همانطور که در بالا نشان داده شده است) بدست آورد. بنابراین ، با توجه به مدل فعلی و. ب) همانطور که برچسب ها با توجه به محتوای تصویر پیش بینی می شود ، می تواند به عنوان یک مدل تصحیح نویز وابسته به تصویر در نظر گرفته شود. در حقیقت ، می توان برای استنباط برچسب های واقعی برای هر نمونه برچسب پر سر و صدا استفاده کرد.
بیشتر خواندن
ایده ترکیب یک منبع کمکی از اطلاعات (مانند) و مدل طبقه بندی اساسی برای اولین بار در این مقاله معرفی شد که من نشان دادم که به حداقل رساندن KL در (3) نتیجه طبیعی یک الگوریتم EM تنظیم شده است.
مقاله اصلی فقط برچسب های کلاس باینری را در نظر می گرفت. در اینجا، ما این مدل را به برچسبهای پیوسته (به عنوان مثال، مکان شی) گسترش دادیم و نشان دادیم که مدلهای تشخیص شی قوی را میتوان با استفاده از این ایده ساده توسعه داد. همچنین، ما نشان دادیم که منابع اطلاعاتی کمکی پیچیدهتری را میتوان برای مشکل تشخیص شی با استفاده از مدلهای طبقهبندی تصویر تشکیل داد.
آخرین اما نه کم اهمیت، عبارت میانگین هندسی مورد استفاده برای استنتاج را می توان به عنوان یک تابع خطی در نظر گرفت که به و . در اینجا، نشان میدهیم که مدلهای استنتاج بهتری را میتوان با آموزش یک CNN برای نمایش به جای یک تابع خطی ثابت طراحی کرد. ما نشان میدهیم که این مدل در مسئله تقسیمبندی تصویر مؤثر است.
اگر میخواهید با پستهای آینده همراه باشید، از فرم اشتراک زیر استفاده کنید: