1. مجله پردازش سیگنال IEEE 2. کتابخانه دیجیتال پردازش سیگنال* 3. خبرنامه پردازش سیگنال 4. مرکز منابع SPS 5. پیشرفت و شناخت شغلی 6. تخفیف در کنفرانس ها و نشریات 7. شبکه های حرفه ای 8. اجتماعات برای دانشجویان ، متخصصان جوان ،و زنان 9. فرصت های داوطلبانه 10. به زودی! اعتبار PDH/CEU برای کسب اطلاعات بیشتر اینجا را کلیک کنید.
10 سال اخبار و منابع برای اعضای انجمن پردازش سیگنال IEEE
چگونه می توانیم از ابزارهایی از پردازش سیگنال برای درک شبکه های عصبی بهتر استفاده کنیم؟
general_ai. jpg
شبکه های عصبی عمیق در بسیاری از حوزه ها در پردازش سیگنال به عملکرد پیشرفته می رسند. عمل اصلی گرفتن جفت نمونه ها ، ورودی و خروجی مورد نظر آن ، و سپس آموزش یک شبکه برای تولید همان خروجی ها با این هدف است که یاد می گیرد چگونه به داده های جدید غیب نیز تعمیم دهد ، که در واقع در بسیاری از سناریوها اینگونه استواد
یکی از اصلی ترین سؤالاتی که این روزها پرسیده می شود این است که آیا هنوز نیاز به "ابزارهای کلاسیک" پردازش سیگنال وجود دارد یا همه آنچه ما نیاز داریم فقط آموزش داده است. در این مقاله کوتاه ، ما نمونه های مختلفی را ارائه خواهیم داد که تکنیک های کلاسیک از پردازش سیگنال می تواند به بهبود درک ما از شبکه های عصبی کمک کند ، که در برخی موارد حتی منجر به بهبود عملکرد می شود. به طور خاص ، ما بر روی استفاده از (i) اسپلین ها برای توصیف فضای عملکرد شبکه های عصبی تمرکز می کنیم.(ب) تئوری نمونه برداری برای توضیح تعمیم و بهبود آن.(iii) برنامه نویسی خطی برای توضیح بهینه سازی. و (IV) تجزیه و تحلیل طیفی (فوریه) برای درک و بهبود استحکام شبکه به نویز برچسب.
درون یابی Spline. یک خاصیت بسیار مشهور شبکه های عصبی ، قضیه تقریبی جهانی است ، یعنی با داشتن شبکه های عصبی به اندازه کافی بزرگ ممکن است تقریباً هر عملکردی را تقریبی کند [1 ، 2]. در حالی که این نتیجه نشان می دهد که شبکه های عصبی از قدرت بیان قوی برخوردار هستند ، اما توانایی تعمیم شبکه های عصبی را هنگام افزایش داده های آموزش توضیح نمی دهد. به طور کلی ، ممکن است انتظار داشته باشد که وقتی یک شبکه از داده ها غلبه می کند ، عملکرد آن در داده های جدید غیب ("داده های آزمون") باید تخریب شود. با این حال ، شاید با کمال تعجب ، برعکس به طور کلی اتفاق می افتد.
به تازگی ، فضای عملکرد شبکه های عصبی با وزن محدود ، که این مورد معمول هنگام آموزش یک شبکه است ، در آثار مختلف مورد تجزیه و تحلیل قرار گرفته است [3 ، 4 ، 5 ، 6]. برای اولین بار در [3] نشان داده شد که شبکه های عصبی کم عمق یک متغیره با عرض نامتناهی و وزنهای محدود یک درون یابی صاف از نقاط داده را انجام می دهند. این درون یابی نشان داده شده است که حداقل یک اسپلین مرتبه اول است. در [4] ، نشان داده شده است که بر اساس پارامترهای شبکه ، ممکن است برای درون یابی اسپلین مرتبه دوم داده های آموزش در همان تنظیمات ضمانتی دریافت کند. در [5] ، نتیجه [3] به مورد شبکه های کم عمق با ورودی چند بعدی گسترش یافته است. در [6] ، مورد شبکه های محدود مورد تجزیه و تحلیل قرار گرفته است.
نظریه نمونه برداری. این واقعیت که شبکه های عصبی یک درون یابی صاف را انجام می دهند ، برای توضیح توانایی تعمیم شبکه ها هنگام افزایش بیش از حد داده ها استفاده شده است. با استفاده از ابزارهایی از تئوری نمونه گیری ، نشان داده شده است که اگر داده های ورودی از یک نقشه برداری محدود باند تولید شود (می تواند یک نقشه برداری به اندازه کافی صاف باشد) ، سپس خطای شبکه آموزش دیده در داده های غیب به سرعت پوسیده می شود (با سفارش از1 /n 3 ، جایی که n تعداد نمونه های آموزش است) [6]. این تجزیه و تحلیل ممکن است توانایی جذاب شبکه های عصبی را برای بیش از حد و تعمیم در همان زمان توضیح دهد.
در یک زمینه متفاوت ، نشان داده شد که با استفاده از تئوری نمونه برداری ، ممکن است استحکام شبکه ها به ورودی آنها بهبود یابد. به طور خاص ، در وظیفه تصویر فوق العاده با وضوح تصویر ، شبکه های عصبی عملکرد قابل توجهی در کیفیت تصاویر تولید شده به دست آوردند. با این حال ، به طور معمول ، شبکه ها به شدت به نحوه ورود تصاویر با وضوح پایین در ابتدا به صورت زیر نمونه متکی بودند. به طور خاص ، بیشتر آنها تصور می کردند که آنها توسط یک نمونه برداری از دوقلوها تولید شده اند. اگر آنها تصویری دریافت کنند که با یک هسته متفاوت نمونه برداری شده است ، نتایج آنها به میزان قابل توجهی تخریب می شود. با استفاده از اصول تئوری نمونه گیری ، نشان داده شد که با استفاده از یک اصلاح ساده هسته بر روی تصویر ورودی ، کیفیت بازسازی به طرز چشمگیری بهبود یافته است [7].
برنامه ریزی خطی و قضایای نماینده. شبکههای عصبی مدلهای ناپارامتریکی هستند که از تقریب جهانی در کلاس توابع پیوسته بهره میبرند، مانند بازتولید فضاهای هیلبرت هسته. بنابراین، برازش چنین شبکههای عصبی روی مجموعه داده محدودی از n نقطه داده در بعد d، به طور طبیعی دو رژیم مجزا را تعریف میکند: رژیم بیشپارامتری (مثلاً کمتر از پارامتر)، مربوط به تنظیم زمانی که تعداد نورونها بزرگتر (و یا کوچکتر) از تعداد باشد. از نقاط دادهچندین نویسنده به پدیده قابل توجهی در اطراف این انتقال اشاره کردند، مانند به اصطلاح نزول دوگانه [8، 9، 10، 11]، که منجر به پارادوکس ظاهری داشتن قابلیت های تعمیم خوب حتی با افزایش تعداد نورون ها به طور نامحدود می شود [8].
یک فرضیه احتمالی که از این رفتار حمایت میکند، از تنظیم ضمنی ساخته شده با روشهای نزولی گرادیان در حل کمینهسازی تجربی ریسک ناشی میشود. کاهش وزن یک استراتژی منظم سازی رایج است که L مربع را جریمه می کند2هنجار وزن نوروندر زمینه شبکه های کم عمق ReLU، مسئله آموزشی حاصل را می توان بر حسب اندازه گیری احتمال بر روی پارامترهای نورون فرموله کرد [5، 12]، که منجر به یک برنامه محدب منظم و پراکنده در یک فرهنگ لغت "پیوسته" φ می شود.θ ; θ ∈ Θ>، جایی که Θ ⊆ R d فضای پارامترهای نورون و φ استθ(x) = یک نورون منفرد است. نتایج کلاسیک از هندسه محدب بیان میکند که چنین برنامههای محدبی راهحلهای پراکنده با حداکثر n اتم را میپذیرند [13، 14، 15]، به اصطلاح قضیه نماینده. در واقع، اخیراً [16] نشان دادهاند که تمام راهحلهای این برنامه پراکنده هستند، بنابراین صرف نظر از مقدار بیشپارامتریسازی، تنها تعداد محدودی از نورونها به وجود میآید. به عبارت دیگر، آموزش شبکههای کم عمق ReLU در رژیم بیشپارامتریشده معادل حل یک برنامه خطی در بعد محدود است که توسط آرایش ابرصفحه ایجاد شده توسط مجموعه داده هنگام شناسایی یک نقطه x∈ Rd با یک ابر صفحه در حالت دوگانه ارائه میشود. اگرچه این کاهش از نظر محاسباتی مفید نیست (از آنجایی که اندازه آرایش ابرصفحه O (nd) است)، مطالعه ویژگیهای مجموعه داده که امکان ترتیبات بسیار کوچکتر را فراهم میکند، جهت امیدوارکنندهای برای تحقیقات آینده است.
تجزیه و تحلیل طیفی/فوریه. شبکه های عمیق معمولاً برای آموزش خود به مقدار زیادی از داده های دارای برچسب نیاز دارند. با این حال ، چنین داده هایی ممکن است شامل برخی از اشتباهات در برچسب ها باشد. جالب اینجاست که نشان داده شده است که شبکه ها نسبت به چنین خطاهایی قوی هستند. با تجزیه و تحلیل فضای عملکرد شبکه های عصبی در حوزه طیفی ، توضیحی برای این استحکام ارائه شده است. به طور خاص ، نشان داده شده است که این مربوط به این واقعیت است که شبکه های عصبی تمایل به یادگیری عملکردهای صاف دارند ، یعنی توابعی که طیف آنها به سرعت پوسیده می شود [17 ، 18 ، 19 ، 20]. این مربوط به هر دو واقعیت بوده است که شبکه ها وزن هایی را که در بالا مورد بحث قرار گرفته اند و به ساختار شبکه محدود کرده اند [21]. برچسب های پر سر و صدا عمدتا بر فرکانسهای بالای عملکرد آموخته شده تأثیر می گذارد. بنابراین ، ضعف فرکانسهای زیاد در شبکه های عصبی ممکن است استحکام آنها به سر و صدا را توضیح دهد. این درک منجر به استفاده از تنظیمات طیفی برای بهبود بیشتر استحکام شبکه در برچسب نویز شده است [22].
خلاصه. ما به طور خلاصه بحث کرده ایم که چگونه ابزارهای کلاسیک پردازش سیگنال می توانند در بهبود و درک شبکه های عصبی عمیق کمک کنند. جهت های فوق فقط یک نمونه است و دستورالعملهایی وجود دارد که برای یادگیری عمیق ابزارهای دیگر از پردازش سیگنال مانند بازنمایی پراکنده استفاده می شود [23] ، مکس Affine Splines [24] ، موجک ها [25]. ما امیدواریم که دیگران در جامعه تحقیقاتی نیز به این کار تشویق شوند.