
تعداد نشریات | 43 |
تعداد شمارهها | 1,685 |
تعداد مقالات | 13,830 |
تعداد مشاهده مقاله | 32,693,669 |
تعداد دریافت فایل اصل مقاله | 12,919,658 |
روش پیشتعلیم لایهبهلایه دوسویه برای تعلیم شبکههای عصبی عمیق | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هوش محاسباتی در مهندسی برق | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 1، دوره 6، شماره 2، شهریور 1394، صفحه 1-10 اصل مقاله (283.1 K) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی فارسی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
سیده زهره سیدصالحی* 1؛ سید علی سیدصالحی2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1دانشجوی دکتری، دانشکده مهندسی پزشکی، دانشگاه صنعتی امیرکبیر، تهران، ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2- دانشیار، دانشکده مهندسی پزشکی، دانشگاه صنعتی امیرکبیر، تهران، ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
در این مقاله، یک روش پیشتعلیم دوسویه برای همگرا نمودن تعلیم شبکههای عصبی عمیق با یادگیری دیگرانجمنی ارائه شده است. تعلیم این شبکهها بهدلیل مواجه بودن با تعداد بالای کمینههای موضعی اغلب همگرا نمیگردد. این در حالی است که با مقداردهی اولیه مناسب وزنهای شبکه، میتوان از بسیاری از کمینههای موضعی اجتناب نمود. روش پیشتعلیم لایهبهلایه دوسویه روشی سریع و کارا میباشد که در یک مسیر دوسویه بهطور جلوسو و عقبسو با استفاده از ورودیها و خروجیهای مطلوب شبکه، به تنظیم مقادیر اولیه وزنهای آن میپردازد. برای این منظور از تعلیم شبکههای کمکی یک لایه پنهان مبتنی بر وزنهای لایه تحت پیشتعلیم از شبکه عمیق و وزنهای کمکی استفاده میشود. سپس مقادیر وزن حاصل از تعلیم اینها در ساختار اصلی شبکه تحت پیشتعلیم قرار داده میشوند و برای تنظیم دقیق وزنها، تعلیم یکپارچه صورت میگیرد. این روش برای پیشتعلیم وزنهای سه شبکه عصبی عمیق بازشناس فرد، حالتهای احساسی و ارقام دستنوشتار مورد استفاده قرار گرفت و نشان داده شد که با بهکارگیری این روش پیشتعلیم، سرعت همگرایی تعلیم بهطور چشمگیری افزایش مییابد. همچنین میزان بازشناسیها در پایگاه دادههای چهره به میزان قابل توجهی بهبود مییابد که حاکی از افزایش قدرت تعمیم شبکه با استفاده از این روش میباشد. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
پیشتعلیم؛ دوسویه؛ دیگرانجمنی؛ ساختار عمیق؛ شبکههای عصبی چند لایه؛ همگرایی تعلیم | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
در چند سال اخیر با توجه به شواهد موجود مبنی بر حضور ساختارهای عمیق در مغز انسان [1]، محققین به سمت تعلیم شبکههای عصبی چند لایه عمیق گرایش پیدا کردهاند. این ساختارها قادر به یادگیری چندین سطح بازنمایی از ورودی میباشند [2]. لذا امکان استخراج سلسلهمراتبی مؤلفهها در آنها فراهم میشود. بهگونهایکه مؤلفههای سطح بالا بهصورت ترکیبی از مؤلفههای سطح پایین در چندین سطح تشکیل میگردند [3]. این درحالیست که تعلیم معمول شبکههای با بیش از دو لایه پنهان، اغلب به نتایج ضعیفی منجر میشود. بهطوریکه وقتی تلاش میشود تمام لایهها از طریق یک تابع معیار مانند میزان شباهت به ورودیها یا شباهت به طبقههای مطلوب، تعلیم داده شوند نتایج ممکن است بدتر از مدلهای کم عمق باشد [4]. این بهدلیل افزایش تعداد کمینههای موضعی فعال در این ساختارها میباشد که به نوع توابع و مقداردهی اولیه پارامترهای شبکه بستگی زیاد دارند [5]. بهعبارت دیگر در تعلیم ساختارهای عمیق شبکه، با افزایش تعداد لایهها و نورونها، مشکل کمینههای موضعی محسوستر میشود [6]. لذا مقداردهی اولیه مناسب وزنهای شبکه جهت همگرا نمودن تعلیم آن ضروری بهنظر میرسد، بهطوریکه ممکن است به چندین مرحله متوالی از پیشتعلیم نیاز شود بهگونهایکه هر مرحله پیشتعلیم، بهعنوان پیشنیاز برای مرحله تعلیم بعدی، بهمنظور عبور دادن فرایند تعلیم از موانع کمینههای موضعی موجود در میان راه، مورد نیاز باشد. بنابراین در کنار رویکرد مستقیم و معمول تعلیم یک شبکه عصبی چند لایه که از روش پسانتشار خطا استفاده میکند، رویکردهای جدیدی وجود دارند که با بالا رفتن پیچیدگی داده و تعداد نورونها، مفید واقع میشوند که تحت عنوان روشهای پیشتعلیم مطرح هستند [7،8]. اساساً روشهای پیشتعلیم با هدف رهاسازی فرآیند تعلیم از کمینههای موضعی موجود در میان راه بهعنوان یک مانع اساسی در روند آموزش، مورد استفاده قرار میگیرند. این روشها بهدنبال یافتن نقطه شروع مناسبی برای وزنهای شبکه میباشند. روشهای پیشتعلیم علاوه بر اینکه فرایند همگرایی تعلیم را تسهیل و تسریع میکنند، قدرت تعمیم شبکه را نیز بهبود میدهند. در [2,9] نشان داده شده است که با خطای تعلیم مساوی، شبکهای که قبل از تعلیم، مقداردهی اولیه مناسب شده است، خطای آزمون پایینتری دارد. بهعبارتی پیشتعلیم، پارامترهای شبکه را وادار میکند تا در منطقهای از فضای پارامترها که جواب مطلوب در آن است، قرار بگیرند [2,10,11]. یکی از روشهای موجود جهت پیشتعلیم شبکههای عمیق روش مشرف به هدف میباشد. این روش اولین بار جهت تعلیم شبکههای عصبی عمیق در [12] برای استخراج مؤلفههای اساسی غیرخطی استفاده شد و سپس در [14 ,13] نیز بهکار رفت. در این روش ابتدا شبکه عصبی مورد استفاده یک شبکه عصبی گلوگاه[1] (BNN) یک لایه پنهان فرض میشود که در طی آموزش، به عمق آن افزوده میشود. در هر مرحله از رشد تعداد لایهها و عمق شبکه، مقادیر تعلیمیافته وزنهای شبکه کمعمقتر قبلی، بهعنوان مقادیر اولیه پیشتعلیمیافته برای شبکه عمیقتر مرحله بعد مورد استفاده قرار میگیرند. بدین طریق مقادیر اولیه وزنهای شبکه عصبی عمیقتر نسبت به مقادیر مطلوب نهایی آنها در وضعیتی قرار میگیرند که به آنها نزدیکتر و بهعبارتی مشرف به هدف نهایی باشند. نشان داده شده است که این روش قادر به برطرف کردن کمینههای موضعی در مسیر شبکههای عصبی جلوسوی عمیق میباشد. در سال 2006، هینتون[2] روش تجزیه به ماشینهای بولتزمان محدود شده[3] (RBM) را برای پیشتعلیم شبکههای عصبی چند لایه بهمنظور کاهش بعد غیرخطی ارائه داد. در این روش شبکه چندلایه به تعداد متناظری RBM شکسته میشود و پیشتعلیم وزنها از طریق این RBMها صورت میگیرد [15]. در [8،9] نیز روش پیشتعلیم لایهبهلایه برای پیشتعلیم شبکههای خودانجمنی گلوگاه عمیق بهمنظور استخراج مولفههای اساسی آورده شده است که در این مقاله نسخه دوسویه آن برای پیشتعلیم شبکههای عصبی عمیق با کاربردهای دیگرانجمنی ارائه شده است. با توجه به اینکه روشهای پیشتعلیم موجود برای یادگیریهای خودانجمنی ارائه شدهاند، این روش بهعنوان راهحلی نو برای یادگیری دیگرانجمنی شبکههای عصبی عمیق میباشد. روش پیشتعلیم لایهبهلایه دوسویه که حالت کلیتری از روش پیشتعلیم لایهبهلایه [9] است، بهعنوان یک روش پیشتعلیم باسرپرستی با انتخاب مناسب شرایط اولیه، الگوریتم پسانتشار خطا را در جهت رسیدن به کمینه مطلوب کمک میکند. روش ارائه شده برای پیشتعلیم شبکههای عصبی عمیق با هدف بازشناسی تصاویر مورد ارزیابی قرار گرفته است. در ادامه به معرفی روش پیشتعلیم لایهبهلایه دوسویه پرداخته میشود. سپس در بخش سوم پیادهسازیها و نتایج آنها آورده شده است. در نهایت جمعبندی و نتیجهگیری در بخش چهارم ارائه میشود.
1- روش پیشتعلیم لایهبهلایه دوسویهشبکههای عصبی با ساختار عمیق با استفاده از لایههای متعددی از نورونها، ظرفیت یادگیری تبدیلات غیرخطی چندمرحلهای و پیچیده را دارا هستند. اما همانطورکه عنوان شد با افزایش تعداد لایههای شبکههای عصبی، همگرا نمودن تعلیم آنها توسط الگوریتم پسانتشار خطا بهدلیل وجود کمینههای موضعی، مشکل و گاهاً غیرممکن میشود. حال اگر بتوان بهطریقی تعداد کمینههای موضعی ممکن را در مسیر تعلیم شبکه محدود نمود، همگرائی بهبود مییابد. باید توجه داشت که شبکههای عصبی عمیق درصورتی قادر به تولید خروجیها با دقت مطلوبی میباشند که بتوانند در تجزیه و تحلیل اطلاعات ورودی در لایههای مختلف، اتلاف اطلاعات نداشته باشند. لذا لازم است ورودیهای متفاوت را در لایههای مختلف خود، بهصورت متمایزی بیان نمایند. درصورتیکه دو نمونه متمایز از دادههای ورودی، در لایههای شبکه با یک بیان واحد و غیرمتمایز از یکدیگر بازنمایی شوند، آنگاه تبدیل غیرخطی ورودی تا این لایه، نتوانسته برای این نمونهها بهصورت یکبهیک و متمایزگرانه عمل نماید. لذا بخشی از اطلاعات ورودی از دست رفته است. در مورد شبکههای عصبی عمیقی که در نورونهای آنها از تابع فعالیت پلهای استفاده شده باشد، با توجه به اینکه هر یک از این نورونها در فضای ورودی خود یک ابرصفحه ایجاد مینمایند، قادر خواهند بود که نمونههای ورودی را در دو طبقه متمایز در خروجی آن نورون تفکیک نمایند. چنین شبکههایی در یادگیری نمونهها، برای اینکه قادر باشند تمامی نمونههای متمایز را در خروجی بهصورت متفاوت بیان نمایند، لازمهاش آن است که در همه لایهها، تمامی نمونههای غیرهمطبقه، با کدهای متمایزی بیان شده باشند. برای اینمنظور ضروریست که در فضای ورودی، مابین هر دو نمونه غیرهمطبقه، حداقل یک ابرصفحه عبور نماید و همین وضعیت در تمامی لایههای بعدی شبکه نیز ادامه یابد. به این معنی که در تمامی لایهها بایستی بهازای هر طبقه یک ناحیه مجزا توسط ابرصفحات آن لایه شکل گرفته باشد تا در هیچ لایهای دو نمونه مجزا با یک بیان واحد ارائه نشوند و کاهش بعد در اطلاعات متمایزگر صورت نگیرد. به بیان دیگر هنگام تعلیم شبکههای عصبی عمیق توسط الگوریتم پسانتشار خطا، کمینههای موضعی که در مسیر همگرایی یادگیری شبکه مانع ایجاد میکنند، غالباً ناشی از قرار نگرفتن ابرصفحات نورونها در لایههای مختلف، در محل مطلوب از نظر تمایزدهی نمایش الگوها در لایههای متوالی میباشند. در نتیجه این مطلب است که در خروجی نیز تمایزدهی الگوها تا حد زیادی کاهش مییابد. در روش پیشتعلیم لایهبهلایه دوسویه با قرار دادن مرحلهبهمرحله ابرصفحات نورونها در محل مناسب برای حفظ تمایزدهی در لایهها، از ایجاد مشکل فوق جلوگیری میشود. لذا میتوان با شکستن مسئله پیچیده یادگیری شبکههای عصبی عمیق به چند زیرمسئله یادگیری شبکه با ساختارهای سادهتر و حل مسئله همگرائی آنها و سپس استفاده از آنها بهعنوان مقادیر اولیه برای شبکه عصبی عمیق، تعلیم خروجی مطلوب را برای شبکه ساده نمود. در این روش مستقیماً از اطلاعات ورودی و خروجی مطلوب در تنظیم اولیه وزنهای شبکه عمیق استفاده میشود. مقادیر اولیه وزنهای لایههای مختلف مبتنی بر ورودی یا خروجی برحسب اینکه آن لایه به کدام نزدیکتر باشد، تعیین میشوند. در این مراحل با توجه به اینکه شبکههای یک لایه پنهان تعلیم داده میشوند، تعلیم سریع و نقش کمینههای موضعی کمرنگتر است. این روش پیشتعلیم، وزنهای اولیه شبکه عصبی عمیق را به موقعیتی منتقل میکند که از بسیاری از کمینههای موضعی ممکن رهیده باشد. از این طریق وزنهای نورونهای لایههای مختلف شبکه از یک روش پیشتعلیم نسبتاً کارآیی بهرهمند میشوند. باید در نظر داشت که این روش پیشتعلیم لایهبهلایه برای هر شبکه جلوسو با هر تعداد لایه پنهان قابل استفاده است. میتوان نشان داد که روش ارائه شده برای پیش تعلیم وزنها روش بسیار کارآیی است. در روش پیشتعلیم لایهبهلایه دوسویه، اگر شبکه عمیق مطابق شکل (1) داری 2n لایه وزن باشد، تجزیه ساختار آن بهطور موازی از ابتدا و انتهای بهترتیب بهطور جلوسو و عقبسو صورت میگیرد. به اینصورت که در مسیر جلوسو BNNهای یک لایه پنهانی تعریف میشوند که وزنهای ورودی آنها (Wiها) بیانگر وزنهای لایه موردنظر از شبکه عمیق باشند. وزنهای خروجی آنها (Viها) نیز وزنهای کمکی هستند که برای تعیین Wiها مورد استفاده قرار میگیرند. در این مسیر، BNN اول با بردار ورودی و BNNهای بعدی با تصویر بردار ورودی BNN قبلی در لایه گلوگاه آنها آموزش داده میشوند. در مسیر عقبسو نیز BNN اول با بردار خروجی و BNNهای بعدی با تصویر بردار ورودی BNN قبلی در لایه گلوگاه آن آموزش داده میشوند. برخلاف BNNهای مسیر جلوسو، در مسیر عقبسو، وزنهای خروجیBNNها در ساختار شبکه عمیق استفاده خواهند شد.
شکل (1): نحوه تجزیه یک شبکه عصبی عمیق در روش پیشتعلیم لایهبهلایه دوسویه
برای پیشتعلیم با روش لایهبهلایه دوسویه برای تعیین مقادیر وزنها در مسیر جلوسو، توابع هزینه محلی بر مبنای بازسازی صحیح ورودی شبکه عصبی عمیق و در مسیر عقبسو مبتنی بر بازسازی خروجی مطلوب آن تعریف میشوند.
و در رابطههای (1) و (2) بهترتیب خطای خودانجمنی BNNهای iام و jام در مسیر جلوسو و عقبسو میباشند که برابر با خطای بازسازی ورودی در لایه خروجی تعریف شدهاند. در این روابط و تصویر ورودی BNNهای (i-1)ام و (j-1)ام در دو مسیر مطابق روابط (3) و (4) در لایه گلوگاه آنها میباشند.
همچنین ، بردار ورودی BNN اول در مسیر جلوسو، برابر با همان بردار ورودی شبکه عصبی عمیق و ، بردار ورودی BNN اول در مسیر عقبسو، برابر با بردار L خروجی مطلوب شبکه عصبی عمیق میباشند. و نیز که خروجیهای BNN iام و jام در مسیر جلوسو و عقبسو میباشند، در روابط (5) و (6) تعریف شدهاند.
در روابط فوق b مقدار سطح آستانه را برای تابع فعالیت نورونها تعیین میکند. این روند تا وزنهای n-1ام از مسیر جلوسو و وزن n+2ام از مسیر عقبسو ادامه مییابد. سپس تصویر ورودیها در لایه گلوگاه دو BNN آخر از دو مسیر محاسبه و جهت تعلیم یک شبکه دیگرانجمنی یک لایه پنهان متشکل از وزنهای Wn و Wn+1 مورد استفاده قرار میگیرند. بدینصورت مقادیر اولیه تمام وزنهای شبکه عمیق بهدست میآید که تعلیم آنها مبتنی بر الگوریتم پسانتشار خطا صورت میگیرد. بعد از انجام مراحل پیشتعلیم، وزنهای بهدست آمده بهعنوان وزنهای اولیه در ساختار شبکه عصبی عمیق یکپارچه منظور شده و به کمک عملیات پسانتشار خطا مقادیر دقیقتر ماتریسهای وزن شبکه بدست میآید.
2- پیادهسازیها و نتایجدر این بخش به ارزیابی روش پیشتعلیم لایهبهلایه دوسویه، بهمنظور تنظیم اولیه مناسب وزنهای شبکههای عصبی عمیق دیگرانجمنی، پرداخته میشود. بدینمنظور کارآیی آن در تعلیم شبکههای عصبی طبقهبندیکننده عمیق با هدف بازشناسی در چند پایگاه داده مختلف بررسی میگردد. لذا در ادامه سه پایگاه داده مورد استفاده معرفی میشوند.
2-1- پایگاه دادهها2-1-1- پایگاه داده بسفروس[4]پایگاه داده بسفروس [16] شامل تصاویر سه بعدی و دوبعدی از چهره 105 سوژه میباشد که در دانشگاه بگازیسی[5] ترکیه جمعآوری شده است. این پایگاه داده شامل مجموعهای غنی از حالات چهره، چرخش سر و انواع مختلف انسداد میباشد که مجموعه مربوط به حالات مختلف چهره برای ارزیابی در این مقاله مورد استفاده قرار گرفته است. شکل (2) این حالتها را برای یکی از افراد نشان میدهد.
شکل (2): تصاویر مربوط به حالتهای مختلف چهره برای یکی از افراد از پایگاه داده بسفروس [16].
تصاویر 95 نفر از این مجموعه بهطور تصادفی جهت بررسی انتخاب شد. این تصاویر بهصورت سیاه و سفید با 256 سطح خاکستری مورد استفاده قرار گرفت. همچنین جهت کاهش بار محاسبات وضوح این تصاویر به 114*92 کاهش داده شد. در این تحقیق، این پایگاه داده برای بازشناسی چهره استفاده شده است. از آنجا که تعداد تصاویر مربوط به حالات مختلف چهره در آن برای تمام افراد یکسان نمیباشد، تصاویر مربوط به 12 حالت مشترک بین تمام افراد برای آموزش و سایر تصاویر برای آزمون کنار گذاشته شد. در نهایت مجموعههای آموزش و آزمون بهترتیب شامل 1126 و 1443 تصویر شدند. برچسب افراد نیز بهصورت کدهای دودوئی 7تایی که بیانگر 95 کد مختلف معرف هویت افراد میباشند، تعریف شد.
2-1-2- پایگاه داده CK+پایگاه داده CK+ توسعهیافته پایگاه داده کوهن-کند[6] میباشد [17]. در پایگاه داده کوهن-کند دنبالهای از تصاویر برای 6 حالت احساسی افراد موجود است که از حالت خنثی تا حالت موردنظر تغییر میکنند. این حالتهای احساسی شامل حالتهای شاد، متعجب، خشمگین، ترسیده، متنفر و ناراحت میباشند. همچنین برای هر تصویر چهره، برداری از نشانهها وجود دارد که میتوان از آن برای تراز کردن چهرهها استفاده نمود. در این مقاله چهرهها طوری تراز شدهاند که چشمها در یک راستای افقی قرار بگیرند. اطلاعات اضافه اطراف تصاویر نیز بهنحوی حذف شده است که همه جزییات مهم در تصویر موجود باشند. در نهایت ابعاد همه تصاویر به 50×50 تبدیل شدند. در شکل (3) نمونههایی از تصاویر این پایگاه داده برای حالتهای احساسی مورد استفاده آورده شدهاند.
شکل (3): نمونههایی از تصاویر پایگاه داده کوهن-کند برای حالتهای احساسی مختلف بعد از تراز نمودن چهرهها و حذف اطلاعات اضافه اطراف تصاویر
همچنین تصاویر نیمه اول هر یک از این دستهها حذف شدند، تا تصاویری که واقعاً نمایانگر حالت احساسی مربوطه هستند، نگه داشته شوند. در این مقاله، این پایگاه داده برای بازشناسی حالتهای احساسی استفاده شده است. لذا تصاویر به دو دسته تقسیم شدهاند. مجموعه آموزش، تصاویر مربوط به 96 نفر (2816 تصویر) میباشد که جهت آموزش شبکه عصبی عمیق بازشناس استفاده میشود. تصاویر مربوط به 10 نفر باقیمانده (351 تصویر) نیز برای آزمون بهکار میروند. برچسب حالتهای احساسی نیز بهصورت کدهای دودوئی 4تایی که معرف حالت چهره افراد میباشند، تعریف شدهاند.
2-1-3- پایگاه MNISTاین پایگاه شامل ارقام دستنوشتار 0 تا 9 انگلیسی میباشد که تصویر هر رقم آن بهصورت یک تصویر خاکستری 28*28 پیکسل ذخیره شده است. مجموعه آموزش آن شامل 60000 تصویر و مجموعه آزمون حاوی 10000 تصویر میباشد [18]. برچسبهای تعریف شده در این مقاله نیز کدهای دودوئی 3تایی بیانکننده عدد میباشند.
2-2- پیشپردازشهر تصویر بهصورت یک آرایه دو بعدی M×N از مقادیر روشنایی در نظر گرفته میشود. اما از آنجاکه در ورودی شبکه، این آرایه باید بهصورت یک بعدی ارائه شود، هر تصویر به یک بردار MN×1 تبدیل میشود. همچنین مقادیر پیکسلهای هر تصویر چهره به محدوده صفر تا یک بهنجار میشوند.
2-3- مدلساختار شبکه عصبی طبقهبندیکننده عمیق، جهت بازشناسی در سه پایگاه داده معرفی شده، در جدول (1) آورده شده است. این شبکه یک شبکه با سه لایه پنهان میباشد که ورودی آن مقادیر روشنایی پیکسلهای تصاویر و خروجی آن برچسبهای تعریف شده متناظر میباشند. این شبکه برای هر مجموعه داده بهصورت جداگانه تعلیم داده میشود و نتایج آن ارزیابی میگردد. برای نشان دادن کارآیی روش پیشتعلیم لایهبهلایه دوسویه، ابتدا مقادیر اولیه تصادفی برای وزنها قرار داده میشود و تعلیم صورت میگیرد. در مرحله بعد، با استفاده از روش پیشتعلیم پیشنهادی، مقادیر اولیه وزنها تعیین و سپس شبکه تعلیم داده میشود.
جدول (1): پارامترهای شبکه عصبی عمیق بازشناس[7] (DCNN)
2-4- روش پیشتعلیم لایهبهلایه دوسویه برای پیشتعلیم شبکه عمیق بازشناسمطابق روش ارائه شده در بخش (2)، این شبکه عمیق به دو BNN تک لایه و یک شبکه دیگرانجمنی یک لایه پنهان شکسته میشود. یکی از BNNها با بردار پیکسلها و دیگری با بردار کدهای دودوئی که بهعنوان برچسبهای متناظر تعریف شدهاند، بهطور خودانجمنی تعلیم داده میشوند. تعداد تکرارهای تعلیم نیز در هر مرحله پیشتعلیم، برای دادگان چهره شامل تصاویر پایگاه دادههای بسفروس و CK+ 500 تکرار و برای دادگان دستنوشتار با توجه به حجم بالای دادگان، 10 تکرار فرض شده است. چراکه تعلیم بیش از اندازه در مراحل پیشتعلیم منجر به تنظیم بیش از حد وزنها روی دادگان آموزش میگردد که در نتیجه آن قدرت تعمیم شبکه عمیق پایین خواهد آمد. سپس تصویر ورودیها در لایه پنهان هر BNN محاسبه و جهت تعلیم شبکه دیگرانجمنی یک لایه پنهان مورد استفاده قرار میگیرند. بدینصورت مقادیر اولیه تمام وزنهای شبکه عمیق بهدست میآیند.
2-5- نتایجنمودار شکل (4)، تغییرات خطای تعلیم را برای دو شبکه عمیق بازشناس فرد، یکی با مقداردهی اولیه تصادفی و دیگری با مقداردهی اولیه توسط روش پیشتعلیم پیشنهادی، روی پایگاه داده بسفروس نشان میدهد. همانطور که مشاهده میشود با تنظیم اولیه مناسب وزنهای شبکه بهجای قرار دادن مقادیر تصادفی برای آنها، سرعت همگرایی تعلیم بهطور چشمگیری افزایش مییابد.
شکل (4): نمودار تغییرات خطای تعلیم شبکه عمیق بازشناس فرد با دو روش مقداردهی اولیه وزنها بهصورت تصادفی و با استفاده از پیشتعلیم لایهبهلایه دوسویه روی پایگاه داده بسفروس
بهگونهایکه در همان تکرارهای اولیه به مقدار کمینه خود میرسد. برای شبکه با مقداردهی تصادفی (با توجه به روند کاهشی خطای تعلیم) وزنهای آخرین تکرار تعلیم و برای شبکه پیشتعلیم شده وزنهای تکرار 40ام (بعد از آن خطای تعلیم ثابت مانده است.) برای بازشناسی افراد در داده آزمون بهکار رفت.
جدول (2): مقایسه درصد صحت بازشناسی افراد در پایگاه داده بسفروس توسط شبکه عصبی سه لایه پنهان بعد از تنظیم دقیق وزنها
نتایج جدول (2) نشان میدهد که با استفاده از این روش پیشتعلیم، نتایج بازشناسی فرد برای دادگان آزمون حدود 11% بهبود یافته است. قابل توجه است که نتیجه حاصل از شبکه پیشتعلیم شده مربوط به تکرار 40ام تعلیم میباشد که با لحاظ نمودن مراحل پیشتعلیم که شامل تعلیم 3 شبکه یک لایه پنهان با 500 تکرار تعلیم برای هریک میباشد، در مقایسه با 5000 تکرار تعلیم شبکه مقداردهی شده تصادفی مقدار کمتری است. خصوصاً اینکه در مراحل پیشتعلیم شبکههای یک لایه پنهان تعلیم داده میشوند که مدت زمان تعلیم آنها در هر تکرار در مقایسه با تعلیم شبکه سه لایه پنهان بسیار کمتر میباشد. در نمودار شکل (5) و جدول (3) نتایج روی پایگاه داده CK+ با هدف بازشناسی حالت احساسی در تصاویر چهره آورده شده است. همانطور که در نمودار شکل (5) مشاهده میشود، در نمودار خطای شبکه با مقادیر اولیه تصادفی بعد از تکرار 2500ام تعلیم، کاهش معناداری صورت نمیگیرد. لذا وزنهای این مرحله برای شبکه بازشناس حالت استفاده میشود. برای شبکه پیشتعلیم شده نیز وزنهای تکرار 90ام تعیلیم بهکار رفته است.
شکل (5): نمودار تغییرات خطای تعلیم شبکه عمیق بازشناس حالت احساسی چهره با دو روش مقداردهی اولیه وزنها بهصورت تصادفی و با استفاده از پیشتعلیم لایهبهلایه دوسویه روی پایگاه داده CK+
نتایج بازشناسی در جدول (3) نشان میدهند که استفاده از روش پیشتعلیم لایهبهلایه دوسویه برای مقداردهی اولیه وزنهای شبکه بازشناس، درصد صحت بازشناسی حالت را 14% بهبود میدهد.
جدول (3): مقایسه درصد صحت بازشناسی حالتهای احساسی توسط شبکه عصبی سه لایه پنهان بعد از تنظیم دقیق وزنها روی پایگاه داده CK+
در مورد پایگاه داده ارقام دستنوشتارMNIST با توجه به تعداد زیاد نمونهها، تعداد تکرارهای تعلیم در مراحل پیشتعلیم 10 تکرار در نظر گرفته شد. آزمایشات نیز نشان داد که بعد از این تعداد، خطا در مراحل پیشتعلیم برای این داده بهبود نمییابد. در نمودار شکل (6) تغییرات خطای تعلیم شبکه عمیق بازشناس ارقام در مرحله تنظیم دقیق وزنها، برای دو روش مقداردهی اولیه وزنها بهصورت تصادفی و با استفاده از پیشتعلیم لایهبهلایه دوسویه آورده شده است.
شکل (6): نمودار تغییرات خطای تعلیم شبکه عمیق بازشناس ارقام روی پایگاه داده ارقام دستنوشتار با دو روش مقداردهی اولیه وزنها بهصورت تصادفی و با استفاده از پیشتعلیم لایهبهلایه دوسویه
در جدول (4) خطای بازشناسی ارقام برای دو روش مقداردهی اولیه وزنهای شبکه مشاهده میشود. برای دادگان دستنوشتار بهبودی در بازشناسی ارقام توسط شبکه پیشتعلیم شده حاصل نشده است. میتوان عنوان نمود که مشکل کمینههای موضعی در روند یادگیری شبکههای عمیق در مسائل پیچیده نظیر چهره و حالت چهره بروز جدیتری پیداد میکند، لذا استفاده از پیشتعلیم مناسب در روند تعلیم، کارآیی خود را بیشتر نشان میدهد. اما برای ارقام دستنوشتار با توجه به سادهتر بودن تکلیف یادگیری، شبکه مقداردهی شده با وزنهای اولیه تصادفی، نتیجه مطلوبی دارد بهگونهایکه پیشتعلیم در نتایج نتوانسته بهبود معناداری ایجاد نماید. البته باید عنوان نمود که نتیجه حاصل از شبکه با پیشتعلیم سه برابر سریعتر حاصل شده است. خصوصاً اینکه مراحل پیشتعلیم آن کوتاه بوده است.
جدول (4): مقایسه درصد صحت بازشناسی ارقام دستنوشتار توسط شبکه عصبی سه لایه پنهان بعد از تنظیم دقیق وزنها
3- نتیجهگیریدر برخی موارد شبکههایی با یک یا دو لایه پنهان در نگاشت داده ورودی به فضای خروجی موفق عمل نمیکنند. چراکه برای دادههای پیچیدهتر با بعد بالا مانند تصاویر چهره تبدیل ناگهانی ویژگیهای داده ورودی به خروجی که میتواند برچسب طبقات ورودی باشند، خطای شبکه را به میزان قابل توجهی افزایش میدهد. لذا نیاز به ساختارهای عمیقتر شبکههای عصبی میباشد تا در طی لایههای متعدد مؤلفههای عمیقتر دادهها استخراج شوند و سپس به کمک آنها نگاشت مناسب به خروجی صورت گیرد. این در حالی است که با افزایش تعداد لایههای شبکههای عصبی، همگرائی تعلیم آنها بهدلیل افزایش کمینههای موضعی با مشکل مواجه میشود. بهمنظور حل این مشکل تاکنون برخی روشها برای پیشتعلیم ساختارهای عمیق شبکههای عصبی در کاربردهای خودانجمنی ارائه شدهاند. اما در این مقاله روش پیشتعلیم لایهبهلایه دوسویه جهت مقداردهی مناسب وزنهای اولیه شبکههای چندلایه با عملکرد دیگرانجمنی ارائه شده است که بهطور موازی در یک مسیر دوسویه بهطور جلوسو و عقبسو به پیشتعلیم وزنهای شبکه میپردازد. این روش برخلاف روشهای پیشتعلیم پیشین [9,14] که صرفاً برای شبکههای عصبی خودانجمنی تعریف شده بودند، برای کاربردهای دیگرانجمنی شبکههای عصبی عمیق ارائه شده است. این روش برای پیشتعلیم وزنهای سه شبکه عصبی عمیق بازشناس فرد، طبقهبندیکننده حالتهای احساسی و بازشناس ارقام دستنوشتار مورد استفاده قرار گرفت و نشان داده شد که با بهکارگیری این روش پیشتعلیم سرعت همگرایی تعلیم بهطور چشمگیری افزایش مییابد. همچنین میزان بازشناسی در پایگاه دادههای چهره به میزان قابل توجهی بهبود مییابد که حاکی افزایش قدرت تعمیم شبکه با استفاده از این روش پیشتعلیم میباشد. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[1] Serre, T., Kreiman, G., Kouh, M., Cadieu, C., Knoblich, U., and Poggio, T., "A quantitative theory of immediate visual recognition", Progress in Brain Research, Computational Neuroscience: Theoretical Insights into Brain Function, Vol. 165, pp. 33–56, 2007. [2] Erhan, D., Manzagol, P.A. Bengio, Y. Bengio, S. Vincent, P. "The difficulty of training deep architectures and the effect of unsupervised pre-training", In Proceedings of the Twelfth International Conference on Artificial Intelligence and Statistics (AISTATS’09), pp. 153-160, 2009. [3] Bengio, Y., "Learning deep architectures for AI", Foundations and Trends® in Machine Learning, Vol, 2, No. 1, pp. 1-127, 2009. [4] Erhan, D., "Understanding deep architectures and the effect of unsupervised pre-training’, Ph.D. Thesis, Université de Montréal, 2011. [5] Bengio, Y., "Evolving culture vs local minima", arXiv preprint arXiv: 1203.2990, 2012. [6] Plath, N., "Extracting low-dimensional features by means of deep network architectures", Ph.D. Thesis, Technische Universität Berlin, April 2008. [7] Seyyedsalehi S.Z. and Seyyedsalehi S.A., "Simultaneous learning of nonlinear manifolds based on the bottleneck neural network", Neural Processing Letters, Vol. 40, No. 2, pp. 191-209. 2014. [8] Seyyedsalehi S.Z. and Seyyedsalehi S.A., "New fast pre-training method for training of deep neural network", International Journal of Signal and Data Processing, Vol. 10, No. 1, pp. 13–26, 2013. [9] Seyyedsalehi S.Z. and Seyyedsalehi S.A., "New fast pre-training method for training of deep neural network learning", in Proc. 19th ICBME, 2012. [10] Bengio, Y., Lamblin, P., Popovici, D., and Larochelle, H., "Greedy layer-wise training of deep networks", Advances in neural information processing systems 19 (NIPS'06), pp. 153-160, MIT Press, 2007. [11] Erhan, D., Bengio, Y., Courville, A., Manzagol, P.A., Vincent, P., Bengio, S., "Why does unsupervised pre-training help deep learning?", The Journal of Machine Learning Research, Vol. 11, pp. 625-660, 2010. [12] Nejadgholi I., Seyyedsalehi S.A., "Experiments towards bidirectional neural networks", Technical Report, Research Center of Intelligent Signal Processing, 2004. [13] Ghasemi M., "Nonlinear independent component analysis of Speech signal", M.S. Thesis, Amirkabir University of Technology, 2006. [14] Nejadgholi I., "A brain-inspired model of feature extraction and binding considering their interactions", Ph.D. Thesis, Amirkabir University of Technology, 2012. [15] Hinton, G.E. and Salakhutdinov, R.R., "Reducing the dimensionality of data with neural networks", Science, Vol. 313, No. 5786, pp. 504–507, 2006. [16] Savran, A., Alyüz, N., Dibeklioğlu, H., Çeliktutan, O., Gökberk, B., Sankur, B., Akarun, L., "Bosphorus Database for 3D Face Analysis", BIOID 2008, Roskilde University, Denmark, May 2008. [17] Lucey, P., et al. "The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression", in Computer Vision and Pattern Recognition Workshops (CVPRW), 2010 IEEE Computer Society Conference on. 2010. IEEE. [18] LeCun, Y. and Cortes, C., "The MNIST database of handwritten digits", 1998.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 1,415 تعداد دریافت فایل اصل مقاله: 1,375 |