تعداد نشریات | 42 |
تعداد شمارهها | 1,537 |
تعداد مقالات | 12,640 |
تعداد مشاهده مقاله | 26,038,254 |
تعداد دریافت فایل اصل مقاله | 10,698,164 |
تشخیص خودکار پلاک خودروها با استفاده از شبکۀ عصبی کانولوشنی بهبودیافته | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هوش محاسباتی در مهندسی برق | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقالات آماده انتشار، اصلاح شده برای چاپ، انتشار آنلاین از تاریخ 04 مهر 1402 اصل مقاله (1.44 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی فارسی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/isee.2023.135661.1595 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
فریبا سلیمان زاده راسته؛ سارا معتمد* | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
گروه کامپیوتر، واحد فومن و شفت، دانشگاه آزاد اسلامی، فومن، ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
طبق آمار، امروزه بیش از نیم میلیارد خودرو در جهان در حال حرکتند. تمام خودروها یک پلاک بهعنوان شناسه اصلی خود دارند که یکی از مناسبترین ابزارهای احراز هویت خودرو است. تشخیص خودکار پلاک خودرو میتواند در بهبود امنیت جادهای، کاهش ترافیک و زمان سفر، افزایش کارآیی حمل و نقل عمومی، پیشگیری از سرقت خودرو و همچنین، بسیاری دیگر از کاربردها مؤثر باشد. روشهای سنتی ارائهشده برای آشکارسازی پلاک خودرو عمدتاً مبتنی بر استخراج ویژگیهای دستی بوده و قابلیت تعمیم به مؤلفههای متغیر تصاویر در شرایط مختلف را نداشتند. با پیشرفتهای اخیر در حوزۀ یادگیری عمیق، الگوریتمهایی به وجود آمدند که میتوانند علاوه بر یادگیری ساختارهای پیچیده تصاویر، بازنمودهای سطح بالایی از تصویر را بهصورت خودکار از دادهها استخراج کنند. در این راستا، در این مقاله از ظرفیت بالای شبکههای عصبی عمیق در یادگیری شناسههای پلاک استفاده شده است. مدل پیشنهادی این مقاله دارای دو مرحله برجستهسازی پلاک خودرو و خواندن شناسه است. برای برجستهسازی از ترکیب شبکه عصبی کانولوشنی (CNN) و شبکه مولد رقابتی(GAN) در شبکه کدگذار-کدگشا استفاده شده است. مدل پیشنهادی روی دو مجموعه داده FZU Cars و Stanford Cars ارزیابی شد و براساس نتایج حاصل از آزمایشات، مدل پیشنهادی از دقت بیشتری نسبت به روشهای پایه روی هر دو مجموعه داده برخوردار است. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
تشخیص پلاک خوردرو؛ شبکههای یادگیری عمیق؛ شبکه عصبی کانولوشنی؛ شبکه مولد رقابتی؛ ساختار کدگذار-کدگشا | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
با توجه به افزایش خودروها، کنترل و مدیریت منابع ترافیکی و وسایل نقلیه در خیابانها و پارکینگها، مکانهای اداری و جادههای میان شهری به یک مسئله حیاتی تبدیل شده است. درواقع، رشد بیرویه خودروها باعث بروز مشکلاتی ازجمله کنترل ترافیک، عوارضی بزرگراهها، مدیریت پارکینگها و غیره شده است. بدیهی است کنترل این سیل عظیم خودرو از قدرت انسان امروزی بهتنهایی و بدون استفاده از سیستمهای کامپیوتری خارج شده است [1, 2]. تمام خودروها یک شماره شناسایی خودرو بهعنوان شناسه اصلی خود دارند. شماره شناسایی یا همان پلاک خودرو یک مجوز قانونی برای خودرو است و تمام خودروها برای تردد باید این شناسه را داشته باشند. درواقع، امروزه پلاک خودرو یکی از مناسبترین ابزار احراز هویت خودرو است [3]؛ بنابراین، باید سیستمهایی وجود داشته باشد که با گرفتن تصویر از دوربینهایی که در سطح شهر، چهارراهها و بزرگراهها قرار داده شده است، پلاک خودرو را شناسایی کنند. سامانه تشخیص پلاک خودرو یک سیستم مکانیزه و کامپیوتری است که با استفاده از پردازش تصویر پلاک خودروی مدنظر را با خواندن شناسههای پلاک در قالب حروف و اعداد از روی تصاویر گرفتهشده از خودروها با استفاده از دوربینهای نظارتی تشخیص میدهد و با استفاده از آن میتوان بر بسیاری از این مشکلات فائق آمد [4, 5]. بهطورکلی، با استفادۀ مؤثر از روشهای پردازش تصویر، میتوان دقت بازشناسی را بالا برد. با توجه به اینکه دوربین، تصاویر را ضبط میکند، شرایط روشنایی در ساعت مختلف روز، وضعیت آب و هوایی و آلودگی پلاک میتوانند اثرات ناخواستهای بر ظاهر پلاک ایجاد کنند. این اثرات ممکن است تصویر را بهگونهای تغییر دهند که نتوان از روی آن بهدرستی مکان پلاک یا شناسه را تشخیص داد. همچنین، زاویه قرارگیری دوربین نسبت به افق ممکن است بهگونهای باشد که پلاکها بهصورت زاویهدار و با خطای پرسپکتیو دیده شوند [6]. عوامل یادشده بهعنوان مشکلات محیطی موجود در فرایند بازشناسی شناسه پلاک خودرو شناخته میشوند. شرایط متغیر دیگری مانند تابعیت پلاک نیز بهصورت مستقیم در رنگ، طرح پلاک و علامتهای بهکاررفته روی پلاک تأثیر دارند. تغییرات ناشی از دستکاری و تصادف در شناسههای پلاک از دیگر مشکلات در بازشناسی خودکار پلاک خودروها هستند. راه مقابله با این مشکلات بهصورت مستقیم وابسته به روش بهکاررفته است؛ اما فرایند بازشناسی پلاک خودرو بهطورمعمول در سه مرحله انجام میشود: - پیداکردن مکان پلاک خودرو در نمایی از خودرو که دوربین برداشته است. - ناحیهبندی و استخراج شناسهها و تقسیم تصویر پلاک به دو ناحیه شناسه و پسزمینه. - دستهبندی و بازخوانی شناسه. در گام نخست، هدف یافتن مکان قرارگیری پلاک در تصویر گرفتهشده از دوربین است. در این مرحله با استفاده از روشهای مختلفی مانند تراکم لبهها در محل پلاک، مکانهای نامزد شناسایی میشوند. در ادامۀ این مرحله میتوان مشکلاتی مانند زاویهدار بودن پلاک را نیز اصلاح کرد. در مرحله دوم، معمولاً ابتدا تصویر ارتقا مییابد و دودویی سازی میشود. پس از آن، با استفاده از روشهای مختلف پردازش تصویر مانند عملگرهای ریختشناسی، تصویر به دو ناحیه شناسه و پیشزمینه تقسیم و در گام سوم، هر رقم و حرف الفبا بهصورت جداگانه شناسایی میشوند [7]. نکته مهم این است که دقت هر مرحله بهصورت مستقیم در نتیجۀ نهایی تأثیر خواهد گذاشت. خطای ناشی از مکانیابی نادرست پلاک، منجر به هدررفتن زمان و محاسبات در گامهای بعدی خواهد بود. روش بهکاررفته در ناحیهبندی باید مستقل از رنگ پلاک، توانایی جداسازی پسزمینه را از شناسهها داشته باشد. همچنین، باید بتواند در شرایط نوری و محیطی مختلف، عملکرد مطلوبی داشته باشد. شرایط نوری مختلف میتواند تصویر را مات یا در بخشهایی بسیار تیره کند. برخی روشها نیز به زاویه چرخش حساساند و باید پیش از انجام ناحیهبندی، انحراف پلاک را اصلاح کنند. بهطور معمول، تصویربرداری از خودروهای در حال حرکت انجام میشود که امکان ماتشدگی تصویر بهخصوص در ناحیه پلاک را بالا میبرد؛ بنابراین، روشهای ناحیهبندی باید بتوانند در برابر چالش ماتشدگی نیز کارآمد باشند [8, 9]. پژوهشهای مختلفی برای خواندن شناسهها و تشخیص پلاک خودرو در طول زمان انجام شده است. یکی از این روشها، شبکههای عصبی پرسپترون بوده است؛ اما مسئلهای که دربارۀ این شبکهها باید در نظر گرفت، این است که توانایی یادگیری ساختارهای پیچیده در تصاویر را با دقت بالا ندارند. درمقابل شبکههای عصبی معمولی که از آنها بهعنوان شبکههای کمعمق نیز یاد میشود، ساختارهای پیچیدهتری با عنوان یادگیری عمیق مطرح میشود. شبکههای عصبی کانولوشنی یکی از این شبکهها است که در کاربردهای مختلفی مانند بازشناسی حروف، اشیا و غیره استفاده شده است. از آنجا که هرکدام از تصاویر اخذشده از دوربینها دارای مشکلات خاصیاند، استفاده از یک روش ارتقا برای کلیه تصاویر مؤثر نیست؛ برای مثال، بعضی تصاویر از برگشت شدید نور رنج میبرند، برخی دارای سایه شدید هستند و برخی لکههایی دارند که باعث محوشدگی شناسهها میشود. برای رفع هرکدام از این مشکلات ممکن است روشهای خاصی برای ارتقای تصویر کارآمد باشند. مسئله دیگر این است که روشهای ارتقای تصویر غالباً پیچیدگیهای خاصی دارند و زمانبرند [5, 9, 10]. برای تخفیف موارد فوق، پیشنهاد میشود از ظرفیت بالای شبکههای عصبی عمیق در یادگیری شناسههای پلاک استفاده شود. با آموزش تصاویر پلاک به یک شبکه عصبی عمیق، میتوان در زمان کم و بدون استفاده از روشهای پیچیده ارتقا، کار برجستهسازی شناسههای پلاک را مستقیماً انجام داد. در این راستا هدف این مقاله نیز استفاده از شبکههای یادگیری عمیق برای تشخیص پلاک خودرو است. مدل پیشنهادی این مقاله دارای دو مرحله برجستهسازی پلاک خودرو و خواندن شناسه است. در این راستا، برای برجستهسازی از ترکیب شبکه عصبی کانولوشنی و شبکه مولد رقابتی در مدل پیشنهادی استفاده میشود که دارای سه بخش کدگذار، تبدیل ویژگی و کدگشا است. لایه کدگذار تصویر دودوییشده پلاک خودرو را میگیرد و سپس در تصاویر جدید، شناسههای پلاک خودرو را برجسته میکند. هدف از برجستهسازی شناسههای خودرو، ایجاد تصویری از پلاک خودرو است که در آن شناسههای پلاک به رنگ سیاه و سایر اجزای پلاک بهعنوان پسزمینه از روی تصویر به رنگ سفید نزدیکتر میشوند. ورودی مدل پیشنهادی تصویر پلاک خودرو و تصاویر هدف نیز تصاویر دودویی پلاک خودرو است که قبلاً کاربران برچسبگذاری کردهاند. مدل پیشنهادی روی دو مجموعه داده FZU Cars و Stanford Cars ارزیابی شد و براساس نتایج آزمایشات، مدل پیشنهادی از دقت بالاتری بر هر دو مجموعه برخوردار است که نشاندهنده این است که ترکیب دو شبکه عصبی کانولوشنی و مولد رقابتی منجر به افزایش دقت دستهبندی میشود. ادامه این مقاله بهصورت زیر سازماندهی شده است. بخش دوم از این مقاله به کارهای پیشین اختصاص دارد. در بخش سوم، روش پیشنهادی تشریح میشود. آزمایشات و نتایج بررسیها در بخش چهارم به تفضیل بیان شدهاند. بخش پنجم نیز شامل نتیجهگیری و کارهای آینده است.
2- پیشینۀ پژوهش سامانههای هوشمند حملونقل، پیشینه بسیار طولانی در پژوهشهای مربوط به پردازش تصاویر دارند [11-13]. همانطور که اشاره شد یک سامانه بازشناسی پلاک خودرو بهطورمعمول در سه مرحله اجرا میشود. هدف از مرحله نخست، پیداکردن نواحی از تصویر دریافتشده از سامانه تصویربرداری است که شامل پلاک خودرو است. در این مرحله با استفاده از ویژگیهای مختلفی مانند تراکم لبهها در محل پلاک، مکانهایی که پلاک در آن وجود دارد، شناسایی میشوند. پس از آن میتوان مشکلاتی مانند زاویهدار بودن پلاک را نیز اصلاح کرد. در مرحله دوم، معمولاً ابتدا مشکلات روشنایی تصویر اصلاح میشوند و تصویر پلاک استخراجشده با استفاده از روشهای مختلفی مانند عملگرهای ریختشناسی ارتقا داده میشود. تصویر ارتقا داده شده میتواند با استفاده از روشهای دودویی کردن به دو ناحیه شناسهها و پسزمینه تبدیل شود. در گام سوم، ارقام و حروف الفبا بهصورت جداگانه بازشناسی میشوند. بر همین اساس، در ادامه، هرکدام از مراحل یک سامانه بازشناسی پلاک خودرو با جزئیات بیشتری شرح داده میشوند. در فرایند یافتن مکان پلاک، یکی از روشهای بهکاررفته در غالب پژوهشها، پیداکردن نواحی با تراکم لبه بالا است. همچنین، استفاده از پنجره متحرک، بهکارگیری اطلاعات فضای رنگ و استخراج اطلاعات مربوط به بافت با استفاده از تبدیل موجک برای پیداکردن مکان پلاک خودرو مورد توجه بودهاند [14-16]. برخی از تحقیقات نیز بر پایه روشهای یادگیری انجام شدهاند؛ برای مثال، آموزش یک دستهبند آبشاری با استفاده از ویژگیهای شبیهHaar [17] و نیز بهرهگیری از شبکههای عصبی کانولوشنی برای پیداکردن مکان پلاک در پژوهشهای جدیدتر به کار گرفته شدهاند [12, 18].
2-1- ارتقا و ناحیهبندی شناسههای پلاک پلاک جداشده از مرحله مکانیابی به دلیل وجود مشکلاتی مانند شرایط متغیر روشنایی، وجود سایه روی پلاک، آلودگی روی بدنه پلاک و انحراف پلاک از افق، کیفیت مناسب برای بازخوانی شناسهها را ندارد و لازم است ارتقا داده شود. در [19] برای تبدیل تصویر پلاک به تصویر دودویی به جای آستانه سراسری از روش آستانهگذاری معرفیشده در [20] استفاده شده است. پس از آستانهگذاری، نواحی متصلبههم استخراج میشوند. در این مرحله، برخی نواحی که مساحت آنها بیشازحد بزرگ است، حذف میشوند. درنهایت با ترازکردن نواحی باقیمانده در راستای افقی، انحراف پلاک نیز رفع میشود. در [21] از آستانهگذاری با استفاده از اطلاعات هیستوگرام شدت روشنایی و شبکه عصبی انجام شده است. ورودی شبکه عصبی یک بردار متشکل از تعداد پیکسلهایی است که شدت روشنایی آنها در یک بازه قرار میگیرند. سپس مقدار آستانه سراسری در خروجی محاسبه میشود. در مرجع [22] برای هر نقطه تصویر آستانهای جداگانه محاسبه میشود. مقدار آستانه برای هر پیکسل در مرکز یک پنجره، بهاندازه یک عدد ثابت کمتر از میانگین شدت روشنایی پنجره در نظر گرفته میشود. با این کار لبههایی که دو ناحیه را به یکدیگر متصل میکنند، حذف میشوند. در [23] از آستانهگذاری وقفی استفاده شده است. روش کار به این صورت است که برای هر پیکسل با استفاده از میانگین و واریانس در همسایگی پیکسل، یک آستانه محلی محاسبه میشود. پس از آستانهگذاری، با استفاده از تحلیل اجزای متصل، ناحیهای که شناسهها روی آن قرار دارند، بهصورت یک نقاب استخراج میشود. پس از آن، با استفاده از این نقاب، تصویر دودویی شده پلاک فیلتر میشود. با این کار نواحی اضافی بهدستآمده به دلیل خطا در دودویی کردن، حذف میشوند. در این مرحله دوباره با استفاده از روش اجزای متصل، ناحیههایی که کاندید شناسهاند، استخراج و سپس با مقایسه اندازه نواحی، شناسهها استخراج میشوند. به دلیل تفاوت زیاد میان رنگ شناسهها و پسزمینه پلاک، نمایه برونافکنش[1] پلاک میتواند دربردارنده اطلاعات مهمی درباره شناسههای پلاک باشد. در [24] دو سطر روی پلاک با استفاده از نمایه برونافکنش افقی جدا میشوند. فاصله دو سطر روی نمایه برونافکنی بهصورت دره ظاهر میشود و با پیداکردن مکان این دره، خط جداکننده دو سطر مشخص خواهد شد. در [25] نیز با استفاده از نمایه برونافکنی عمودی، شناسهها از یکدیگر جدا شدهاند. سپس به کمک اطلاعات نمایه عمودی، مرز هر شناسه استخراج شده است. در پژوهشهای ذکرشده، از برونافکنش تصویر دودویی استفاده شده است؛ اما در [26] از تصویر خاکستری پلاک استفاده شده است. پژوهش [27] با استفاده از یک روش ترکیبی، شناسهها را از پسزمینه جدا میکند. در این مرجع، ابتدا با بهکارگیری یک روش آستانهگذاری تطبیقی تصویر پلاک دودویی میشود. در این روش، نواحی اضافی باقیمانده روی تصویر با استفاده از الگوریتم نازککاری حذف میشوند. درنهایت، با تحلیل و ارزیابی نمودار برونافکنش عمودی تصویر دودویی شده پلاک، شناسهها جدا میشوند. یادگیری عمیق نیز توانسته است در زمینه بهسازی تصویر پلاک نیز توانایی خود را نشان دهد. در مرجع [28] با بهرهگیری از یک شبکه عصبی همگشتی با ساختار رمزگذار-رمزگشا روشی برای باینریکردن پلاک خودرو ارائه شده است.
2-2- خواندن شناسههای پلاک خودرو پس از ناحیهبندی شناسههای پلاک، میتوان آنها را با استفاده از روشهای مرسوم در بازشناسی حروف نوری تشخیص داد. بهطور معمول به دلیل تغییر فاصله میان سامانه تصویربرداری و پلاک خودرو، تصویر پلاک دارای انحراف خواهد بود. این انحراف باعث ایجاد پرسپکتیو در تصویر میشود؛ بنابراین، شناسههای جداشده از پلاک ممکن است در اندازههای مختلفی دیده شوند. همچنین، هنگام جداسازی شناسهها، امکان شکستهشدن یا اتصال آنها با دیگر اجزای پسزمینه وجود دارد. روشهای خواندن شناسههای پلاک لازم است بتوانند با وجود این مشکلات شناسههای پلاک را بازشناسی کنند. با توجه به اینکه شناسهها در پلاکهایی با ملیت یکسان دارای شکلهای مشابهی هستند، میتوان با تطبیق الگوهای شناسهها با الگوهای از پیش تعیین شده، هر شناسه را دستهبندی کرد؛ البته چرخش و انحراف پلاک میتواند باعث تغییر شکل شناسهها شود. در [29] با در نظر گرفتن الگوهای مختلف از یک شناسه و تغییر در زاویه چرخش آنها با این مشکل مقابله شده است. برای تطبیق شناسههای جداشده و تصاویر الگو نیاز است معیاری از شباهت به کار گرفته شود. فاصله ماهالانوبیس[2] و همبستگی متقابل ازجمله معیارهای استفادهشده در پژوهشهای [30] و [31] هستند. برای خواندن شناسههای جداشده از پلاک خودرو میتوان از روشهای مختلف دستهبندی مانند ماشین بردار پشتیبان، شبکههای عصبی مصنوعی و مدل مخفی مارکوف بهره برد. عموم روشهای دستهبندی و یادگیری ماشین برای آموزش و دستهبندی نیاز به استخراج ویژگی از شناسههای پلاک دارند. در مرجع [21] از اسکلت شناسهها که با استفاده از عملگر ریختشناسی به دست میآید، برای استخراج ویژگی استفاده میشود؛ به این صورت که پنجره شامل اسکلت شناسه پلاک به ۹ ناحیه تقسیم میشود و در هر ناحیه زاویه قرارگیری بخشهای اسکلت بهعنوان ویژگی استخراج میشود. درنهایت، یک شبکه عصبی مصنوعی با استفاده از این ویژگیها شناسه را تشخیص میدهد. شبکههای عصبی پرسپترون بهعنوان یک روش برای خواندن شناسههای جداشده از تصویر پلاک خودرو در پژوهشهای مختلفی مانند [27] استفاده شدهاند. این روش دستهبندی نیز نیازمند استخراج ویژگی مناسب از شناسههای پلاک خودرو است. در [32] از منحنی کانتور شناسهها بهعنوان یک ویژگی مستقل از شکل و اندازه شناسهها استفاده شده است. همچنین، از فیلتر گابور بهعنوان یکی از روشهای استخراج ویژگی برای دستهبندی شناسهها استفاده شده است. در پژوهش [33] برداری از شدت روشنایی شناسههای نرمالیزهشده پلاک بهعنوان ویژگی در دو دستهبند نزدیکترین همسایه و ماشین بردار پشتیبان استفاده شده است. در [34] با استفاده از ویژگیهای هندسی شناسهها و توزیع شدت روشنایی، شناسهها بازشناسی میشوند. در [35] از تصویر خاکستری شناسهها در ورودی شبکه عصبی برای آموزش شبکه استفاده شده است. خواندن شناسههای پلاک علاوه بر اینکه یک هدف نهایی در پژوهشها بهشمار میآید، میتواند بهعنوان یک روش تأیید در پیداکردن مکان تشخیص پلاک نیز به کار بیاید. در [36] از تعداد شناسههای تشخیص داده شده با یک شبکه عصبی بهعنوان یک بازخورد برای روش مکانیابی پلاک استفاده شده است. در [37] از شبکه YOLO برای تشخیص خودکار پلاک خودرو استفاده شد. در مطالعه دیگر [38]، بخشبندی کاراکترها برای استخراج منطقه پلاک خودرو از یک تصویر با استفاده از روش R-CNN انجام شد. در این مطالعه، برای شناسایی دقیق کاراکتر از روش تشخیص کاراکتر نوری استفاده شد و سپس دادههای جمعآوریشده با پایگاههای داده مرجع مربوطه مقایسه شدند تا اطلاعات خاصی مانند مالک خودرو، محل ثبت نام، آدرس و غیره بررسی شوند.
2-3- روشهای یادگیری مبتنی بر شبکه عصبی شبکه عصبی پرسپترون یکی از نخستین ساختارهای یادگیری ماشین است که شامل چندلایه است و هر لایه از تعدادی واحد یادگیر یا نرون تشکیل شده است. ازنظر ساختاری این شبکه میتواند بهعنوان یک مدل جامع برای برازش دادهها به کار رود؛ اما هرچه دادهها پیچیدهتر شوند، مدل پیچیدهتری تولید میشود. تا پیش از سال ۲۰۰۶ میلادی مشکلاتی در آموزش این شبکهها وجود داشت که بهتدریج رفع شدند [7, 12]. هرچند پیش از این هم یادگیری عمیق در برخی پژوهشها دیده میشد. اساس این روشها ایدهبرداری از ساختار بینایی جانداران بود. نخستین شبکه عصبی که بر این ایده ایجاد شد، شبکه Neocognitron بود. از آنجا که این شبکه عصبی تعدادی ناحیه با وزنهای اشتراکی با عملکردی مشابه عملگر ریاضی همگشت تشکیل شده است، به آن شبکه عصبی کانولوشنی نیز میگویند [18]. شبکه عصبی کانولوشنی را میتوان یکی از نخستین روشهای یادگیری عمیق نامید که میتوانست حتی پیش از سال ۲۰۰۶ نیز نتایج چشمگیری را در زمینه یادگیری ماشین به دست آورد. یک شبکه عصبی کانولوشنی Neocognitron بسیار شبیه شبکههای عصبی نوینی است که امروزه از آنها در پژوهشهای مرتبط با پردازش تصویر استفاده میشود [39]. بهطور کلی شبکههای عصبی همگشتی شامل سه لایه با عملکردهای مختلفاند. نخستین لایه در این شبکهها، لایه همگشتی است که شامل چندین هسته مرکزی یا فیلتر است. هرکدام از این فیلترها دارای وزنهای اشتراکی هستند؛ بنابراین، هرکدام میتوانند یک ویژگی خاص را در مکانهای مختلف تصویر ورودی تشخیص دهند. در فرایند آموزش این شبکهها، وزنۀ هر فیلتر تغییر میکند؛ تا جایی که ترکیب وزنهای یاد گرفته شده میتواند اطلاعات و ویژگیهای مهم و کارآمدی را از تصویر ورودی استخراج کند؛ بنابراین، در این شبکهها نیازی به استخراج ویژگیهای تصویر نیست. همچنین، مشابه عملگر همگشت، این فیلترها در هر لایه میتوانند همراه با حاشیهگذاری به کار روند. در دادههایی مانند تصویر که میتوانند شامل نواحی یکنواخت و یکسان باشند، میتوان از یک نقطه بهعنوان نماینده سایر نقاط استفاده کرد. در شبکههای عصبی همگشتی به این لایه نمونهبردار گفته میشود. همچنین، در برخی پژوهشها برای افزایش بعد دادهها، از لایه نمونهگذار استفاده شده است. این دو لایه در شبکه عصبی همگشتی نقش مهمی را در استخراج ویژگی از دادههای ورودی دارند. به خروجی هر لایه نقشه ویژگی گفته میشود. درنهایت، برای اجرای فرایند نهایی شبکه عصبی مانند دستهبندی، از لایههایی مشابه شبکه عصبی پرسپترون با عنوان لایهها تماماً متصل استفاده میشود [40]. یکی از کاربردهایی که یادگیری عمیق توانست در آن موفقیتهایی به دست آورد، ساختارهای رمزگذار - رمزگشا یا بهصورت عمومیتر خودرمزگذارها بودند. یک شبکه خودرمزگذار در دو مرحله ابتدا دادههای ورودی را به فضای ویژگی نگاشت میکند و سپس این فضای ویژگی را به فضای اولیه نگاشت میکند. شرط آموزش این شبکه بازگشتپذیر بودن دادهها در خروجی رمزگشا است؛ بنابراین، در خروجی رمزگذار اطلاعات ورودی حذف نمیشود و با توجه به نوع و ایده آموزش میتواند اطلاعات و ویژگیهایی را استخراج کند که برای سایر فعالیتهای یادگیری ماشین نیز مناسباند [41]. شبکههای برگشتی از دیگر انواع شبکههای عصبی پرکاربرد هستند که میتوانند برای پردازش انواع دنبالهها به کار روند. در این شبکه، برخلاف بیشتر شبکههای عصبی که هر واحد یادگیر تنها به نرونهای لایه بعد از خود متصل میشود، هر نرون میتواند به واحدهای موجود در همان لایه نیز متصل شود. از انواع مشهور این شبکه، شبکه حافظه کوتاهمدت بلند است [42].
3- مدل پیشنهادی مدل پیشنهادی این مقاله شامل دو مرحله برجستهسازی شناسهای پلاک و خواندن شناسهها است. برجستهسازی شناسههای پلاک با استفاده از ترکیب شبکههای عصبی کانولوشنی (CNN) و شبکه عصبی مولد رقابتی (GAN) با ساختار رمزگذار - رمزگشا انجام میشود که به آن CNGA گفته میشود. برای خواندن پلاک نیز از شبکه عصبی بازگشتی (RNN) استفاده خواهد شد. به دلیل تنوع و تغییرات مختلف در تصاویر پایگاه داده، در پژوهش حاضر به جای بررسی و ارائه روشهای معمول برای ناحیهبندی پلاک از روشهای یادگیری عمیق استفاده شده است که کارآمدترند؛ زیرا ساختارهای ساده یادگیری ماشین مانند شبکه عصبی پرسپترون به سه علت زیر توانایی یادگیری و ناحیهبندی شناسههای پلاک خودرو را ندارند:
همچنین، باید توجه داشت ساختار شبکه پرسپترون برای ناحیهبندی پلاک نیز باید بهصورت یک ساختار عمیق و بهرهگیری از یک رمزگذار و رمزگشا باشد تا بتواند پلاک را ناحیهبندی کند؛ بنابراین، در مدل پیشنهادی از شبکه عصبی کانولوشنی در ساختار رمزگذار - رمزگشا استفاده شده است .ساختار مدل پیشنهادی در شکل 1 نشان داده شده و جزئیات آن در ادامه بیان شده است. مدل پیشنهادی میتواند تصویر دودویی شده پلاکها را در شرایط مختلف یاد بگیرد و سپس در تصاویر جدید، شناسههای پلاک خودرو را برجسته کند. هدف از برجستهسازی شناسههای خودرو، ایجاد تصویری از پلاک خودرو است که در آن شناسههای پلاک به رنگ سیاه و سایر اجزای پلاک بهعنوان پسزمینه از روی تصویر، محو و به رنگ سفید نزدیکتر شوند. تصاویر ورودی سامانه پیشنهادی، تصاویر پلاک خودرو هستند. تصاویر هدف برای آموزش نیز، تصاویر دودویی پلاکاند که قبلاً کاربر اصلاح کرده است. با توجه به اینکه شرایط نوری مختلف باعث تغییرات زیادی در رنگ پلاک خودرو میشود، ویژگی رنگ نمیتواند بهعنوان یک ویژگی کارآمد استفاده شود. همچنین، برای استخراج ویژگی از پلاک رنگی، به شبکهای با واحدهای یادگیر بیشتر نیاز است. بالابردن حجم ورودی شبکه عصبی باعث کمشدن سرعت محاسبات و بالارفتن زمان تخمین شبکه میشود؛ بنابراین، برای صرفهجویی در منابع، تصویر ورودی در ابتدا به طیف خاکستری تبدیل و سپس مقیاس آن تغییر داده میشود. مقدار تغییر مقیاس تصاویر برای طول و عرض بهترتیب ۳۹۸ و ۸۰ است.
شکل (1): شماتیک کلی مدل پیشنهادی
شناسههای پلاک عموماً دارای دو رنگ سفید و سیاه هستند. از آنجا که فراوانی پلاکها با شناسههای سیاه رنگ بیشتر از پلاکهایی با شناسههای سفید است، شبکه، امکان یادگیری پلاکها با شناسههای سفید رنگ را کمتر خواهد داشت؛ بنابراین، پلاکها با شناسههای سفید پیش از آموزش وارون رنگ میشوند. در این لایه برای کدگذاری از شبکه عصبی کانولوشنی استفاده میشود که هدف آن تبدیل تصویر پلاک در طیف خاکستری به تصویر دودویی پلاک خودرو است. شبکههایکانولوشن دارای یک یا چندلایه کانولوشن هستند. هر لایه کانولوشن مانند یک فیلتر محلی عمل میکند. در شکل 2 نمونهای از یک شبکه کانولوشنی نشان داده شده است.
شکل (2): ساختار شبکه عصبی کانولوشنی
همانطور که در شکل مشاهده میشود لایه کانولوشن بهصورت یک فیلتر محلی روی سه ورودی مجاور عمل میکند. شبکه کانولوشن معمولاً با یک لایه ادغام همراه است. هدف از این لایه، استخراج اطلاعات مهم از بین اطلاعاتی است که لایه کانولشن استخراج کرده است. اگر ورودی یک ویژگی خاصی داشته باشد، مهم نیست که دقیقاً کجا رخ داده باشد و کافی است لایه ادغام بتواند این ویژگی را استخراج کند. مشخصات شبکه رمزگذار پیشنهادی نیز در شکل 3 نشان داده شده است.
شکل(3): شماتیک رمزگذار پیشنهادی
برای آموزش این شبکه، از ساختار رمزگشای آموزشی شکل 4 استفاده شده است. در این ساختار دو شبکه به یکدیگر متصل شدهاند و تصویر پلاک در طیف خاکستری به ورودی رمزگذار داده میشود. دادههای هدف در خروجی رمزگشای آموزشی، تصویر دودویی شده پلاک خودرو هستند.
شکل (4): ساختار شبکه رمزگشای پیشنهادشده برای آموزش رمزگذار
با توجه به روند آموزش شبکه رمزگذار پیشنهادشده با استفاده از رمزگشای آموزشی، این ساختار توانایی برجستهکردن شناسههای پلاک به رنگ سفید را ندارد. یکی از معمولترین راهحلها وارونکردن تصویر پلاک و ناحیهبندی پلاک است که نیازمند توجه به مشکلات تصویر است؛ بنابراین، برای ناحیهبندی شناسههای پلاک چندین راهکار مختلف بررسی شدند که بهترین راهکار براساس هزینه زمانی و محاسباتی اضافهکردن شبکه میانی پس از رمزگذار است که در خروجی آن ویژگیهای مربوط به وارون تصویر اولیه با استفاده از اطلاعات موجود در رمزگذار تخمین زده میشوند. در این صورت در ورودی رمزگشا، هر دو دسته ویژگی مربوط به تصویر اصلی و وارون آن موجود است و رمزگشا میتواند بدون نیاز به تشخیص رنگ و وارونکردن تصویر در ورودی رمزگذار، تصویر ناحیهبندیشده را در خروجی ایجاد کند. از آنجا که ویژگیهای مربوط به تصویر ورودی را که در خروجی رمزگذار به دست آمدهاند، در این شبکه میانی به ویژگیهای مربوط به تصویر تبدیل میکند، این شبکه، تبدیلکننده ویژگی شناخته میشود.
ساختار رمزگذارگشای پیشنهادی توانایی ایجاد تصویر خروجی مناسب از پلاک با شناسههای سفید رنگ را ندارد؛ بنابراین، میتوان ساختار شبکه را بهگونهای تغییر داد که ورودی رمزگشا ویژگیهای مربوط به هر دو حالت تصویر ورودی و وارون آن را داشته باشد؛ اما نکتهای که باید در نظر داشت تکرار دوباره استخراج ویژگی در رمزگذار است که کاری زمانبر خواهد بود؛ بنابراین، نیاز است روشی به کار گرفته شود که در خروجی رمزگذار، ویژگیهای مربوط به تصویر وارون نیز موجود باشد. روش پیشنهادی این مقاله استفاده از شبکه کوچکی است که ویژگیهای خروجی رمزگذار را به ویژگیهای مربوط به وارون تصویر اولیه تبدیل میکند. در این مقاله، شبکه فوق، شبکه تبدیلکننده ویژگی نامیده میشود. با توجه به اینکه شبکه پیشنهادشده برای تبدیل ویژگیهای بسیار کوچک است، ازنظر زمانی بهینه خواهد بود. ساختار این لایه در شکل 5 نشان داده شده است.
شکل (5): لایه تبدیلکننده ویژگی
با توجه به اینکه شبکه تبدیلکننده ویژگی روی همه تصاویر ورودی اعمال میشود، نیازی به دستهبندی و جداسازی پلاکها پیش از ورودی رمزگذار یا تبدیلکننده ویژگی نخواهد بود. به کمک این روش میتوان انواع پلاکها را با استفاده از یک سامانه یکسان شناسایی کرد. این تبدیلکننده ویژگی باید ویژگیهای استخراجشده از تصویر ورودی را به ویژگیهایی تبدیل کند که از وارون تصویر به دست میآیند؛ بنابراین، برای آموزش این شبکه از ویژگیهای استخراجشده از تصاویر با شناسههای سفید رنگ بهعنوان دادههای آموزش در ورودی استفاده شده است. دادههای هدف، ویژگیهای استخراجشده در رمزگذار بهازای وارون آن تصاویر هستند. در ادامه در لایه تبدیلکننده ویژگی از شبکه عصبی مولد رقابتی دارای دو بخش تولیدکننده[3] و تفکیککننده[4] برای تولید دادههای جدید استفاده میشود که هدف آن افزایش تعداد دادههای آموزشی است. در شبکه مولد رقابتی با بخش تولیدکننده با افزودن نویز میتواند تصاویر جدیدی را از تصاویر مجموعه آموزشی به دست آورد. پس از افزودن نویز و تولید تصاویر، تفکیککننده تصاویر تولیدشده را با تصاویر داده آموزشی تطبیق میدهد. اگر تصاویر تولیدشده با تصاویر اولیه مطابقت نداشته باشند، تفکیککننده آن تصاویر را رد میکند، در غیر این صورت، تصاویر مصنوعی ایجاد میشود. ساختار شبکه مولد رقابتی در شکل 6 نشان داده شده است.
شکل (6): ساختار شبکه مولد رقابتی (GAN)
در این روش شبکه فرا میگیرد چگونه از دادههای آموزش، دادههای جدیدی به وجود بیاورد که از دید آماری دادههای آموزش و بهوجودآمده همسان باشند. به عبارت دیگر، وظیفه تولید خروجی بر عهده بخش تولیدکننده و وظیفه بررسی کافیبودن این شباهت بر عهده بخش تفکیککننده است؛ مانند یک بازی که اگر بخش تفکیککننده بتواند حدس بزند ورودی اصلی شبکه با خروجی ساختهشده توسط بخش تولیدکننده اختلاف دارند یا به عبارتی همسان نیستند، برنده میشود و بخش تولیدکننده مجبور است خروجی بهتری تولید کند؛ تا جایی که بخش تولیدکننده بتواند بخش تفکیککننده را بفریبد؛ درنتیجه، بازی تمام شود. شبکههای مولد رقابتی آموزشیافته میتوانند عکسهای جدیدی را به وجود آورند که از دید بیننده درست باشند و بسیاری از ویژگیهای دادههای آموزشی را در بر بگیرند. تصور کنید قرار است از تصاویر با وضوح پایین، تصاویر با وضوح بالای معادل آنها ساخته شود که علاوه بر بزرگتر بودن و باکیفیتتر بودن دقیقاً معادل تصویر ورودی باشند؛ در چنین شرایطی شبکه مولد رقابتی بسیار مفید و کمککننده است که میتواند بر کمبود تعداد داده آموزشی غلبه کند.
ایده استفاده از تبدیلکننده ویژگی این است که در ورودی رمزگشا، همزمان ویژگیهای مربوط به تصاویر و وارون آنها موجود باشد؛ بنابراین، نیاز است که معماری رمزگشای پیشنهادی بهگونهای طراحی شود که بتواند هر دو مجموعه ویژگی را در ورودی دریافت کند. ساختار نهایی پیشنهادشده برای رمزگشا در شکل 7 نشان داده شده است. ویژگیهای ورودیهای رمزگشای پیشنهادی، مجموع ویژگیهای یک تصویر و وارون آن است؛ بنابراین، برای برجستهسازی شناسههای پلاک، مستقل از رنگ شناسهها عمل خواهد کرد. بهکارگیری این روش میتواند در برجستهسازی شناسههای پلاک مستقل از رنگ ورودی عمل کند.
شکل (7): ساختار پیشنهادی برای ایجاد پلاک با شناسه برجسته
تعداد ویژگیهای ورودی این رمزگشا دو برابر رمزگشای آموزشی است. همچنین، ویژگیهای ورودی در رمزگشای بهکاررفته در لایه دوم با یکدیگر ترکیب میشوند. این کار علاوه بر کمک در بهبود روند برجستهسازی شناسههای پلاک، به افزایش سرعت آن نیز کمک خواهد کرد. درخور ذکر است یکی از مسائل مهم در شبکههای عصبی عمیق کاهش بیشبرازش[5] است. در مدل پیشنهادی، اقدامات زیر برای جلوگیری از بیشبرازش انجام شده است:
3-4- خواندن شناسههای پلاک برجسته پس از برجستهکردن شناسههای پلاک خودرو، مرحله بعد خواندن شناسههای آن است. در این مقاله برای خواندن شناسههای پلاک خودرو از روی تصویر با شناسههای برجسته از شبکه عصبی بازگشتی استفاده شده است. مزیت روش بهکاررفته این است که برای خواندن و آموزش شبکه نیاز به جداسازی شناسهها از یکدیگر نیست. شبکه عصبی بازگشتی میتواند تصویر خروجی رمزگشا را بهصورت یک دنباله در نظر بگیرد و شماره پلاک را در خروجی برگرداند. شکل 8 یک ساختار ساده از شبکه عصبی بازگشتی را برای خواندن شناسههای پلاک خودرو نمایش میدهد. یکی از کاربردهای متداول شبکههای عصبی بازگشتی، بازشناسی نوری حروف است؛ اما نیاز است تصویر ورودی فقط شامل رشتهای از حروف و اعداد باشد تا شبکه بتواند متن تصویر را بخواند؛ به همین دلیل، در مدل پیشنهادی پیش از استفاده از شبکه عصبی بازگشتی برای خواندن شناسههای تصویر، شناسههای آن، برجسته و سایز اجزای پسزمینه حذف میشوند. روش کار شبکه عصبی بازگشتی این است که تصویر ورودی بهصورت یک دنباله به آن داده میشود. سپس اطلاعات از هر ناحیه مکانی روی تصویر ورودی در حافظههای واحدهای یادگیر آن ذخیره میشود. درنهایت، تصویر ورودی بهصورت دنباله برچسبگذاری میشود. این دنبالهگذاری ترکیبی از شناسهها است و علامت خط تیره به نشانه خالیبودن ناحیه از شناسه است.
شکل (8): شبکه عصبی بازگشتی برای خواندن شناسههای پلاک درنهایت، با استفاده از لایه آخر شبکه عصبی بازگشتی و با استفاده از روش ترکیب و اتصال خروجی، یک دنباله واحد از شناسههای پلاک برگردانده میشود. در روشهای متداول، تصویر پلاک خودرو ابتدا دودویی میشود و سپس شناسههای آن برای خواندن ناحیهبندی میشوند؛ اما خواندن شناسههای پلاک خودرو با استفاده از شبکه عصبی بازگشتی کارایی بیشتری در برخورد با برخی مشکلات ناحیهبندی پلاک دارد؛ برای مثال، ممکن است در حین فرآیند ناحیهبندی، برخی از اجزای پسزمینه همچنان روی تصویر پلاک باقی بمانند یا اینکه برخی شناسهها بهصورت شکسته و در چند قسمت ایجاد شوند. با توجه به اینکه شبکه عصبی بازگشتی تصویر شناسههای پلاک را بهصورت یک دنباله دریافت میکند، میتواند در هنگام بروز این مشکلات عملکرد بهتری نشان دهد.
4- آزمایشها در این بخش ابتدا مجموعه داده، معیار ارزیابی، نیازهای سختافزاری و نرمافزاری موردنیاز معرفی میشوند و بعد از آن به توصیف آزمایشها پرداخته خواهد شد.
4-1- مجموعه داده با توجه به اینکه تأکید این مقاله روی تشخیص پلاک خودرو است، در آزمایشات از دو مجموعه داده استاندارد در این حوزه استفاده میشود. مجموعه داده اولیه FZU Cars است که از 297 ماشین مدل با 43615 تصویر تشکیل شده است. دومین مجموعه داده Stanford Cars مجموعهای از 196 ماشین مدل با 16185 تصویر را در بر میگیرد. [8] با توجه به اینکه این دو مجموعه داده دارای مجموعه آموزشی و تست جداگانه نیستند، تمام آزمایشات این مقاله نیز براساس روش اعتبارسنجی متقابل[9] صورت گرفت. اعتبارسنجی متقابل یک روش ارزیابی مدل است که تعیین میکند نتایج یک تحلیل آماری بر یک مجموعه داده تا چه اندازه تعمیمپذیر و مستقل از دادههای آموزشی است. در این راستا کل مجموعه داده بهطور تصادفی به پنج قسمت تقسیم شد و سه قسمت بهعنوان مجموعه آموزش و دو قسمت دیگر بهعنوان محموعه اعتبارسنجی و تست استفاده شد. شایان ذکر است نتایج گزارششده در این مقاله براساس میانگین هر پنج قسمت است.
4-2- معیار ارزیابی بهمنظور ارزیابی مدل پیشنهادی از معیار ارزیابی دقت، صحت و فراخوانی استفاده میشود و بهترتیب مطابق رابطه (1)، (2)، (3) و (4) محاسبه میشوند:
در روابط فوق TP و TN بهترتیب نمونههای مثبت و منفی هستند که درست طبقهبندی شدهاند. FP و FN بهترتیب نمونههای مثبت و منفی هستند که نادرست طبقهبندی شدهاند و N نیز برابر تعداد کل نمونهها است.
4-3- نیازهای سیستمی و پارامترهای آموزش از آنجایی که اجرای برنامه بر پایه یادگیری عمیق به دلیل محاسبات و پردازش اطلاعات از میان میلیونها داده مختلف صورت میگیرد، از یک پردازنده معمولی انتظار نمیرود این عملیات را انجام دهد؛ بنابراین، ضرورت تهیه سختافزارهایی با سرعت بالاتر و قویتر از نیازهای مهم فرایند فوق است. برای پیادهسازی روش پیشنهادی از زبان برنامهنویسی پایتون استفاده شده که باعث تسهیل طراحی و پیادهسازی الگوریتمهای یادگیری ماشین و یادگیری عمیق شده است. برای استفاده از محیط برنامهنویسی پایتون، از آناکوندا استفاده شده است. آناکوندا یک توزیع آزاد و منبع باز از زبانهای برنامهنویسی پایتون و R برای محاسبات علمی (علوم داده، برنامههای یادگیری ماشین، پردازش دادههای در مقیاس بزرگ، تجزیهوتحلیل پیشبینیکننده و غیره) است که هدف آن سادهسازی مدیریت بسته و استقرار است. بیش از 15 میلیون کاربر از توزیع آناکوندا استفاده میکنند و شامل بیش از 1500 بسته علوم دادهای مشهور مناسب برای ویندوز، لینوکس و MacOS است. بهطور خلاصه، کلیه پیادهسازیهای این مقاله به کمک پایتون 3 و کتابخانه تنسورفلو 0.1.2 روی سیستم با پردازنده Intel Xeon 2 E5-2620 2.0 گیگاهرتز و 8 گیگابایت رم در محیط لینوکس انجام شده است. همچنین، در مدل پیشنهادی از شبکه عصبی مولد رقابتی برای تولید تصاویر جدید استفاده میشود. تصاویر تولیدشده در این مرحله در شکل 9 نشان داده شده است. در مدل پیشنهادی از شبکهCNN برای استخراج ویژگیهای میانی استفاده میشود. برای پیادهسازی شبکههای کانولوشنی، اندازه فیلترها برابر (16،32، 64) و تعداد فیلترها برابر 150 بود. تابع غیرخطیReLU نیز بهعنوان تابع فعالساز در این شبکه استفاده شده است. اندازه تابع maxpool برابر (2*2) بوده است. از قانون بهروزرسانی وزن ADADELTA با نرخ یادگیری 01/0 و نرخ از قلم انداختن 05/0 برای آموزش مدل استفاده شد. درخور ذکر است مدل پیشنهادی در 100 ایپک آموزش دید.
شکل (9): نتایج تولید شده توسط شبکه عصبی مولد رقابتی
4-4- نتایج پیادهسازی پس از تاًمین بسترهای سختافزاری و نرمافزاری، فرآیند پیشپردازش و استخراج ویژگی و مدلسازی روی دادهها اعمال میشود. در این بخش، مقایسهای با هدف ارزیابی کارایی مدل پیشنهادی در مقایسه با سایر مدلهای سنتی صورت میگیرد. هدف آزمایشات انجامشده در این بخش پاسخدادن به دو سؤال اساسی است: سؤال 1) آیا روش پیشنهادی دارای دقت پیشبینی بالاتری نسبت به سایر روشهای موجود است؟ سؤال 2) آیا استفاده از شبکه عصبی مولد رقابتی در کنار شبکه عصبی کانولوشنی باعث افزایش دقت دستهبندی پلاک خودرو میشود؟ فرآیند تشخیص پلاک خودرو با مدل پیشنهادی نیز در شکل 10 نشان داده شده است. در راستای پاسخدادن به این سؤالات نیز مدل پیشنهادی با مجموعهای از مدلهای پیشین مقایسه شد که نتایج آن در جدول 1 و شکلهای 12 و 13 نشان داده شدهاند. نتایج حاصل از پیادهسازی مدل پیشنهادی نشان میدهند مدل پیشنهادی روی هر دو مجموعه داده از دقت بیشتری برخوردار است. براساس نتایج ارزیابی روی مجموعه داده FZU Cars، مدل پیشنهادی بهترتیب به دقت، فراخوانی و امتیاز-F برابر 984/0، 983/0 و 979/0 دست یافته که نسبت به سایر مدلهای پیشین از دقت بالاتری برخوردار است. روی مجموعه داده Stanford Cars مدل پیشنهادی بهترتیب به دقت، فراخوانی و امتیاز-F برابر 972/0، 981/0 و 957/0 دست یافته است. مقایسه نتایج بهدستآمده با سایر مدلهای پیشین نشان میدهد مدل پیشنهادی از دقت بیشتری نسبت به سایر روشهای پیشین روی مجموعه داده Stanford Cars داشته است.
شکل (10): فرآیند تشخیص پلاک خودرو توسط مدل پیشنهادی
جدول (1): نتایج حاصل از آزمایشات روی مجموعه دادههای مورد آزمایش
شکل (11): نتایج حاصل از پیادهسازی مدل پیشنهادی روی مجموعه داده FZU Cars
شکل (12): نتایج حاصل از پیادهسازی مدل پیشنهادی روی مجموعه داده Stanford Cars
5- نتیجهگیری شماره پلاک خودرو یکی از مناسبترین اقلام اطلاعاتی برای احراز هویت خودروها است. تشخیص خودکار شماره پلاک خودرو سامانهای کاملاً مکانیزه است که با استفاده از پردازش تصویر خودروهای عبوری از یک مکان، شماره پلاک آنها را استخراج میکند. برای استفاده از این سامانه، نیازی به نصب و تجهیز خودروها بهوسیله دیگری مانند GPS یا برچسبهای رادیویی وجود ندارد. این سامانه با استفاده از دوربینهای مخصوص، تصویری از خودرو در حال عبور اخذ میکند و آن تصویر را برای پردازش با نرمافزار تشخیص پلاک خودرو به رایانه ارسال میکند. استفاده از چنین سیستمهایی میتواند به شهرداریها، پلیس راهنمایی و رانندگی و دیگر مراجع ذیربط کمک کرد تا بهترین تصمیمات را برای بهبود ترافیک و افزایش ایمنی جادهها بگیرند. همچنین، با استفاده از چنین سامانههایی میتوان قابلیت شناسایی خودکار خودروهای مشکوک بهصورت سریع را فراهم کرد و در کاهش جرائم رانندگی و افزایش امنیت جادهها مؤثر بود. با توجه به اهمیت وجود سیستمهای تشخیص پلاک، در این مقاله یک مدل مبتنیبر شبکه عصبی بهبودیافته برای تشخیص خودکار پلاک خودرو معرفی شده است. مدل پیشنهادی این مقاله براساس شبکه عصبی کانولوشنی بهبودیافته (CNGA) است که شامل دو مرحلۀ برجستهکردن شناسههای پلاک خودرو و خواندن شناسهها است. در مدل پیشنهادی از شبکه عصبی کانولوشنی با ساختار کدگذار - کدگشا استفاده میشود که در آن شناسههای پلاک مستقل از رنگ آنها (سفید یا سیاه) برجسته میشوند. با توجه به اینکه کدگشا توانایی ایجاد تصویر مناسب از پلاک با شناسههای سفید رنگ را ندارد، ورودی کدگذار باید بهگونهای تغییر یابد که ویژگیهای مربوط به دو حالت تصویر ورودی آن را داشته باشد. در این راستا، در لایه تبدیلکننده ویژگی از شبکه کوچکی استفاده میشود که ویژگیهای خروجی رمزگذار را به ویژگیهای مربوط به وارون تصویر اولیه تبدیل میکند. انتظار میرود استفاده از لایه کدگذار - کدگشا به همراه لایه تبدیلکننده ویژگی باعث افزایش قابل توجه دقت سیستمهای تشخیص پلاک شود. مدل پیشنهادی روی دو مجموعه داده FZU Cars و Stanford Car آزمایش شد. براساس نتایج حاصل از آزمایشات، مدل پیشنهادی روی هر دو مجموعه داده از دقت بیشتری نسبت به سایر روشهای پیشین برخوردار است. در ادامه این پژوهش میتوان از توابع غیرخطی با ماهیت تصادفی، راهکارهای یادگیری بدون نظارت در مدلهای عمیق بهمنظور بهبود تعمیمپذیری و ادغام تصادفی بهمنظور افزایش دقت مدلهای یادگیری بهره برد.
[1] تاریخ ارسال مقاله: 18/08/1401 تاریخ پذیرش مقاله: 17/03/1402 نام نویسندۀ مسئول: سارا معتمد نشانی نویسندۀ مسئول: ایران، فومن، دانشگاه آزاد اسلامی واحد فومن و شفت، گروه مهندسی کامپیوتر
[1] Projection profile [2] Mahalanobis distance [3] Generator [4] Discriminator [5] Overfitting [6] Weight decay regularization [7] Dropout [8] https://www.kaggle.com/jessicali9530/stanford-cars-dataset [9] Cross-Validation | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[1] C.-H. Huang, Y. Sun, and C.-S. Fuh, "Vehicle License Plate Recognition With Deep Learning", In Technologies to Advance Automation in Forensic Science and Criminal Investigation: IGI Global, pp. 161-219, 2022. [2] J. Pirgazi, M. M. Pourhashem Kallehbasti, A. Ghanbari Sorkhi, "An End-to-End Deep Learning Approach for Plate Recognition in Intelligent Transportation Systems", Wireless Communications and Mobile Computing, 2022. [3] W. Weihong and T. Jiaoyang, "Research on license plate recognition algorithms based on deep learning in complex environment", IEEE Access, vol. 8, pp. 91661-91675, 2020. [4] Y. Zhang, Z. Wang, and J. Zhuang, "Efficient license plate recognition via holistic position attention", in Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 35, No. 4, pp. 3438-3446, 2021. [5] N. Mufti and S. A. A. Shah, "Automatic number plate Recognition: A detailed survey of relevant algorithms", Sensors, Vol. 21, No. 9, 2021. [6] R. Balia, S. Barra, S. Carta, G. Fenu, A. S. Podda, and N. Sansoni, "A Deep Learning Solution for Integrated Traffic Control Through Automatic License Plate Recognition", in International Conference on Computational Science and Its Applications, Springer, pp. 211-226, 2021. [7] T. Vaiyapuri, S. N. Mohanty, M. Sivaram, I. V. Pustokhina, D. A. Pustokhin, and K. Shankar, "Automatic vehicle license plate recognition using optimal deep learning model", Computers, Materials and Continua, Vol. 67, No. 2, pp. 1881-1897, 2021. [8] V. Gnanaprakash, N. Kanthimathi, and N. Saranya, "Automatic number plate recognition using deep learning", in IOP Conference Series: Materials Science and Engineering, Vol. 1084, No. 1, 2021. [9] N. N. Kyaw, G. Sinha, and K. L. Mon, "License plate recognition of Myanmar vehicle number plates a critical review", IEEE 7th Global Conference on Consumer Electronics (GCCE), IEEE, pp. 771-774, 2018. [10] A. Kashyap, B. Suresh, A. Patil, S. Sharma, and A. Jaiswal, "Automatic number plate recognition", in 2018 international conference on advances in computing, communication control and networking (ICACCCN), IEEE, pp. 838-843, 2018. [11] K. Deb, M. I. Khan, M. R. Alam, and K.-H. Jo, "Optical Recognition of Vehicle license plates", 6th International Forum on Strategic Technology, Vol. 2, pp. 743-748, 2011. [12] F. Wang, L. Man, B. Wang, Y. Xiao, W. Pan, and X. Lu, "Fuzzy-based algorithm for color recognition of license plates", Pattern Recognition Letters, Vol. 29, No. 7, pp. 1007-1020, 2008. [13] S. Yu, B. Li, Q. Zhang, C. Liu, and M. Q.-H. Meng, "A novel license plate location method based on wavelet transform and EMD analysis", Pattern Recognition, Vol. 48, No. 1, pp. 114-125, 2015. [14] E. Rashedi and H. Nezamabadi-Pour, "A hierarchical algorithm for vehicle license plate localization", Multimedia Tools and Applications, Vol. 77, No. 2, pp. 2771-2790, 2018. [15] O. Ibitoye, T. Ejidokun, O. Dada, and O. Omitola, "Convolutional neural network-based license plate recognition techniques: a short overview", in 2020 International Conference on Computational Science and Computational Intelligence (CSCI), IEEE, pp. 1529-1532, 2020. [16] S.-L. Chang, L.-S. Chen, Y.-C. Chung, and S.-W. Chen, "Automatic license plate recognition", IEEE transactions on intelligent transportation systems, Vol. 5, No. 1, pp. 42-53, 2004. [17] Y. Nakagawa and A. Rosenfeld, "Some experiments on variable thresholding", Pattern recognition, Vol. 11, No. 3, pp. 191-204, 1979. [18] T. Nukano, M. Fukumi, and M. Khalid, "Vehicle license plate character recognition by neural networks", in Proceedings of 2004 International Symposium on Intelligent Signal Processing and Communication Systems, ISPACS 2004, IEEE, pp. 771-775, 2004. [19] D. Llorens, A. Marzal, V. Palazon, and J. M. Vilar, "Car license plates extraction and recognition based on connected components analysis and HMM decoding", in Iberian conference on pattern recognition and image analysis, Springer, pp. 571-578, 2005. [20] I. Giannoukos, C.-N. Anagnostopoulos, V. Loumos, and E. Kayafas, "Operator context scanning to support high segmentation rates for real time license plate recognition", Pattern Recognition, Vol. 43, No. 11, pp. 3866-3878, 2010. [21] T. D. Duan, T. H. Du, T. V. Phuoc, and N. V. Hoang, "Building an automatic vehicle license plate recognition system", International Conference Computer Science RIVF, vol. 1, pp. 59-63, 2005. [22] B. Shan, "Vehicle License Plate Recognition Based on Text-line Construction and Multilevel RBF Neural Network", Journal Computing, Vol. 6, No. 2, pp. 246-253, 2011. [23] C. A. Rahman, W. Badawy, and A. Radmanesh, "A real time vehicle's license plate recognition system", in Proceedings of the IEEE Conference on Advanced Video and Signal Based Surveillance, IEEE, pp. 163-166, 2003. [24] S. Nomura, K. Yamanaka, O. Katai, H. Kawakami, and T. Shiose, "A novel adaptive morphological approach for degraded character image segmentation", Pattern Recognition, Vol. 38, No. 11, pp. 1961-1975, 2005. [25] S. Rakhshani, A. Rashidi, H. Nezamabadipour, "Binarization method of car license plate using deep learning with encoder-decoder neural network structure", 10th Iran Machine Vision and Image Processing Conference, 2016. [26] T. Naito, T. Tsukada, K. Yamada, K. Kozuka, and S. Yamamoto, "Robust license-plate recognition method for passing vehicles under outside environment", IEEE transactions on vehicular technology, Vol. 49, No. 6, pp. 2309-2319, 2000. [27] L. Xiaobo, L. Xiaojing, and H. Wei, "Vehicle license plate character recognition", in International Conference on Neural Networks and Signal Processing, Vol. 2, pp. 1066-1069, 2003. [28] K. Miyamoto, K. Nagano, M. Tamagawa, I. Fujita, and M. Yamamoto, "Vehicle license-plate recognition by image analysis", in Proceedings IECON'91: International Conference on Industrial Electronics, Control and Instrumentation, IEEE, pp. 1734-1738, 1991. [29] M.-K. Kim and Y.-B. Kwon, "Multi-font and multi-size character recognition based on the sampling and quantization of an unwrapped contour", in Proceedings of 13th International Conference on Pattern Recognition, Vol. 3, pp. 170-174, 1996. [30] P. Hu, Y. Zhao, Z. Yang, and J. Wang, "Recognition of gray character using gabor filters", in Proceedings of the Fifth International Conference on Information Fusion. Vol. 1, pp. 419-424, 2001. [31] M.-A. Ko and Y.-M. Kim, "A simple OCR method from strong perspective view", in 33rd Applied Imagery Pattern Recognition Workshop (AIPR'04), IEEE, pp. 235-240, 2004. [32] J. Jiao, Q. Ye, and Q. Huang, "A configurable method for multi-style license plate recognition", Pattern Recognition, Vol. 42, No. 3, pp. 358-369, 2009. [33] H. Khosravi, "A sliding and classifying approach towards real time Persian license plate recognition", International Journal of Engineering, Transactions A: Basics, Vol. 28, No. 1, pp. 74-80, 2015. [34] Y. LeCun et al., "Learning algorithms for classification: A comparison on handwritten digit recognition", Neural networks: the statistical mechanics perspective, Vol. 261, No. 276, 1995. [35] A. Kendall, V. Badrinarayanan, and R. Cipolla, "Bayesian segnet: Model uncertainty in deep convolutional encoder-decoder architectures for scene understanding", arXiv preprint arXiv:1511.02680, 2015. [36] P. Vincent, H. Larochelle, Y. Bengio, and P.-A. Manzagol, "Extracting and composing robust features with denoising autoencoders", in Proceedings of the 25th international conference on Machine learning, pp. 1096-1103, 2008. [37] Y. Zou et al., "A robust license plate recognition model based on bi-LSTM", IEEE Access, Vol. 8, pp. 211630-211641, 2020. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 129 تعداد دریافت فایل اصل مقاله: 55 |