تعداد نشریات | 43 |
تعداد شمارهها | 1,639 |
تعداد مقالات | 13,330 |
تعداد مشاهده مقاله | 29,909,483 |
تعداد دریافت فایل اصل مقاله | 11,961,635 |
آشکارسازی سریع و منعطف وسایل نقلیه در رشتهای از تصاویر توسط شبکههای عمیق | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هوش محاسباتی در مهندسی برق | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
دوره 15، شماره 1، فروردین 1403، صفحه 57-72 اصل مقاله (2.69 M) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی فارسی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/isee.2023.136806.1615 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نفیسه زارعی1؛ پیمان معلم* 2؛ محمدرضا شمس3؛ رسول عسگریان دهکردی4 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1دانشجوی دکتری گروه مهندسی برق، دانشکده فنی و مهندسی، دانشگاه اصفهان، اصفهان، ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2استاد گروه مهندسی برق، دانشکده فنی و مهندسی، دانشگاه اصفهان، اصفهان، ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3استادیار گروه مهندسی کامپیوتر، مرکز آموزش عالی شهرضا، دانشگاه اصفهان، شهرضا، ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4دکتری برق، دانشکده مهندسی برق، دانشگاه صنعتی شاهرود، شاهرود، ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
دوربینهای مداربسته در مقایسه با GPS و حسگرهای تشعشع مادون قرمز، قادر به ارائه اطلاعات دقیقتر ترافیک هستند. با پردازش هوشمند اطلاعات تصویری فراهمشده توسط آنها تحلیل مسائل ترافیکی دقیقتر انجام میشود. در این میان، سرعت مکانیابی خودرو اهمیت ویژهای دارد؛ زیرا پس از موقعیتیابی خودرو نیاز به پردازشهای دیگری برای تصمیمگیری است که نیاز به مدیریت زمان دارد. هدف از مطالعه حاضر، ارائۀ الگوریتمی مبتنی بر شبکههای عمیق است که این چالش را برطرف سازد. در الگوریتم ارائهشده، یک شبکه آشکارساز سریع و دقیق بر پایۀ میدانهای ادراکی چندگانه، قطعهبندی و تصاویر تفاضلی طراحی شده است که با تولید نقشههای ویژگی معنادار غربالشده، دقت آشکارساز و با کاهش پارامترها، سرعت آن را افزایش میدهد. در الگوریتم ارائهشده، نوع مانور هر خودرو با توجه به اطلاعات زمانی و مکانی آن خودرو و خودروهای اطرافش با استفاده از گریدبندی جاده تعیین میشود. سپس با توجه به نوع مانور، شبکه پیشبینیکننده را در یکی از حالات حفظ خط، گردش به چپ و گردش به راست خودرو انتخاب میکند. شبکههای طراحیشده در الگوریتم پیشنهادی مکمل یکدیگرند. عملکرد الگوریتم پیشنهادی با آزمایش بر روی مجموعه دادههای Highway و UA-DETRAC نشان داده میشود. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آشکارسازی وسایل نقلیه؛ پیشبینی موقعیت؛ طبقهبندی مسیر | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
تشخیص وسایل نقلیه در بسیاری از کاربردها مانند مسائل امنیتی یا مسائل مربوط به حملونقل کالا [1 و 2]، تصاویر هوایی [3 و 4]، مدلسازی ترافیک [5]، نظارت بر ترافیک [6]، نظارت بر محیط شهری و اتومبیلهای خودران [7] نقش حیاتی ایفا میکند. الگوریتمهای زیادی براساس بینایی کامپیوتری در این زمینه ارائه شده است [8-10]. هدف این الگوریتمها کمک به سیستم مانیتورینگ خودکار است تا تجزیهوتحلیل رفتار خودرو در جاده یا در محیط شهری بهطور مؤثرتری انجام شود؛ البته با توجه به محدودیتهای قدرت محاسباتی و فضای ذخیرهسازی در این سیستم، آشکارسازهای طراحیشده برای این الگوریتمها باید بتوانند با حجم سختافزاری کمتر، سرعت و دقت مناسب و مطلوبی داشته باشند [11 و 12]؛ بنابراین، طراحی آشکارسازهای سبک و قدرتمند در این زمینه بسیار جذاب بوده و یک مشکل چالشبرانگیز است که علایق و تلاشهای دانشگاهی و صنعتی را به خود جلب میکند [13]. توسعه سریع سختافزار نیز به باعث شده است این تلاشها هرچه بیشتر به سرانجام برسد. همچنین، رشد تصاعدی شبکههای مبتنی بر یادگیری عمیق در حوزۀ طبقهبندی، تشخیص و قطعهبندی معنادار اشیا در سالیان اخیر انقلاب بزرگی را به وجود آورده است [11-19] که نشاندهندۀ برتری آنها نسبت به روشهای سنتی است. دلایل این پیشرفتها علاوه بر ماهیت شبکههای عمیق و سختافزارهای رو به توسعه، در افزایش مداوم دادهها نیز هست. این شبکهها در حوزۀ آشکارسازی به دو روش مختلف ساخته میشوند. روش نخست که به روش دومرحلهای نیز معروف است، هزینۀ زمانی زیادی را شامل میشود؛ در حالی که روش دوم (یک مرحلهای) سریعتر است. آشکارسازهای پایه YOLO شبکههای یک مرحلهای هستند. اگرچه عملکرد شبکه YOLO با انتشار نسخههای جدیدتر بهتدریج بهبود یافته است، در بیشتر آنها تعداد پارامترها و BFlops زیاد شده است؛ درنتیجه، سرعت آنها کاهش یافته است و از لحاظ سختافزاری نیز مقرون به صرفه نیستند. در این مطالعه، الگوریتمی انعطافپذیر از لحاظ سرعت و دقت به نام AVD[1]، ارائه شده است که در ضمن افزایش دقت، سرعت موقعیتیابی را به نحو چشمگیری افزایش میدهد و با مسئلۀ انسداد خودرو نیز ازطریق استفاده از شبکههای پیشبینیکننده مقابله میکند.
2- روش پیشنهادی الگوریتم پیشنهادی در این مطالعه به نام AVD – نشان داده شده در شکل (1) - سرعت تشخیص وسایل نقلیه را افزایش میدهد. در الگوریتم ارائهشده، بهطور متناوب از شبکههای آشکارساز (مسیر اول در شکل (1)) و پیشبینیکننده آشکارساز (مسیر دوم در شکل (1)) در یک دورۀ تناوب مشخص استفاده میشود. درواقع، در تعداد مشخصی از فریمهای این دورۀ تناوب از آشکارساز و در بقیه فریمهای آن براساس موقعیت هر خودرو در فریمهای قبل، پیشبینی موقعیت خودرو انجام شده است؛ البته در چند ثانیۀ اول پردازش، تنها از آشکارساز استفاده میشود تا اطلاعات لازم و کافی برای شبکه پیشبینیکننده فراهم شود و دقت پیشبینی افزایش یابد. استفاده از این دو شبکه در یک الگوریتم، عملکرد یکدیگر را تکمیل میکند و باعث افزایش میانگین سرعت اجرای الگوریتم میشود؛ زیرا پیشبینی بسیار سریعتر از تشخیص است. با توجه به پیچیدگیهای صحنه و نظر کاربر، زمان استفاده از شبکههای آشکارساز و پیشبینی در تناوب تعریف شده است و حتی طول دورۀ تناوب را میتوان تغییر داد. این کار انعطافپذیری الگوریتم از لحاظ تنظیم دقت و سرعت موقعیتیابی خودروهای حاضر در صحنه را افزایش میدهد.
شکل (1): الگوریتم طراحیشده در این مطالعه به نام AVD
الگوریتم AVD با دورۀ تناوب برابر با دو فریم اجرا میشود. تاریخچۀ زمانی با استفاده از اطلاعات بهدستآمده از فریمهای قبل به دست میآید و باعث افزایش دقت شبکه پیشبینیکننده میشود. علاوه بر کوتاه در نظر گرفتن زمان پیشبینی برای رسیدن بهدقت بالاتر، مسیر خودرو نیز با یک شبکه طبقهبندیکننده تعیین میشود و سپس با توجه به مسیر تعیینشده، شبکه پیشبینیکننده که برای آن مسیر آموزش دیده است، برای پیشبینی موقعیت خودرو تعیین میشود. در ادامه، الگوریتم پیشنهادی بهتفصیل توضیح داده میشود.
شکل (2):آشکارساز VDS-YOLO طراحیشده در این مطالعه
1-2- شبکه آشکارساز طراحیشده این مطالعه، یک شبکه آشکارسازی مبتنی بر YOLO به نام VDS-YOLO[2] را پیشنهاد میکند. این شبکه در شکل (2) نشان داده شده است. ستون فقرات[3]، گردن[4] و سر[5] سه جزء اصلی آشکارسازهای مبتنی بر YOLO هستند. با توجه بهوضوح بالاتر و ویژگیهای مکانی دقیقتر، نقشههای ویژگی استخراجشده از ستون فقرات در مکانیابی وسایل نقلیه، مؤثرتر از نقشههای ویژگی سایر لایهها در شبکه آشکارساز عمل میکنند. قسمتهای سر و گردن نیز برای تعیین کلاس خودرو مفیدترند؛ زیرا با وجود داشتن لایههایی با جزئیات مکانی کمتر (به دلیل وضوح کمتر)، اطلاعات معنایی و عمق بیشتری را شامل میشوند. آشکارساز پیشنهادشده در این مطالعه، علاوهبر افزایش دقت تشخیص موقعیت خودرو، مقاومت آن را نیز در برابر تغییرات مقیاس خودرو افزایش میدهد. این کار با ماژول SME[6] و بلوک [7]TRF در ستون فقرات انجام میشود. بلوک TRF در شکل (3)، بهمنظور تهیۀ نقشههای ویژگی بهتر با میدانهای ادراکی متفاوت در رزولوشن 26×26 طراحی شده است. در این بلوک از اتصالات باقیمانده[8] استفاده شده است. این اتصالات با حفظ خروجی لایههای قبل، کیفیت آموزش شبکه را بهبود میبخشند. علاوه بر آن، بلوک TRF پیشنهادی شامل دو لایۀ پیچشی 3×3 متوالی است که یک میدان ادراکی 5×5 را تولید میکند. یکلایۀ پیچشی 1×1 را نیز شامل میشود. نقشههای ویژگی استخراجشده در بلوک TRF به دو میدان پذیرنده 3×3 و 5×5 متصل و به لایههای کانولوشن بعدی منتقل میشوند. درواقع با طراحی و استفاده از بلوک TRF بهجای بلوکهای قبلی، ویژگیهایی با میدان گیرنده 3×3، 5×5 به لایه بعدی منتقل میشوند و جزئیات مکانی بیشتری را به دلیل در نظر گرفتن میدان ادراکی کوچکتر به لایۀ بعدی انتقال میدهند. میدانهای ادراکی متفاوت در بلوک TRF، شبکه را در برابر تغییرات مقیاس قوی میسازد.
شکل (3): بلوک TRF پیشنهادی در این مطالعه
علاوه بر طراحی بلوک TRF، از ماژول SME نیز بهمنظور افزایش دقت شبکه آشکارساز استفاده میشود. این ماژول قبل از آموزش آشکارساز آموزش داده و در طول آموزش آشکارساز بهاصطلاح منجمد[9] میشود؛ یعنی نرخ یادگیری برای لایههای این ماژول در طول آموزش آشکارساز صفر در نظر گرفته میشود. درواقع آشکارساز با روش یادگیری انتقالی آموزش داده میشود. ماژول SME که در قسمت پایین شکل (2) نشان داده شده است، بهصورت موازی با لایههای استخراج ویژگی در ابتدای آشکارساز اجرا میشود و با پردازش تصاویر تفاضلی، ویژگیهای مهمتری را برای وسیله نقلیه فراهم میکند که در آنها توجه بیشتری به موقعیت وسایل نقلیه میشود. این نقشههای ویژگی به دو بخش تقسیم میشوند: پیشزمینه و پسزمینه. در علم بینایی ماشین پیشزمینه با استفاده از روشهای مختلفی از پسزمینه جدا میشود. روش مخلوط گاوسی[10] و محاسبه پسزمینه پویا از آن جملهاند. در این روشها حرکت دوربین یا اجسام دیگر غیر از پسزمینه باعث ایجاد خطا میشود. این در حالی است که روشهای مبتنی بر شبکه، خطای بسیار کمتری را ایجاد میکنند. شکل (4) تصویری را نشان میدهد که با استفاده از دو روش مختلف مدلسازی پسزمینه پویا و روش مبتنی بر شبکه به کلاسهای خودرو و پسزمینه تقسیم شده است. روش اول، دریافتن پیشزمینه (وسیله نقلیه) هنگام حرکت برگ درختان دچار خطا میشود. علاوه بر این، همانطور که دیده میشود در این روش، وسایل نقلیۀ جداشده از پسزمینه، انسجام کافی ندارند و بریدهبریده هستند.
(الف)
(ب)
(ج) شکل (4): نمونهای از بخشبندی تصویر (الف) تصویر ورودی (ب) تصویر تفاضلی ازطریق مدلکردن پسزمینه بهصورت پویا. (ج) تصویر قطعهبندی شده با استفاده از شبکه عمیق.
یکی دیگر از اشکالات اساسی روشهای مرسوم مدلکردن پسزمینه، این است که تنها وسایل نقلیه در حال حرکت را میتواند از پسزمینه جدا کند و در جداسازی وسایل نقلیۀ ثابت ناتوان است؛ زیرا این روش، مبتنی بر حرکت است و ذاتاً از یافتن اشیای ثابت ناتوان است. همانطور که در شکل (4-ج) مشاهده میشود روش شبکه مبنا بهطور مؤثر وسایل نقلیه در مقیاسهای مختلف را از پسزمینه جدا میکند. در این مطالعه، قطعهبندی با استفاده از تصاویر تفاضلی انجام میشود که بهعنوان ورودی به یک شبکه عمیق مبتنی بر U-Net به نام LSDN[11] داده میشوند. این شبکه در شکل (5) دیده میشود و شامل یک رمزگذار و رمزگشا است. بهمنظور رسیدن بهسرعت بالاتر، تنها رمزگذار آن در آشکارساز پیشنهادی بهعنوان بلوک [12]VBS استفاده میشود. شبکه LSDN، با استفاده از همان مجموعه تصاویری که برای آموزش آشکارساز استفاده میشود، با Ground-Truth متفاوت آموزش داده میشود. ورودی شبکۀ LSDN، تصویر تفاضلی است که تنها اجسام متحرک در آن مشخص میشوند؛ زیرا اگر جسم، ثابت و بدون حرکت باشد، در تصویر خروجی تفاضل یک فریم و فریم ماقبلش مقدار صفر را خواهد داشت. بنابراین، آشکارساز پیشنهادی در اجسام متحرک با دقت بالایی قادر به تشخیص است و دربارۀ اجسام ثابت، مانند شبکه YOLO پایه عمل میکند.
شکل (5): شبکه بخشبندی کنندۀ سبک LSDN که رمزگذار آن، بلوک VBS در شبکه VDS-YOLO پیشنهادی است.
بلوک VBS شامل سه لایه کانولوشن با کرنل 3×3، لایۀ نرمالسازی، یک تابع فعالسازی خطی اصلاحشده (Relu) و دولایۀ ادغام است. در این بلوک سعی شده است پارامتر قابل یادگیری لایهها تا حد امکان کاهش یابد؛ زیرا هدف این مطالعه، افزایش سرعت تشخیص با دقت قابل مقایسه با آشکارسازهای سریع است. دادههای اضافی و تکراری در تصاویر متوالی ورودی نیز در تصاویر تفاضلی حذف میشوند؛ درنتیجه، تأکید بیشتری بر اطلاعات مفیدی است که ازنظر تعداد بسیار کمتر از دادههای تصویر ورودی است. استفاده از اطلاعات مفید با حجم کم بهجای کل تصویر ورودی که حجم زیادی دارد، نیاز به افزایش عمق شبکه بهمنظور رسیدن بهدقت بالاتر را از بین میبرد و سرعت شبکه آشکارساز را از این طریق میتوان افزایش داد. با وجود اینکه در تعداد زیادی از نقشههای ویژگی خروجی بلوک VBS در آشکارساز VDS_YOLO، وسایل نقلیه و پسزمینه بهخوبی از هم تفکیک شدهاند، تعداد کمی از آنها بسیار تاریک هستند و اطلاعات مهمی ندارند؛ بنابراین، ابتدا با استفاده از لایه GAP[13] اهمیت هر یک از 128 نقشه ویژگی بهصورت = [ , , · · ·, )] ∈
به دست میآید. cl برابر با 128 و H و W معرف طول و عرض نقشههای ویژگی f (i) هستند. میانگین هرکدام از نقشههای ویژگی مطابق با رابطۀ (1) محاسبه میشود.
این مقادیر با تابع SoftMax در رابطۀ (2) نرمالیزه میشوند.
و در بلوک CWAT[14]، با استفاده از آنها میانگین وزندار نقشههای ویژگی براساس مقادیر نرمالشده در رابطۀ (3) محاسبه میشود.
سپس میانگین وزندار بهدستآمده تکرار میشود تا ازنظر تعداد با نقشههای ویژگی دیگری که قرار است با آنها دنبال هم قرار گیرند[15]، در تعادل باشد. بلوک GAP و CWAT از انتقال کانالی که حاوی نقشۀ ویژگی کمارزشی است، به لایۀ بعدی جلوگیری میکند. علاوه بر طراحی بلوک TRF و ماژول SME، انتخاب تعداد و اندازۀ مناسب لنگرها[16] نیز در افزایش دقت آشکارساز پیشنهادی ما مؤثر بوده است. معمولاً در مراحل ابتدایی شبکههای آشکارساز، انتخابهای زیادی برای هدف وجود دارد که در مراحل بعد غربال میشوند و با معیارهایی نظیر MeanIoU[17] کاهش مییابند. در این معیار که نسبت همپوشانی هدف آشکارشده با GroundTruth را تعیین میکند، اگر نسبت همپوشانی کمتر از حد آستانه در نظر گرفته شود، بهطور مثال 40% باشد، هدف نادیده گرفته میشود. با تعریف لنگر، آشکارساز از ابتدا اهدافی که نسبت طول به عرض و اندازۀ آنها به لنگر تعریفشده نزدیک نیست را کاندید هدف در نظر نمیگیرد. این کار باعث میشود تعداد کاندیدهای هدف و درنتیجه، تعداد آشکارسازیهای غلط کاهش یابد. درواقع، لنگرها یک جعبه مرزی از پیش تعریف شده با ارتفاع و عرض معلوم هستند که به افزایش دقت آشکارساز کمک میکنند. آنها براساس اندازۀ وسایل نقلیه در مجموعه دادۀ آموزشی انتخاب میشوند. در این مطالعه، همانطور که در شکل (6-الف) نشان داده شده، تعداد لنگرها برای آموزش شبکه با توجه به معیار MeanIoU برای مجموعه دادۀ آموزشی تعیین شده است. MeanIoU برای تعداد مختلف k لنگر، محاسبه شده است. سپس با توجه به اینکه در k = 10، بهترین میزان همپوشانی بین هدف و لنگرها دیده شده، تعداد 10 لنگر برای آموزش شبکه آشکارساز انتخاب شده است. درواقع، این تعداد لنگر بهترین نتیجۀ ارزیابی تشخیص را در پی دارند. پس از تعیین تعداد لنگرها، اندازه لنگرها باید مشخص شود. معمولاً طول و عرض لنگرها با استفاده از الگوریتمهای خوشهبندی مانند K-means مشخص میشود. در این مطالعه، برای رسیدن بهدقت بالاتر علاوه بر طول و عرض نسبت عرض به طول وسایل نقلیه در دادههای آموزشی نیز در تعیین لنگرها دخالت داده شده است. همانطور که در شکل (6-ب) دیده میشود در فضای 3 بعدی طول، عرض و نسبت طول به عرض، دادههای آموزشی در 10 گروه خوشهبندی شدهاند. در این شکل، خوشهها با رنگهای متفاوت و مراکز آنها با دوایر مشکیرنگ نشان داده شدهاند. در الگوریتم K-means، در ابتدا تعداد خوشهها مشخص میشود. مراکز خوشهها ابتدا بهصورت دستی انتخاب میشوند و در طول الگوریتم تغییر میکنند؛ به طوری که تابع هدف مینیمم شود. دادهها براساس فاصله اقلیدسیشان تا مراکز خوشهها به خوشههای مختلف تعلق میگیرند و درواقع خوشهبندی میشوند. این مراحل تکرار میشود تا مراکز خوشهها تغییر چندانی نکنند.
(الف)
(ب) شکل (6): الف، نمودار IoU برای تعیین تعداد مناسب لنگرها با توجه به دادههای آموزشی UA_DETRAC ب، خوشهبندی دادههای آموزشی UA_DETRAC در فضای سهبعدی با الگوریتم K-means.
2-2- آمادهسازی تاریخچۀ حرکت وسایل نقلیه بلوک پیشبینی موقعیت از اطلاعات سری زمانی هر وسیله نقلیه در فریمهای قبل استفاده میکند. این اطلاعات، تاریخچۀ حرکت وسایل نقلیه در رشتۀ تصویری است که مسیر وسایل نقلیه را نشان میدهند.
در حالی که th، مبدأ زمانی تاریخچۀ حرکت خودرو است.
. x و y مختصات وسیله نقلیه در فریمهای قبل از فریم در حال پردازش هستند. با توجه به اینکه در هر تصویر چندین وسیله نقلیه وجود دارد، تا زمانی که وسیله نقلیه در میدان دید دوربین مداربسته قرار دارد، باید یک نام یا برچسب منحصربهفرد به آن اختصاص داده شود و سپس تاریخچۀ حرکت هر خودرو در یک زیرمجموعه اختصاصی مانند یک تانسور شبیه به[18]FIFO برای همان وسیله نقلیه ذخیره شود. شکل (7)، خروجی برچسبگذاری چندین فریم متوالی از مجموعه دادههای این مطالعه را نشان میدهد. در این شکل برچسبهای مختلف با رنگهای متفاوت نشان داده شدهاند؛ برای مثال، در مجموعه دادۀ UA_DETRAC برچسب 1، با رنگ آبی، برچسب 2، با رنگ قرمز و برچسبهای 3 و 4 با رنگهای سبز و آبی فیروزهای مشخص شدهاند. همانطور که دیده میشود در طول زمان برچسب اتوبوس و سایر وسایل نقلیه تغییر نکرده است. وجود این برچسبها سبب میشود تاریخچۀ مسیر حرکت خودروهای مختلف بهدرستی در تانسور ثبت شود و مکان یک خودرو در فریم n اُم در تاریخچۀ حرکت خودروی دیگر ثبت نشود. برای مجموعه دادۀ Highway نیز همین توضیحات صادقاند. همانطور که دیده میشود برچسب هر خودرو در طول فریمهای متوالی تغییر نکرده است. معیار فاصله شباهت هر وسیلۀ نقلیه با مشخصات [ , , , و معیار RMSE حاصل میشود که در آن، A معرف مساحت وسیلۀ نقلیه، I میانگین شدت روشنایی مربوط به پیکسلهای متعلق بهوسیلۀ نقلیه و x و y موقعیت افقی و عمودی وسیلۀ نقلیه در فریم t+1 اُم است. درواقع، فاصله شباهت بین دو وسیله نقلیه با مجذور مربعات فواصل بین موقعیت، شدت متوسط و مساحت خودروها در فریم جاری و فریم قبل آن (فریم t اُم) تعیین میشود.
شکل (7): نتایج دیداری برچسبگذاری پایدار
3-2- شبکههای طبقهبندیکنندۀ مانور و پیشبینیکنندۀ موقعیت وسایل نقلیه در الگوریتم AVD ارائهشده در این مطالعه، با استفادۀ متناوب از طبقهبند مسیر، شبکههای بازگشتی پیشبینیکننده و شبکههای آشکارساز مکانیابی وسایل نقلیه انجام میشود. دلیل افزایش سرعت الگوریتم، سرعت بیشتر پیشبینی نسبت به آشکارسازی است. همچنین، ابعاد خودرو علاوه بر موقعیت آن قابل پیشبینی است؛ اما به دلیل اینکه دوره پیشبینی در این تحقیق دو فریم است و تشخیص و پیشبینی بهصورت یک فریم در میان انجام میشود، تغییر در ابعاد خودرو بسیار ناچیز و قابل صرفنظر است. ورودی شبکههای پیشبینی، تاریخچه موقعیت خودروهای حاضر در صحنه است و چون بسیار دقیق است، دقت پیشبینی را افزایش میدهد. درواقع، شبکههای آشکارساز و پیشبینیکننده در الگوریتم AVD مکمل یکدیگرند. طبقهبند مسیر نیز برای افزایش بیشتر شبکه پیشبینیکننده طراحی شده است. شبکههای بازگشتی مبتنی بر LSTM وابستگیهای زمانی طولانیمدت را به حساب میآورند و بنابراین، از مدلهای پیشبینی موقعیت سنتی مانند مدل شتاب ثابت(CA) دقیقترند. در مدل شتاب ثابت، با توجه به رابطۀ (4)، موقعیت خودرو در قاب فعلی (p2) براساس موقعیت خودرو در قاب قبلی (p1) و سرعت و شتاب خودرو حاصل میشود.
که در آن شتاب (a) و سرعت (v) معلوم در نظر گرفته میشوند؛ با این حال، این فرض همیشه درست نیست و سرعت و شتاب خودروها با توجه به شرایط ترافیکی و تصمیم راننده ممکن است بارها تغییر کند. در شبکههای بازگشتی، تغییر مسیر توسط شبکه برای مقادیر متفاوت سرعت و شتاب در طول زمان و مسیرهای ممکن رانندگی آموخته شده است. از آنجایی که این شبکهها چندین تابع فعالسازی غیرخطی سیگموئید و تانژانت شبکۀ هذلولی را شامل میشوند، الگوهای حرکتی پیچیده را پیشبینی میکنند (شکل(8)).
شکل (8): ساختار شبکه بازگشتی LSTM
این توابع تعیین میکنند کدام اطلاعات ذخیرهشده از فریمهای قبلی، حفظ و کدامیک از حافظه شبکه حذف شوند. همچنین، چه اطلاعاتی از فریم فعلی باید ذخیره و پردازش شوند. در این مطالعه، از شبکه بازگشتی LSTM استفاده شده است. معادلات مربوط به عملکرد دروازههای[19] این شبکه بهصورت زیر بیان میشوند:
،اطلاعات ورودی در فریم فعلی است و تاریخچۀ حرکت وسیله نقلیه است که از بلوک آمادهسازی اطلاعات سری زمانی به دست آمده است؛ در حالی که خروجی شبکه در قاب قبلی و خروجی شبکه در فریم جاری است. همچنین،" " نشاندهنده نماد ضربنقطهای است. ماتریسهای وزن و بهترتیب دروازههای ورودی، خروجی و فراموشی را نشان میدهند؛ در حالی که سلول حالت که نقش حافظه را در شبکه بازگشتی ایفا میکند، در هر فریم بهروزرسانی میشود. در این مطالعه، از شبکه LSTM برای رگرسیون مسیر وسایل نقلیه در سه حالت حفظ خط، گردش به چپ و گردش به راست وسایل نقلیه در مجموعه دادههای این مطالعه استفاده میشود. معماری الگوریتم پیشنهادی در شکل (9) نشان داده شده است. الگوریتم پیشنهادی شامل بخشهایی درباره آمادهسازی اطلاعات زمانی، طبقهبندی مسیر و پیشبینی موقعیت خودرو است. بخش طبقهبندی مسیر بهمنظور بهبود عملکرد شبکه پیشبینیکنندۀ موقعیت طراحی شده است. این شبکۀ طبقهبندی کننده است که با توجه به تاریخچۀ مسیر حرکت وسیلۀ نقلیه و وسایل نقلیۀ اطراف آن تعیین میکند خودرو در یک خط مستقیم حرکت میکند یا تغییر مسیر میدهد. در این مطالعه، یک طبقهبندیکننده با سه کلاس مسیر مستقیم، تغییر جهت به چپ و تغییر جهت به راست پیشنهاد میشود و از شبکههای KL-LSTM، RLD-LSTM و LLD-LSTM نیز برای پیشبینی مسیر استفاده میشود. پیشبینی موقعیت هر وسیله نقلیه براساس کلاس مسیر مشخصشده توسط طبقهبندیکننده انجام میشود.
شکل (9): انتخاب شبکه بازگشتی پیشبینیکننده موقعیت با توجه به خروجی طبقهبند مانور
4- نتایج و بحث در این بخش، دادههای UA-DETRAC و Highway از مجموعه دادههای CDNet2014 برای ارزیابی الگوریتم AVD پیشنهادی برای تعیین موقعیت وسیله نقلیه استفاده میشود. الگوریتم AVD از چندین شبکه عمیق تشکیل شده است. آموزش شبکه تشخیص VDS_YOLO و شبکه قطعهبندی تفاضلی سبکوزنLSDN طراحیشده برای ساخت بلوک VBS در شبکه VDS_YOLO با استفاده از بهینهساز Adam[20] بهینه شده است. بهینهسازSGD برای آموزش شبکههای پیشبینی مبتنی بر LSTM استفاده میشود. با مقایسه میانگین دقت[21] (AP) و میانگین زمان اجرای الگوریتم AVD با تحقیقات قبلی، عملکرد آن ارزیابی میشود. کدنویسی در محیط برنامهنویسی و شبیهسازی MATLAB انجام شدهاند و روی رایانهای با ویندوز ده 64 بیتی و پردازنده Core i7-3.60GHz با 16 گیگابایت RAM و کارت گرافیک GTX 1060 اجرا شدهاند.
1-4- مجموعۀ دادهها از آنجایی که در این تحقیق، علاوه بر شبکههای آشکارساز و بخشبندی، از شبکههای پیشبینیکنندۀ موقعیت نیز استفاده میشود و ورودی این شبکهها نیز دادههای سری زمانی هستند که مسیر حرکت خودرو را نشان میدهند، دادههایی برای آموزش و آزمایش الگوریتم پیشنهادی لازم است که شامل تصاویر متوالی باشد. مجموعه دادۀ UA-DETRAC و مجموعه دادۀ Highway از دسته پایه CDNet2014 دارای این خاصیتاند و در این مطالعه استفاده شدهاند. مجموعه داده UA DETRAC شامل تعداد زیادی خودرو در کلاسها و مقیاسهای مختلف است و بهجز وسایل نقلیه، شامل اجسام متحرکی مانند دوچرخه و عابران پیاده نیز هستند. برای آموزش شبکههایVDS_YOLO و LSDN، مجموعه دادهای مناسب است که Ground-Truth مناسب برای کارهای آشکارسازی خودرو و بخشبندی را شامل شود. مجموعه داده Highway برای بخشبندی مناسب است. این مجموعه داده، مجموعهای از تصاویر است که بهطور پیاپی با دوربینهای نظارت بزرگراه گرفته شده و برای آموزش شبکههای LSDN در این مطالعه استفاده شده است؛ اما مجموعه داده Highway فاقد اطلاعات کافی برای آشکارسازی است. مجموعه داده UA-DETRAC نیز حاوی Ground-Truth مناسب برای آشکارسازی وسایل نقلیه است؛ اما برای بخشبندی مناسب نیست؛ بنابراین، در این مطالعه، دادههای مناسب برای هر دو مجموعه داده برای آموزش آشکارساز VDS_YOLO و شبکه بخشبندیکنندۀ LSDN با استفاده از نرمافزار MATLAB در برنامۀ کاربردی[22] Video-Labeler آماده شده است (شکل (12)). در این برنامۀ کاربردی با استفاده از برچسبزدنهای مستطیلی مناطق مورد علاقه[23] بهصورت دستی برای آشکارسازی و برچسبزدن تمام پیکسلهای وسایل نقلیه برای بخشبندی روی تصاویر متوالی، Ground-Truth مناسب تهیه شده است.
2-4- روشهای ارزیابی در این مطالعه، شبکه آشکارساز با استفاده از مجموعه دادههای Highway و UA-DETRAC آموزش داده شده و سپس، عملکرد آن با استفاده از معیارهای ارزیابی رایج مانند متوسط دقت (AP) و محاسبه میانگین زمان اجرا یا نرخ فریم[24] (FPS) ارزیابی شده است. میانگین زمان اجرا سرعت تشخیص را در فریمهای متوالی اندازهگیری میکند. متوسط دقت نیز دقت را برای سطوح مختلف معیار بازیابی[25] اندازهگیری میکند. معیارهای دقت و بازیابی با استفاده از معادلههای (14 و 13) محاسبه میشود.
در این معادلات، مثبت واقعی[26] مربوط به زمانی است که مدل بهدرستی هدف مدنظر را تشخیص میدهد. مثبت کاذب[27] زمانی به وجود میآید که الگوریتم بهاشتباه، هدف را تشخیص میدهد. درواقع، قسمتی از پسزمینه را بهعنوان هدف یا پیشزمینه معرفی میکند. منفی کاذب[28] زمانی اتفاق میافتد که الگوریتم هدف واقعی را بهعنوان پسزمینه تشخیص میدهد. در این حالت، گفته میشود مدل هدف را از دست داده است؛ بنابراین، بازیابی، زمانی کاهش مییابد که هدف از دست برود و دقت، زمانی کاهش مییابد که تشخیصهای غلط یا به عبارت دیگر، مثبت کاذب وجود داشته باشد. از رابطۀ (15) برای تعیین متوسط دقت برای یک کلاس استفاده میشود:
جایی که سطوح پوشش هستند که ابتدا دقت آنها درونیابی میشود، سپس میانگین متوسط دقت در تمام کلاسها بهصورت رابطۀ (16) محاسبه میشود:
همچنین، تعداد پارامترهای شبکه پیشنهادی خود و تعداد محاسبات آن با سایر آشکارسازها مقایسه میشود.
3-4- نتایج ارزیابی در این مطالعه، آشکارساز VDS-YOLO شبکه بخشبندیکنندۀ LSDN، شبکه طبقهبندیکنندۀ مسیر و شبکههای پیشبینی موقعیت با استفاده از الگوریتمهای بهینهسازی ADAM و SGD و اندازه دستۀ[29] 4 و دورۀ[30] 100 آموزش داده شدهاند. اندازۀ دسته، تعداد نمونههای استفادهشده در هر بار بهروزرسانی وزنهای یک شبکه را نشان میدهد. تعداد متفاوت اندازه دسته آزمایش شد و با توجه به اندازه بزرگ تصاویر مجموعه داده UA_DETRAC که برابر با 540×960 است، برای دستیابی به سرعت بالاتر و اجتناب از خطای حافظه، اندازه دسته 4 در نظر گرفته شد. همچنین، دیگر به این دلیل که ورودی شبکه تصاویر متوالی است و این تصاویر شبیه به هماند، اندازه دسته 4 با 8 یا 16 تفاوت بسیار اندکی در دقت دارند. هایپرپارامتر دیگری که در آموزش شبکه باید تنظیم شود، نرخ یادگیری است که میتواند تأثیر چشمگیری بر عملکرد مدل داشته باشد. نرخ یادگیری کوچک منجر به همگرایی آهسته و بهروزرسانی دقیقتر وزنها میشود؛ در حالی که نرخ یادگیری زیاد منجر به همگرایی سریع، اما بهروزرسانی غیردقیق وزنها میشود. انتخاب نرخ یادگیری مناسب معمولاً با آزمون و خطا انجام میشود؛ اما یک روش مناسب در بهینهسازی این است که در دورههای اول آموزش نرخ یادگیری بزرگتر، انتخاب و در دورههای بعدی بهتدریج کوچکتر شود. درواقع، نرخ یادگیری با زمان نسبت عکس داشته باشد. این روش باعث همگرایی شبکه به مقدار بهینۀ سراسری و اجتناب از گرفتارشدن در بهینههای محلی میشود ]27 .[ بر این اساس، شبکه پیشنهادی در 30 دوره اول با نرخ یادگیری 0.001 و در 30 دوره بعدی با نرخ یادگیری 0.0001 و در 40 دوره آخر با نرخ یادگیری را 0.00001 آموزش میبیند. شبکه آشکارساز VDS_YOLO، با استفاده از بلوک VBS که در شبکۀ LSDN آموزش دیده و با روش یادگیری انتقالی به آشکارساز اضافه شده است، دقت الگوریتم AVD را افزایش میدهد. شبکههای پیشبینی بازگشتی در این الگوریتم، سرعت مکانیابی خودرو را افزایش میدهند و شبکه طبقهبندیکنندۀ مسیر، دقت پیشبینی را افزایش میدهد. پیشبینی مبتنی بر شبکه نسبت به روشهای مرسوم پیشبینی موقعیت مانند مدل شتاب ثابت، دقت بیشتری دارد. در شبکههای بازگشتی که بهمنظور پیشبینی استفاده میشوند، از فرضهای نادرستی مانند ثابت در نظر گرفتن سرعت یا شتاب وسیلۀ نقلیه استفاده نمیشود؛ بلکه قبل از اجرا، مسیرهای ممکن برای حرکت خودرو به این شبکهها آموزش داده میشود. در عمل، آنها با توجه به تاریخچۀ حرکت خودرو، مکان خودرو را در فریم بعدی پیشبینی میکنند. در این مطالعه، شبکههای مجزا برای سه مسیر حرکت خودرو با حالت حفظ خط، تغییر مسیر به سمت چپ و تغییر مسیر به سمت راست در نظر گرفته شده است. این کار دقت پیشبینی را افزایش میدهد. در شکل (10) خطای RMSE با در نظر گرفتن تاریخچۀ زمانی برابر با 64 فریم گذشته برای شبکه پیشنهادی، محاسبه و نمودار آن رسم شده است؛ در حالی که در مدل شتاب ثابت، تنها از یک فریم قبلی برای پیشبینی موقعیت استفاده میشود. همانطور که در این شکل نشان داده شده خطای روش پیشنهادی ما بسیار کمتر از مدل شتاب ثابت است.
(الف)
(ب) شکل (10): پیشبینی مسیر و خطای RMSE مربوط به پیشبینی موقعیت وسیله نقلیه
در شکل (11)، نتایج الگوریتم AVD که بهطور متناوب از شبکههای پیشبینی و آشکارسازی استفاده میکند، نشان داده شده است.
شکل (11): میانگین خطای RMSE در ثانیههای متوالی برای پیشبینی مسیر وسیله نقلیه در الگوریتم AVD
همانطور که مشاهده میشود خطا در الگوریتم پیشبینی ما برخلاف سایر تحقیقات [20 و 21]، صعودی نیست و این نتیجه، دستاورد مهمی است که به دلیل جلوگیری از انحراف شبکه پیشبینیکننده حاصل شده است. استفاده متناوب از آشکارساز در طول زمان در الگوریتم AVD از انحراف شبکه پیشبینیکننده جلوگیری میکند و میزان خطا را 50% کاهش میدهد. درواقع، شبکههای پیشبینی و تشخیص در الگوریتم AVD مکمل یکدیگرند. همچنین، پیشبینی ما دقیقتر از [22] است؛ زیرا تأثیر عوامل ترافیکی در طبقهبندی مانور خود نیز محاسبه شده است. شکل (12) نمودار دقت و شکل (13) نتایج دیداری پیادهسازی الگوریتم تشخیص را برای مجموعه دادههای استفادهشده در این مطالعه نشان میدهد. همانطور که در نمودارهای شکل (12) دیده میشود افزایش دقت در آشکارساز پیشنهادی VDS_YOLO برای اتوبوس و مینیبوس بیشتر است. دلیل این امر، علاوه بر ماژول SME، انتخاب دقیق تعداد لنگرها براساس معیار MeanIoU و تعیین اندازه آنها براساس الگوریتم خوشهبندی K-means است.
شکل (12): مقایسۀ منحنیهای دقت برای آشکارساز پیشنهادی VDS_YOLO و آشکارساز YOLOV4_Tiny
در این مطالعه، برای وسایل نقلیهای که آشکارساز بیش از یک جعبه محیطی را تعیین میکند، از فیلتر حذف غیرحداکثرها[31] استفاده میشود و جعبه محیطی با امتیاز آشکارسازی بالاتر انتخاب میشود. همانطور که مشاهده میشود دقت شبکه آشکارساز پیشنهادی با آخرین نسخههای آشکارساز YOLO که از لحاظ حجم پارامترها و تعداد محاسبات نیز سنگین نیستند، مقایسهپذیر است. استفاده از یادگیری انتقالی در آموزش آشکارساز VDS_YOLO و استفاده از میانگینگیری کانال (CWA) در ماژول SME باعث میشود در لایههای ابتدایی آشکارساز، نقشههای ویژگی تولید شود که در آن وسایل نقلیه بهخوبی از پسزمینۀ تصویر متمایز میشوند. با وجود این مکانیسم، دقت شبکه آشکارساز پیشنهادی در عین طراحی سبک ازنظر تعداد پارامتر، با آشکارسازهای بلادرنگ مقایسهپذیر است. عامل دیگری که به افزایش دقت آشکارساز پیشنهادی کمک میکند، استفاده از سرهای آشکارسازی متعدد در مقیاسهای مختلف است که چالش آشکارسازی اجسام کوچک YOLO را بهبود میبخشد. علاوه بر این، استفاده از الگوریتم خوشهبندی سهبعدی برای انتخاب تعداد بیشتری از لنگرها و تعیین اندازههای دقیقتر آنها و استفاده از بلوک TRF در لایههای ابتدایی آشکارساز، آشکارساز را در برابر تغییرات مقیاس خودرو مقاوم میکند. سرعت آشکارساز VDS_YOLO پیشنهادی با کاهش پارامترها در آشکارساز افزایش مییابد؛ درنتیجه، نیازهای سختافزاری آشکارساز کاهش مییابد؛ در حالی که سرعت آن افزایش مییابد. جدول (1) آشکارساز ما را با جدیدترین شبکههای آشکارسازی در تصاویر متوالی از دادههای UA-DETRAC که دارای سه نوع وسیله نقلیه است و دادههای Highway که دارای یک نوع وسیله نقلیه است، مقایسه میکند. همانطور که مشاهده میشود آشکارساز ما ازنظر دقت با آنها مقایسهپذیر است و دقت بهتری دارد. جدول (2) پارامترهای قابل یادگیری و تعداد محاسبات آشکارساز پیشنهادی ما را با سایر آشکارسازها مقایسه میکند. آشکارساز پیشنهادی ما سریعتر و مقرون به صرفهتر است؛ زیرا پارامترهای قابل یادگیری کمتری نسبت به رقبا دارد. در جدول (1) آشکارساز پیشنهادی و سایر شبکههای بلادرنگ ازلحاظ دقت مقایسه شدهاند. در جدول (2)، ازلحاظ تعداد پارامترها و تعداد محاسبات مقایسه انجام شده است. همانطور که دیده میشود شبکه پیشنهادی VDS_YOLO، 32% از شبکه YOLOV4_TINY سبکتر است؛ با این حال، 2.8% برای مجموعه دادۀ Highway و 4.6% برای مجموعه دادۀ UA_DETRAC دقیقتر است. دلیل این برتری، علاوه بر بلوک TRFو انتخاب مناسب انکورها، تولید نقشههای ویژگی قطعهبندیشده و استفاده از آنها در آشکارساز پیشنهادی است.
شکل (13): نتایج دیداری آشکارساز پیشنهادی
جدول( 1): مقایسۀ عملکرد آشکارساز پیشنهادی و سایر شبکههای بلادرنگ ازلحاظ میانگین دقت
جدول (2):. مقایسه آشکارسازی پیشنهادی و شبکههای آشکارساز مبتنی بر YOLO ازلحاظ تعداد پارامترها و محاسبات
در الگوریتم پیشنهادی، تصاویر متوالی ورودی به بسته فریمهای کوچکتر، تقسیم و سپس در هر بسته فریم کوچک n فریمی به تعدادm بار، شبکه پیشبینی وn-m بار شبکه آشکارساز اجرا میشود و این روال تکرار میشود. پارامترهای سوییچینگ بین شبکههای آشکارساز و پیشبینیکننده یعنی n و m تغییر داده و نتایج آزمایشات بهصورت نمودار در شکل (14) نمایش داده شدند. همانطور که دیده میشود سرعت الگوریتم موقعیتیابی پیشنهادی، با افزایش تعداد m زیاد میشود. درواقع، دقت الگوریتم AVD با طراحی بهینۀ شبکه پیشنهادی VDS_YOLO و سرعت آن با افزایش تعداد دفعات استفاده از شبکۀ پیشبینیکننده محقق میشود.
شکل(14): مقایسه بین زمان اجرای الگوریتم پیشنهادی AVD برای یک دورۀ n فریمی که در آن شبکه پیشبینی m دفعه و شبکه تشخیص n-m دفعه اجرا میشود.
5- نتیجهگیری الگوریتم پیشنهادی AVD در این مطالعه سرعت موقعیتیابی خودرو را افزایش میدهد و ازلحاظ تنظیم سرعت و دقت بسیار انعطافپذیر است. این الگوریتم بهطور متناوب از شبکه آشکارساز مبتنی بر YOLO، طبقهبندیکننده مانور و شبکه پیشبینی بازگشتی در فریمهای مختلف استفاده میکند. براساس پیچیدگی تصاویر و تقاضای کاربر دربارۀ سرعت و دقت، ممکن است از شبکه آشکارساز بهتنهایی یا همراه با شبکههای دیگر استفاده شود. شبکه آشکارساز پیشنهادی به نام VDS_YOLO از تصاویر تفاضلی و یک مکانیسم توجه مبتنی بر بخشبندی پیشنهادشده در این مطالعه استفاده میکند و نقشههای ویژگی بهتری را نسبت به سایر آشکارسازهای خانوادۀ YOLO ایجاد میکنند که باعث افزایش دقت آشکارساز VDS_YOLO در عین سبک و کمحجم بودن آن میشود. به دلیل وجود این مکانیسم، در آموزش آشکارساز از روش یادگیری انتقالی استفاده شده است. این مکانیسم با طراحی یک شبکه سبک بخشبندیکنندۀ مبتنی بر U-NET به نام LSDN اجرا شده است. ورودی این شبکه، تصاویر تفاضلی است که دادههای مربوط به رنگ و بافت تصویر و همبستگیهای مربوط به پسزمینۀ تصویر در آن حذف شده و امکان طراحی شبکه LSDN بهصورت سبک و کمعمق را فراهم آورده است. علاوه بر آن، الگوریتم پیشنهادی به کاربر اجازه میدهد با تغییر تعداد دفعات استفاده از شبکه پیشبینی و آشکارسازی و تغییر طول دورۀ تناوب مدنظر در الگوریتم AVD، سرعت و دقت موردنیاز را با توجه به کاربردهای مختلف تنظیم کند. استفاده از بلوک TRF در لایههای ابتدایی آشکارساز که از اتصالات باقیمانده بهره میگیرد، مقاومت آشکارساز را در برابر تغییرات مقیاس افزایش میدهد. عامل دیگر افزایش دقت آشکارساز، تعداد مناسب لنگرها و خوشهبندی دادههای آموزشی در فضای سهبعدی است. همۀ عوامل ذکرشده، آشکارساز پیشنهادی را از لحاظ دقت و سرعت با آشکارسازهای بلادرنگ مقایسهپذیر میسازد. استفاده از شبکه پیشبینیکننده در الگوریتم پیشنهادی نیز، میانگین زمان اجرای الگوریتم را کاهش و سرعت آن را افزایش میدهد؛ زیرا با توجه به اینکه در شبکه پیشبینیکنندۀ موقعیت، تنها از تاریخچۀ حرکت خودرو استفاده میشود و کل تصویر پردازش نمیشود، سریعتر از شبکه آشکارساز اجرا میشود. طبقهبندی مانور و مسیر خودرو نیز برای افزایش دقت پیشبینی طراحی شده است. در این شبکه، علاوه بر مسیر هر خودرو، مسیر و موقعیت خودروهای اطراف آن خودرو نیز در تعیین مسیر آن در نظر گرفته شده است. وجود دادههای استخراجشده از آشکارساز بهعنوان ورودی شبکه پیشبینیکننده نیز عاملی دیگر بر افزایش دقت این شبکه است که علاوه بر داشتن سرعت بالا، قابلیت آن را دوچندان میکند. به عبارت دیگر، شبکههای طراحی و استفادهشده در الگوریتم AVD مکمل یکدیگرند و باعث افزایش سرعت مکانیابی با دقت مطلوب میشوند.
[1] تاریخ ارسال مقاله:24 /11/1401 تاریخ پذیرش مقاله: 08/07/1402 نام نویسندۀ مسئول: پیمان معلم نشانی نویسندۀ مسئول: ایران، اصفهان، دانشگاه اصفهان، دانشکده فنی و مهندسی، گروه مهندسی برق
[1] Accelerate Vehicle Detection [2] Vehicle Differential Segmentation YOLO [3] Backbone [4] Neck [5] Head [6] Segmented Map Extraction [7] Three Receptive Field [8] Residual [9] Freeze [10] Mixture of Gaussian [11] Lightweight Segmentation Deep Network [12] Vehicle and Background Segmentation Block [13] Global Average Pooling [14] Channel-Wise Average Thresholding [15] Concatenation [16] Anchor Box [17] Mean Intersection over Union [18] First In First Out [19] Gate [20] Adaptive Moment Estimation [21] Average Precision [22] Application [23] Region of Interest [24] Frame Rate [25] Recall [26] True Positive (TP) [27] False Positive (FP) [28] False Negative (FN) [29] Batch Size [30] Epoch [31] Non-Maximal Suppression | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[1] G. Verma, A. Gupta, S. Bansal, and H. Dhiman, "Monitoring Maritime Traffic with Ship Detection via YOLOv4." pp. 1-7, Feb 2022. [2] N. Kavitha and D. Chandrappa, "Optimized YOLOv2 based vehicle classification and tracking for intelligent transportation system," Results in Control and Optimization, Vol. 2, p. 100008, Apr 2021. [3] K. Liu and G. Mattyus, "Fast multiclass vehicle detection on aerial images," IEEE Geoscience and Remote Sensing Letters, Vol. 12, No. 9, pp. 1938-1942, Jun 2015. [4] Y. Shen, D. Zhang, Z. Song, X. Jiang, and Q. Ye, "Learning to reduce information bottleneck for object detection in aerial images," IEEE Geoscience and Remote Sensing Letters, Apr 2023. [5] Y.-F. Lu, J.-W. Gao, Q. Yu, Y. Li, Y.-S. Lv, and H. Qiao, "A Cross-Scale and Illumination Invariance-Based Model for Robust Object Detection in Traffic Surveillance Scenarios," IEEE Transactions on Intelligent Transportation Systems, Apr 2023. [6] Y.-C. Chiou, L. W. Lan, and C.-M. Tseng, "A novel method to predict traffic features based on rolling self-structured traffic patterns," Journal of intelligent transportation systems, Vol. 18, No. 4, pp. 352-366, Oct 2014. [7] Y. Chen, D. Zhao, H. Li, D. Li, and P. Guo, "A temporal-based deep learning method for multiple objects detection in autonomous driving," in 2018 international joint conference on neural networks (IJCNN), IEEE, pp. 1-6 , Jul 2018. [8] Y. Cai, H. Wang, Z. Zheng, and X. Sun, "Scene-adaptive vehicle detection algorithm based on a composite deep structure," IEEE access, Vol. 5, pp. 22804-22811,Sep 2017. [9] Z. Hu, T. Turki, N. Phan, and J. T. Wang, "A 3D atrous convolutional long short-term memory network for background subtraction," IEEE Access, Vol. 6, pp. 43450-43459, Jul 2018. [10] Y. Li, S. Wang, Q. Tian, and X. Ding, "Learning cascaded shared-boost classifiers for part-based object detection," IEEE transactions on image processing, Vol. 23, No. 4, pp. 1858-1871,Feb 2014. [11] O. S. Amosov, S. G. Amosova, Y. S. Ivanov, and S. V. Zhiganov, "Using the deep neural networks for normal and abnormal situation recognition in the automatic access monitoring and control system of vehicles," Neural Computing and Applications, Vol. 33, No. 8, pp. 3069-3083, Apr 2021. [12] G. Singh, M. Pal, Y. Yadav, and T. Singla, "Deep neural network-based predictive modeling of road accidents," Neural Computing and Applications, Vol. 32, pp. 12417-12426, Aug 2020. [13] W. Chu, Y. Liu, C. Shen, D. Cai, and X.-S. Hua, "Multi-task vehicle detection with region-of-interest voting," IEEE Transactions on Image Processing, Vol. 27, No. 1, pp. 432-441, Oct 2017. [14] K. B. Lee and H. S. Shin, "An application of a deep learning algorithm for automatic detection of unexpected accidents under bad CCTV monitoring conditions in tunnels," in 2019 International Conference on deep learning and machine learning in emerging applications (Deep-ML), 2019: IEEE, pp. 7-11. [15] Z. Chen et al., "Vehicle detection in high-resolution aerial images based on fast sparse representation classification and multiorder feature," IEEE transactions on intelligent transportation systems, Vol. 17, No. 8, pp. 2296-2309, 2016. [16] N. K. Chauhan and K. Singh, "A review on conventional machine learning vs deep learning," in 2018 International conference on computing, power and communication technologies (GUCON), IEEE, pp. 347-352, Sep 2018. [17] C.-T. Lam, B. Ng, and C.-W. Chan, "Real-time traffic status detection from on-line images using generic object detection system with deep learning," in 2019 IEEE 19th International Conference on Communication Technology (ICCT), IEEE, pp. 1506-1510, Oct 2019. [18] K. S. Chandrasekar and P. Geetha, "A new formation of supervised dimensionality reduction method for moving vehicle classification," Neural Computing and Applications, vol. 33, pp. 7839-7850, 2021. [19] C. Li and P. Xu, "Application on traffic flow prediction of machine learning in intelligent transportation," Neural Computing and Applications, Vol. 33, pp. 613-624, Jan 2021. [20] L. Tang, F. Yan, B. Zou, W. Li, C. Lv, and K. Wang, "Trajectory prediction for autonomous driving based on multiscale spatial‐temporal graph," IET Intelligent Transport Systems, Vol. 17, No. 2, pp. 386-399, 2023. [21] J. Yan et al., "Trajectory prediction for intelligent vehicles using spatial‐attention mechanism," IET Intelligent Transport Systems, Vol. 14, No. 13, pp. 1855-1863, 2020. [22] N. Zarei, P. Moallem, and M. Shams, "Fast-Yolo-Rec: incorporating yolo-base detection and recurrent-base prediction networks for fast vehicle detection in consecutive images," IEEE Access, Vol. 10, pp. 120592-120605, 2022. [23] F. Zhang, F. Yang, C. Li, and G. Yuan, "CMNet: A connect-and-merge convolutional neural network for fast vehicle detection in urban traffic surveillance," IEEE Access, Vol. 7, pp. 72660-72671, 2019. [24] H. R. Alsanad, O. N. Ucan, M. Ilyas, A. U. R. Khan, and O. Bayat, "Real-time fuel truck detection algorithm based on deep convolutional neural network," IEEE Access, Vol. 8, pp. 118808-118817, 2020. [25] P. Adarsh, P. Rathi, and M. Kumar, "YOLO v3-Tiny: Object Detection and Recognition using one stage improved model," in 2020 6th international conference on advanced computing and communication systems (ICACCS), 2020: IEEE, pp. 687-694. [26] Q. Liu, X. Fan, Z. Xi, Z. Yin, and Z. Yang, "Object detection based on Yolov4-Tiny and Improved Bidirectional feature pyramid network," in Journal of Physics: Conference Series, 2022, Vol. 2209, No. 1: IOP Publishing, p. 012023. [27] C. Darken and J. Moody, "Note on learning rate schedules for stochastic optimization," Advances in neural information processing systems, Vol. 3, 1990. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 162 تعداد دریافت فایل اصل مقاله: 160 |