تعداد نشریات | 43 |
تعداد شمارهها | 1,675 |
تعداد مقالات | 13,678 |
تعداد مشاهده مقاله | 31,693,020 |
تعداد دریافت فایل اصل مقاله | 12,521,344 |
طراحی سلول حافظۀ SRAM با انرژی مصرفی کم و قابلیت محاسبه در حافظه برای اجرا شبکههای عصبی | ||||||||||||||||||||||||||||||||
هوش محاسباتی در مهندسی برق | ||||||||||||||||||||||||||||||||
مقالات آماده انتشار، اصلاح شده برای چاپ، انتشار آنلاین از تاریخ 21 آبان 1403 اصل مقاله (1.84 M) | ||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی فارسی | ||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/isee.2024.138212.1636 | ||||||||||||||||||||||||||||||||
نویسندگان | ||||||||||||||||||||||||||||||||
سید حسن هادی نعمتی1؛ نیما اسلامی2؛ محمدحسین معیری* 3 | ||||||||||||||||||||||||||||||||
1کارشناسی ارشد، دانشکده مهندسی برق، دانشگاه شهید بهشتی، تهران، ایران | ||||||||||||||||||||||||||||||||
2دانشجوی دکتری، دانشکده مهندسی برق، دانشگاه شهید بهشتی، تهران، ایران | ||||||||||||||||||||||||||||||||
3دانشیار، گروه الکترونیک، دانشکده مهندسی برق، دانشگاه شهید بهشتی، تهران، ایران | ||||||||||||||||||||||||||||||||
چکیده | ||||||||||||||||||||||||||||||||
در این مقاله یک سلول حافظۀ دسترسی تصادفی ایستا (SRAM) جدید 9 ترانزیستوری ارائه شده است. در این سلول حافظه، با جداسازی فرآیندهای خواندن از نوشتن، تقابل ذاتی بین این دو فرآیند که در ساختارهای مرسوم وجود دارد، حل شده است. سلول پیشنهادی توانایی اجرای محاسبات در حافظه را دارا است. برای افزایش حاشیۀ نویز نوشتن در ساختار پیشنهادی، از شیوۀ شناورسازی گرۀ داده استفاده شده است. این امر سبب جلوگیری از تقابل ترانزیستورها هنگام نوشتن داده در سلول میشود. همچنین، به منظور حل مشکل نوشتن ناخواسته در سلولهای نیمهانتخابی، سیگنالبندی سطری و ستونی در طرح پیشنهادی در نظر گرفته شده است. برای ارزیابی کاربردی عملکرد سلول پیشنهادی، ساختار شبکۀ عصبی LeNet-5 دودوییشده با بهرهگیری از قابلیت محاسباتی سلول SRAM پیشنهادی شبیهسازی شده است. در این راستا، با بهرهگیری از امکان محاسبۀ منطقهای AND/NAND و OR/NOR و ترکیب آنها برای اجرای گیت XNOR در ساختار پیشنهادی، لایههای متفاوت شبکۀ LeNet-5 پس از شبیهسازی در سطح مداری، به طور کامل به یکدیگر متصل میشوند و ساختار اجرا میشود. نتایج نشان میدهد میزان انرژی مصرفی ساختار پیشنهادی در مقایسه با ساختارهای مقایسهشده تا 46 درصد کمتر است. | ||||||||||||||||||||||||||||||||
کلیدواژهها | ||||||||||||||||||||||||||||||||
سلول حافظۀ SRAM؛ شبکۀ عصبی؛ محاسبه در حافظه؛ انرژی مصرفی | ||||||||||||||||||||||||||||||||
اصل مقاله | ||||||||||||||||||||||||||||||||
حافظههای SRAM از جملۀ حافظههای پرسرعت هستند که در کاربردهایی وسیع از سیستمهای کامپیوتری استفاده میشوند [1]. اینترنت اشیاء (IoT[1])، شبکههای حسگر بیسیم (WSN[2])، ابزارهای زیستپزشکی قابل کاشت و دستگاههای الکترونیکی قابل حمل از جملۀ کابردهای نیازمند به حافظههای سریع SRAM هستند که در استفادۀ طولانیمدت به مصرف کمتوان نیاز دارند [2]. از آنجا که بخشی جالب توجه از مساحت تراشههای کامپیوتری توسط این حافظهها اشغال شده است [3]، کاهش توان مصرفی حافظۀ SRAM از جملۀ رویکردهایی است که بسیار مورد توجه پژوهشگران قرار گرفته است. از سوی دیگر، کاهش ابعاد ترانزیستورها سبب بروز چالشهایی فراوان همچون اثرات کانال کوتاه، حاملهای داغ و اشباع سرعت شده است. از جملۀ رویکردهایی نوین که امروزه مورد استقبال صنعت قرار گرفتهاند، فناوری جایگزین FinFET است [4]. در این فناوری، گیت به واسطۀ ساختار سهبعدی خود، از سه وجه بر کانال سیلیکونی احاطه و تا حدی بسیار خوب بر جریان عبوری از کانال نظارت دارد [5]. زدودن ناحیۀ بالاسر گیت سهبعدی ترانزیستور FinFET سبب ایجاد ساختاری با دو گیت مستقل (IG-FinFET) میشود [6]. در این ساختار هر یک از گیتها به طور مستقل قادر به کنترل جریان عبوری کانال است و در صورت فعال شدن یکی از گیتها، ترانزیستور روشن میشود. گفتنی است، با توجه به نیاز روزافزون به کاربردهایی مانند موتورهای جستوجو و شبکههای عصبی، حجم دادههای تحت پردازش در حال افزایش است [7]؛ این در حالی است که با توجه به اینکه معماری بیشتر سیستمهای کامپیوتری امروزی بر اساس معماری واننیومن است که در آن پردازنده و حافظه مجزا از هم واقع شدهاند و فقط از طریق گذرگاهی با پهنای باند محدود با یکدیگر ارتباط برقرار میکنند، با افزایش حجم اطلاعات تبادلی بین پردازنده و حافظه، تأخیر و توان مصرفی سیستم بهشدت افزایش خواهد یافت [8]. به منظور حل این چالش، راهکار محاسبات در حافظه بسیار مورد توجه قرار گرفته است. در این روش بسیاری از محاسبات ساده با کمترین سربار در داخل حافظه اجرا میشوند و به تبادل داده بین پردازنده و حافظه نیاز نیست (شکل 1) [9]. شکل (1): ساختار محاسبه در حافظه در سالهای گذشته، ساختارهای گوناگون حافظۀ SRAM طراحی شدهاند تا در کنار توانایی ذخیرۀ داده با قابلیت اطمینان زیاد و توان مصرفی کم، توانایی اجرای محاسبات پایهای در حافظه را نیز ممکن کنند. بیشتر ساختارهای ارائهشده مبتنی بر ساختار 6 و 8 ترانزیستوری رایج هستند [7], [8], [9], [10], [11]. در مقالۀ [7]، یک ساختار محاسبه در حافظه مبتنی بر سلول حافظه 8 ترانزیستوری رایج طراحی شده است که توانایی محاسبۀ عملیات منطقی را دارا است. در مقالۀ [8]، یک ساختار 8ترانزیستوری ارائه شده است که دارای هستۀ 6 ترانزیستوری است و با استفاده از دو ترانزیستور اضافهشده، فرآیند محاسبه در حافظه را روی دو خط داده انجام میدهد. در مقالۀ [9]، یک ساختار 9 ترانزیستوری طراحی شده است که با استفاده از هستۀ 6 ترانزیستوری و اضافه کردن سه ترانزیستور، فرآیند محاسبه در حافظه را به کمک دو خط داده اجرا میکند. در تمامی ساختارهای محاسبه در حافظه، هستۀ سلول ساختار 6 ترانزیستوری رایج است که توانایی نوشتن آن کم است و پایداری مناسبی در این فرآیند نخواهد داشت. همچنین، ساختار 6 ترانزیستوری رایج در معرض نوشتن ناخواسته در سلولهای نیمهانتخابی است که در ساختارهای محاسبه در حافظه که به محاسبات بیتی در تکسلولها نیاز است، این امر میزان مصرف توان سلولها را به دلیل نیاز به بازنویسی دادههای سلولهای تخریبشده بهشدت افزایش خواهد داد [12]. در این مقاله، یک ساختار نوین SRAM مبتنی بر ترانزیستورهای FinFET ارائه شده است که فرآیندهای خواندن و نوشتن را برای اجرای کارآمد محاسبه در حافظه از هم جدا کرده است . همچنین، به منظور بهبود توانایی نوشتن در سلول، ساختار با استفاده از ساختاری نوین و شناورسازی گرۀ ذخیرۀ داده، فرآیند نوشتن را تسهیل کرده است. به منظور حل مشکل نوشتن ناخواسته در سلولهای نیمهانتخابی به منظور افزایش کارایی محاسبه در حافظه و کاهش توان مصرفی، سلول ارائهشده دارای سیگنالهای فرمان سطری و ستونی است. در ادامه، در بخش دوم، حافظۀ پیشنهادی و نحوۀ عملکرد آن بررسی و به دنبال آن، روش اجرای محاسبات در حافظه بیان میشود. در بخش سوم، نتایج شبیهسازیهای انجامشده روی سلول بررسی و ارزیابی میشود و در بخش پایانی، نتیجهگیری مقاله ارائه میشود. 2- طرح پیشنهادیشکل (2) ساختار 9ترانزیستوری پیشنهادی را به تصویر میکشد. این ساختار متقارن دارای دو ترانزیستور دسترسی (M5, M6) از نوع pFET برای نوشتن داده روی سلول طراحی شده است. ترانزیستورهای M1،M2 ،M3 و M4 تشکیلدهندۀ دو وارونگر پشت به پشت متصل هستند که بازخورد مثبت آن، داده را درون سلول حفظ میکند. همچنین، در این ساختار دو ترانزیستور پشتهشدۀ M7 و M8 نیز تعبیه شدهاند تا در فرآیند نوشتن داده، گرۀ مدنظر شناور شود [11] و داده بهراحتی داخل سلول قرار داده شود. 1-2- حالت نگهداری دادهدر این حالت، خطوط دادۀ BL و BLB و RBL به ولتاژ تغذیه متصل هستند. همچنین، سیگنالهای کنترلی WL و RWL به ولتاژ تغذیه متصل هستند؛ به این ترتیب، داده داخل سلول از محیط بیرون ایزوله و بازخورد مثبت مورد نیاز برای حفظ داده توسط دو وراونگر پشت به پشت برقرار میشود. با توجه به اتصال RWL و RBL به ولتاژ تغذیه در حالت نگهداری، میزان جریانهای نشتی در سلول به میزانی جالب توجه کاهش مییابد.
شکل (2): ساختار طرح پیشنهادی
2-2- فرآیند خواندن داده این فرآیند توسط ترانزیستور M9 اجرا میشود. در این حالت، به طور پیشفرض، خط دادۀ خواندن (RBL) به ولتاژ تغذیه پیششارژ میشود؛ این در حالی است که در حالت اولیه، خط کلمۀ خواندن (RWL) به ولتاژ تغذیه متصل شده است. با رسیدن فرمان فرآیند خواندن، خط کلمۀ خواندن از مقدار ‘1’ به مقدار ‘0’ تغییر وضعیت میدهد. چنانچه دادۀ موجود در گرۀ QB برابر ‘1’ باشد، خط پیششارژشدۀ RBL شروع به دشارژ به سمت زمین میکند و چنانچه این داده ‘0’ باشد، خط RBL در ولتاژ پیششارژ خود باقی خواهد ماند. این تغییرات به طور همزمان توسط تقویتکنندۀ حسی موجود در انتهای آرایه رصد میشوند و دادۀ خواندهشده را ثبت میکنند. با توجه به بهرهگیری از یک ترانزیستور در فرآیند خواندن [8]، سرعت خواندن در این ساختار در مقایسه با سایر طرحهایی که مسیر دشارژ با تعداد ترانزیستور بیشتر دارند، زیادتر است.
3-2- فرآیند نوشتن دادهدر این فرآیند، خط کلمۀ WL به عنوان سیگنال کنترلی در فرآیند نوشتن ایفای نقش میکند. بر این اساس، دادۀ مدنظر ابتدا روی خط دادۀ BL و وارون آن روی خط BLB قرار میگیرد و سپس، خط کلمۀ WL فعال میشود (‘0’ß‘1’). با فعال شدن خط کلمۀ WL، ترانزیستورهای M6 و M5 روشن میشوند و مسیری مستقیم از خطوط داده به گرههای دادۀ سلول فراهم میشود. برای مثال، اگر فرض شود دادۀ ‘0’ درون سلول (گرۀ Q) ذخیره است، چنانچه قرار باشد دادۀ ‘1’ داخل سلول نوشته شود، خط BL به ‘1’ و خط BLB به ‘0’ متصل میشود. با فعال شدن خط WL، مقدار ‘1’ از طریق ترانزیستور M5 به گرۀ Q منتقل میشود. همزمان با این فرآیند، از آنجا که خط BLB حاوی مقدار ‘0’ است و خط WL نیز به ‘0’ متصل شده است، ترانزیستور M7 خاموش است و عملا گرۀ Q شناور است و دادۀ ‘1’ بدون هیچ رقابت و تقابلی با سرعت زیاد درون سلول نوشته خواهد شد. در حالت دیگر، چنانچه درون سلول دادۀ ‘1’ ذخیره شده باشد، برای نوشتن دادۀ ‘0’ درون این سلول، نیاز است تا خطوط BL و BLB به ‘0’ و ‘1’ بهترتیب متصل شوند. سپس، با فعال کردن خط WL، مقادیر موجود روی خطوط داده به گرههای دادۀ سلول منتقل میشوند. نکتۀ حائز اهمیت در سلول پیشنهادی آن است که در صورتی که فقط یکی از خطوط BL یا BLB یا WL تغییر وضعیت دهد، هیچ کدام از گرههای داده به حالت شناوری نمیرود و بازخورد درون سلول برقرار خواهد ماند تا از نوشتن ناخواسته در سلولهای نیمهانتخابی جلوگیری شود 4-2- ساختار محاسبه در حافظهدر ساختار پیشنهادی، با جداسازی فرآیند خواندن از نوشتن، توانایی اجرای محاسبه در حافظه ایجاد شده است. در این راستا، ساختار پیشنهادی توانایی اجرای محاسبات بولین را در ستون دارا است. به منظور اجرای محاسبۀ OR/NOR طبق شکل (3)، ابتدا خط RBL به میزان ولتاژ تغذیه شارژ اولیه میشود. سپس، در گام دوم، بر اساس دادۀ ذخیرهشده در سلول حافظۀ اول و دوم، خط RBL تخلیه میشود یا بدون تغییر باقی خواهد ماند. برای مثال، اگر دادۀ ذخیرهشده در گرۀ QB یکی از سلولها یا هر دو ‘1’ باشد، خط RBL تخلیه میشود؛ این در حالی است که اگر این داده در هر دو سلول ‘0’ باشد، خط RBL دستنخورده باقی خواهد ماند. به منظور اجرای AND/NAND، نیز مانند OR/NOR همین فرآیند اجرا میشود؛ با این تفاوت که میزان زمان فعالسازی RWL محدود میشود. در این شرایط، خط RBL زمانی به صورت کامل تخلیه میشود که دادۀ گرۀ QB در هر دو سلول ‘1’ باشد؛ در غیر این صورت، خط RBL به میزان کافی تخلیه نخواهد شد. شکل (3): محاسبه OR/NOR و AND/NAND 3- نتایج شبیهسازی و ارزیابی سلول پیشنهادیبه منظور ارزیابی و شبیهسازی سلول پیشنهادی، از فناوری فینفت گیت مستقل (IG-FinFET) استفاده شده است [13]، [14]. برخی از پارامترهای مهم این فناوری در جدول (1) مشاهده میشوند. نکتۀ حائز اهمیت در این شبیهسازیها آن است که به منظور ارزیابی منصفانه در تمام سلولهای مقایسهشده از فینفتهای تکباله استفاده شده است. برای ارزیابی ساختار پیشنهادی، مقایسهها با طرحهای موجود بهروز (8TC [7]، IG8T [6]، IG6T [15]، ST12T [16] و NT10T [2]) انجام شدهاند.
جدول (1): برخی از پارامترهای مهم فناوری IG-FinFET
1-3- حاشیۀ نویز ایستای نگهداری (HSNM)حاشیۀ نویز ایستای نگهداری معیاری معتبر و شناختهشده برای سنجش میزان مقاومت سلول در برابر نویزی است که هدف تخریب داده را در حالت نگهداری دارد. این معیار با اندازهگیری بزرگترین ضلع مربع محاسبه میشود که داخل کوچکترین ناحیۀ نمودار پروانه قابل محاط است [16]. شکل (4-الف) نمایشی از نمودار پروانهای ساختار پیشنهادی در ولتاژ کاری 5/0 ولت را به تصویر میکشد. به منظور ارزیابی بهتر سلول، مقایسهای میان HSNM طرح پیشنهادی با پنج ساختار ارائهشده در سالهای گذشته انجام شده است (شکل 4-ب). همانطور که در شکل (4-ب) مشاهده میشود، HSNM سلول پیشنهادی بسیار نزدیک به سایر طرحهای ارائهشده است و در حفظ داده مانند سایر طرحها عمل میکند.
شکل (4): الف) نمودار پروانهای، ب) حاشیۀ نویز تگهداری، پ) حاشیۀ نویز خواندن در ولتاژهای تغذیۀ گوناگون
2-3- حاشیۀ نویز ایستای خواندن (RSNM)همانند معیار HSNM، معیار حاشیۀ نویز ایستای خواندن با اندازهگیری بزرگترین ضلع مربعی محاسبه میشود که داخل کوچکترین ناحیۀ نمودار پروانهای در فرآیند خواندن ایجاد میشود [3]. از آنجا که با بهرهگیری از مسیر مجزای خواندن، فرآیند خواندن داده از سلول پیشنهادی، هیچ تاثیری روی گرههای ذخیرۀ داده ندارد، مقادیر RSNM و HSNM برابر خواهتد بود. شکل (4-پ) مقایسۀ RSNM طرح پیشنهادی را با سایر طرحها نشان میدهد. همانطور که مشاهده میشود، طرح پیشنهادی حاشیۀ نویز خواندن بسیار زیادی نسبت به دو طرح IG8T و IG6T دارد. نکتۀ حائز اهمیت در این مقایسه آن است که طرح IG8T در فرآیند خواندن از سلول با مشکل نیمهانتخابی مواجه است و دادۀ سلول در این فرآیند تغییر خواهد کرد. این امر سبب شده است تا حاشیۀ نویز خواندن از سلول در ولتاژهای زیاد نزدیک به صفر شود. 3-3- قابلیت نوشتن دادهارزیابی فرآیند نوشتن در پژوهشهای مختلف بر مبنای معیارهایی مختلف انجام میشود. از جملۀ شناختهشدهترین این معیارها میزان قابلیت نوشتپذیری داده در سلول (CWLM) است [17]. این معیار با اجرای شبیهسازی حالت ایستا و تغییر WL از ‘1’ به سمت ‘0’ محاسبه میشود تا فاصله ولتاژ WL نسبت به زمین، حاشیه نویز نوشتن را به تصویر کشد (صرفاً برای ترانزیستور نوع pFET) [18]. شکل (5) نوشتپذیری سلول پیشنهادی را در قیاس با سایر طرحها نشان میدهد. شناورسازی گرۀ ذخیرۀ داده همراه با نوشتن به صورت دیفرانسیلی سبب افزایش جالب توجه نوشتپذیری سلول پیشنهادی میشود. همانطور که مشاهده میشود، ساختار دیفرانسیلی IG8T و ساختار 8TC به دلیل وجود رقابت در مدار بالابر با ترانزیستورهای دسترسی، نوشتپذیری کمی دارند.
4-3- تأخیر و انرژی مصرفی در فرآیند خواندنشکل (6) مقایسۀ تأخیر خواندن طرح پیشنهادی را با سایر طرحهای مقایسهشده نشان میدهد. همانطور که در این شکل نشان داده شده است، ساختار پیشنهادی کمترین زمان خواندن را دارا است . علت سرعت زیاد ساختار پیشنهادی، تکترانزیستور بودن مدار خواندن سلول است که مقاومتی بسیار کم را برای تخلیۀRBL از خود نشان میدهد. در میان طرحهای مقایسهشده، ساختار ST12T به دلیل استفاده از سه ترانزیستور در مسیر خواندن، سرعتی بسیار کمتر نسبت به سایر طرحها دارد.
شکل (5): نوشتپذیری سلول پیشنهادی در ولتاژهای گوناگون
یکی دیگر از پارامترهای مهم در ارزیابی عملکرد سلولهای SRAM میزان انرژی مصرفی در فرآیند خواندن است. نتایج شبیهسازی محاسبۀ انرژی در شکل (7) نشان میدهد طرح پیشنهادی کارایی مشابه ساختارهای 8TC، NT10T و IG6T را از خود نشان میدهد و ساختار ST12T به واسطه تأخیر زیاد خواندن، دارای انرژی مصرفی خواندن زیادی نسبت به سایر طرحهای مقایسهشده است. شکل (6): تأخیر خواندن سلول پیشنهادی در ولتاژهای گوناگون 5-3- تأخیر و انرژی مصرفی در فرآیند نوشتن همانطور که شکل (8) نشان میدهد، تأخیر نوشتن سلول پیشنهادی در مقایسه با طرحهایی همچون ST12T که فقط از روش شناورسازی برای نوشتن داده بهره بردهاند، عملکردی بهتر را به ارمغان آورده است. همچنین، ساختار IG6T که ترانزیستورهای دسترسی آن مقاومتی زیاد دارند و به دنبال آن، طرح NT10T، عملکردی ضعیفتر نسبت به طرح پیشنهادی دارند. از سوی دیگر، شکل (9) بهخوبی نشان میدهد طرحهای 8TC و IG8T که از زمان نوشتن خوبی برخوردار هستند، به دلیل توان مصرفی زیاد، انرژی مصرفی بیشتری را نسبت به طرح پیشنهادی دارا هستند. با توجه به شکل (9)، مشاهده میشود طرح پیشنهادی دارای کمترین انرژی مصرفی در فرآیند نوشتن است. شکل (7): انرژی مصرفی خواندن سلول پیشنهادی در ولتاژهای گوناگون شکل (8): تأخیر نوشتن سلول پیشنهادی در ولتاژهای گوناگون شکل (9): انرژی مصرفی نوشتن سلول پیشنهادی در ولتاژهای گوناگون 6-3- توان مصرفی ایستاشکل (10) توان مصرفی ایستای سلولها را در ولتاژهای کاری مختلف نشان میدهد. طرح پیشنهادی در ولتاژهای تغذیۀ پایین، توان مصرفی ایستای کمتری در قیاس با سایر طرحهای مقایسهشده دارد و در ولتاژهای تغذیۀ بالا جای خود را به ساختار ST12T و NT10T خواهد داد. این امر بدان علت است ساختار های بیان شده ترانزیستورهای پشتۀ خاموش بیشتری در حالت نگهداری دارند. گفتنی است، سلول 8TC بیشترین توان مصرفی ایستا را نسبت به سایر طرحها دارا است که دلیل اصلی آن قرارگیری خطوط BL و BLB سلول در حالت پیششارژ است که به افزایش نشتی از ولتاژ تغذیه به مسیرهای منتهی به زمین منجر میشود. شکل (10): توان مصرفی ایستای سلول پیشنهادی در ولتاژهای گوناگون 7-3- ارزیابی کاربردی ساختار پیشنهادیبرای ارزیابی ساختار ارائهشده به صورت کاربردی، ساختار بالا در اجرای شبکۀ عصبی دودویی بررسی و ارزیابی شده است. شبکۀ عصبی دودویی جایگزینی برای شبکههای عصبی با دقت کامل است تا میزان توان مصرفی و حجم محاسبات را با کاهش اندک در دقت حاصل کند [19] .به طور کلی، در شبکههای عصبی بیشترین سربار توان مربوط به لایۀ کانولوشن است [20]؛ از این رو، به منظور اجرای این لایه در شبکۀ عصبی دودویی، نیاز است تا عملیات XNOR بهجای ضرب پنجرۀ داده در وزن مربوط در هر لایه انجام شود و به دنبال آن، پس از محاسبات بالا، جمع یکهای حاصل در مرحلۀ قبل به کمک جمعکننده محاسبه شود [21]. برای مثال، در اجرای لایۀ کانولوشن به کمک پنجرۀ داده با اندازه 3×3، نیاز است تا این پنجرۀ ورودی روی تمام لایۀ کانولوشن حرکت کند و در هر سیکل، عدد باینری وزن لایه در دادۀ داخل پنجره، XNOR شده و به دنبال آن، مجموع تعداد نتایج یکشده در محاسبات XNOR با هم جمع شود. از این رو، در گام نخست، به منظور اجرای XNOR از چهارگیت NAND استفاده شده است؛ از این رو، محاسبۀ XNOR داده در وزن برای هر داده نیازمند چهار سیکل محاسبات است. شکل (11) ساختار کلی شبکۀ عصبی استفادهشده و محاسبات مربوط به XNOR را در داخل حافظه به تصویر میکشد. در این مدل، در ابتدا، محاسبات مربوط به XNOR در حافظه برای دادۀ ورودی و وزن دودویی در نرمافزار HSPICE شبیهسازی و پارامترهای تأخیر و انرژی مصرفی ساختار پیشنهادی استخراج میشوند. سپس، با استفاده از نرمافزار MATLAB، ساختار شبکۀ عصبی اجرا میشود و مقادیر بهدستآمده از مرحلۀ اجرای مداری بر روی شبکۀ طراحیشده مدل میشوند [22]. شبکۀ استفادهشده در این بخش شبکۀ LeNet-5 و مجموعه دادۀ استفادهشده برای ارزیابی سیستم اجراشده، مجموعه دادۀ Fashion-MNIST است [23]، [24]. نکتۀ جالب توجه آن است که شبکۀ LeNet-5 استفادهشده به صورت از پیش آموزشدیده برای کار با دادههای ورودی و وزن دودویی انتخاب شده است. ساختار پیشنهادی با سه ساختار نوین محاسبه در حافظه مقایسه شده است. این سه ساختار جزء ساختارهایی هستند که توانایی اجرای محاسبه در حافظه را دارا هستند. جدول (2) میزان تأخیر و انرژی مصرفی شبکۀ مدنظر را نشان میدهد. با توجه به جدول (2)، مشاهده میشود انرژی مصرفی و تأخیر ساختار پیشنهادی از سایر ساختارهای مقایسهشده کمتر هستند. این امر به آن علت است که در ساختارهای مقایسهشده در محاسبات مربوط به XNOR، تأخیر و انرژی مصرفی در فرآیند نوشتن دادههای میانی و خواندن آنها برای محاسبات پیشرو از ساختار پیشنهادی بیشتر هستند. همچنین، تمامی ساختارهای مقایسهشده از مشکل نوشتن ناخواسته در سلولهای نیمهانتخابی رنج میبرند که سبب میشود تا مصرف توان در این ساختارها به دلیل نیاز به نوشتن مجدد داده در سلولهای تخریبشده بهشدت افزایش یابد. میزان انرژی مصرفی در اجرای ساختار بالا بر اساس سلول پیشنهادی در مقایسه با ساختارهای 8TC، ST12Tو NT10T بهترتیب به میزان 18 درصد، 46 درصد و 22 درصد کمتر است. همچنین، گفتنی است، میزان تأخیر اجرای شبکۀ تحت بررسی نسبت به ساختارهای بیانشده به میزان 37 درصد، 75 درصد و 57 درصد بهترتیب کمتر میباشد. جدول (2): تأخیر و انرژی مصرفی شبکۀ عصبی LeNet-5 دودوییشده
شکل (11): ساختار شبکۀ عصبی اجراشده و مراحل محاسبات XNOR 4- نتیجهگیریدر این مقاله، یک سلول SRAM 9 ترانزیستوری با مصرف توان کم طراحی شده است. در این ساختار، برای حل مشکل تقابل بین فرآیندهای خواندن و نوشتن، مسیرهای این دو فرآیند از هم جدا شدهاند. همچنین، ساختار پیشنهادی قابلیت اجرای محاسبات بیتی OR/NOR و AND/NAND در حافظه را فراهم میکند. در این ساختار، به منظور افزایش حاشیۀ نویز نوشتن، گرۀ ذخیره داده شناور میشود تا داده بهراحتی داخل سلول قرار داده شود. همچنین، به منظور حل مشکل نوشتن ناخواسته در سلولهای نیمهانتخابی، فرمانهای سطری و ستونی اعمال میشوند تا گرۀ ذخیرۀ داده در سلولهای نیمهانتخابی شناور نشود. در ساختار ارائهشده، میزان توان مصرفی نوشتن 19 درصد کمتر از ساختار 8ترانزیستوری رایج در اجرای محاسبات در حافظه است. به منظور ارزیابی کاربردی ساختار پیشنهادی، این ساختار در اجرای شبکۀ عصبی LeNet-5 دودوییشده ارزیابی شده است. نتایج شبیهسازی نشان میدهد میزان تأخیر سیستم نسبت به ساختارهای 8TC ، ST12T و NT10T بهترتیب به میزان 37 درصد، 75 درصد و 57 درصد کمتر بوده است. همچنین، میزان انرژی مصرفی در اجرای شبکۀ عصبی تحت بررسی در مقایسه با ساختار های بیانشده بهترتیب 18درصد، 46 درصد و 22 درصد کمتر است.
[1] تاریخ ارسال مقاله: 06/04/1402 تاریخ پذیرش مقاله: 08/07/1403 نام نویسندۀ مسئول: محمد حسین معیری نشانی نویسندۀ مسئول: ایران، تهران، دانشگاه شهید بهشتی، دانشکده مهندسی برق، گروه الکترونیک
[1] Internet of Things [2] Wireless Sensor Networks | ||||||||||||||||||||||||||||||||
مراجع | ||||||||||||||||||||||||||||||||
[1] E. Abbasian, “A Highly Stable Low-Energy 10T SRAM for Near-Threshold Operation”, IEEE Transactions on Circuits and Systems I: Regular Papers, Vol. 69, No. 12, 2022. doi: 10.1109/TCSI.2022.3207992. [2] E. Abbasian, S. Sofimowloodi, “Energy-Efficient Single-Ended Read/Write 10T Near-Threshold SRAM”, IEEE Transactions on Circuits and Systems I: Regular Papers, Vol. 70, No. 5, 2023. doi: 10.1109/TCSI.2023.3247807. [3] S. Ahmad, N. Alam, M. Hasan, “Pseudo differential multi-cell upset immune robust SRAM cell for ultra-low power applications”, AEU - International Journal of Electronics and Communications, Vol. 83, pp. 366–375, 2018. doi: 10.1016/j.aeue.2017.09.022. [4] S. Sayyah Ensan, M. H. Moaiyeri, M. Moghaddam, S. Hessabi, “A Low-Power Single-Ended SRAM in FinFET Technology”, International Journal of Electronics and Communications, Vol. 99, pp. 361–368, 2018, [Online]. Available: https://www.sciencedirect.com/science/article/abs/pii/S1434841118312615 [5] F. Salmanpour, M. H. Moaiyeri, F. Sabetzadeh, “Ultra-Compact Imprecise 4:2 Compressor and Multiplier Circuits for Approximate Computing in Deep Nanoscale”, Circuits Syst Signal Process, Vol. 40, No. 9, 2021. doi: 10.1007/s00034-021-01688-8. [6] S. Sayyah Ensan, M. H. Moaiyeri, B. Ebrahimi, S. Hessabi, A. Afzali-Kusha, “A low-leakage and high-writable SRAM cell with back-gate biasing in FinFET technology”, J Comput Electron, Vol. 18, pp. 519–526, 2019. doi: 10.1007/s10825-019-01327-1. [7] A. Agrawal, A. Jaiswal, C. Lee, K. Roy, “X-SRAM: Enabling in-memory Boolean computations in CMOS static random-access memories”, IEEE Transactions on Circuits and Systems I: Regular Papers, Vol. 65, No. 12, pp. 4219–4232, 2018. doi: 10.1109/TCSI.2018.2848999. [8] Y. Chen, J. Mu, H. Kim, L. Lu, T. T. H. Kim, “BP-SCIM: A Reconfigurable 8T SRAM Macro for Bit-Parallel Searching and Computing In-Memory”, IEEE Transactions on Circuits and Systems I: Regular Papers, Vol. 70, No. 5, 2023. doi: 10.1109/TCSI.2023.3240303. [9] K. Soundrapandiyan, S. K. Vishvakarma, B. S. Reniwal, “Enabling Energy-Efficient In-Memory Computing with Robust Assist-Based Reconfigurable Sense Amplifier in SRAM Array", IEEE J Emerg Sel Top Circuits Syst, Vol. 13, No. 1, 2023. doi: 10.1109/JETCAS.2023.3243192. [10] Z. Lin, H. Zhan, X. Li, Ch. Peng, W. Lu X. Wu, “In-Memory Computing with Double Word Lines and Three Read Ports for Four Operands", IEEE Trans Very Large Scale Integr VLSI Syst, Vol. 28, No. 5, pp. 1316–1320, 2020. doi: 10.1109/TVLSI.2020.2976099. [11] S. Mittal, G. Verma, B. Kaushik, F. A. Khanday, “A survey of SRAM-based in-memory computing techniques and applications", 2021. doi: 10.1016/j.sysarc.2021.102276. [12] S. H. H. Nemati, N. Eslami, M. H. Moaiyeri, “A Hybrid SRAM/RRAM In-Memory Computing Architecture Based on a Reconfigurable SRAM Sense Amplifier", IEEE Access, Vol. 11, 2023. doi: 10.1109/ACCESS.2023.3294675. [13] F. Kenarangi I. Partin-Vaisband, “Leveraging Independent Double-Gate FinFET Devices for Machine Learning Classification", IEEE Transactions on Circuits and Systems I: Regular Papers, Vol. 66, No. 11, 2019. doi: 10.1109/TCSI.2019.2927441. [14] “Predictive Technology Model (PTM)", Nanoscale Integration and Modeling (NIMO) Group. [Online]. Available: http://ptm.asu.edu/ [15] R. Niaraki Asli, S. Taghipour, “Reliable and high performance asymmetric FinFET SRAM cell using back-gate control", Microelectronics Reliability, Vol. 104, p. 113545, Jan. 2020. doi: 10.1016/J.MICROREL.2019.113545. [16] M. Karamimanesh, E. Abiri, K. Hassanli, M. R. Salehi, A. Darabi, “A robust and write bit-line free sub-threshold 12T-SRAM for ultra-low power applications in 14 nm FinFET technology", Microelectronics J, Vol. 118, 2021. doi: 10.1016/j.mejo.2021.105185. [17] N. Eslami, B. Ebrahimi, E. Shakouri, D. Najafi, “A single-ended low leakage and low voltage 10T SRAM cell with high yield", Analog Integr Circuits Signal Process, Vol. 105, No. 2, 2020. doi: 10.1007/s10470-020-01669-y. [18] H. Makino, Sh. Nakata, H. Suzuki, Sh. Mutoh, M. Miyama, T. Yoshimura, “Reexamination of SRAM cell write margin definitions in view of predicting the distribution", IEEE Transactions on Circuits and Systems II: Express Briefs, Vol. 58, No. 4, pp. 230–234, 2011. doi: 10.1109/TCSII.2011.2124531. [19] C. H. Wang, K. Y. Huang, Y. Yao, J. C. Chen, H. H. Shuai, W. H. Cheng, “Lightweight Deep Learning: An Overview", IEEE Consumer Electronics Magazine, Vol. 13, No. 4, 2024. doi: 10.1109/MCE.2022.3181759. [20] S. M. Rizvi, A. A. H. A. Rahman, U. U. Sheikh, K. A. A. Fuad, H. M. F. Shehzad, “Computation and memory optimized spectral domain convolutional neural network for throughput and energy-efficient inference", Applied Intelligence, Vol. 53, No. 4, 2023. doi: 10.1007/s10489-022-03756-1. [21] S. Angizi, M. Morsali, S. Tabrizchi, A. Roohi, “A Near-Sensor Processing Accelerator for Approximate Local Binary Pattern Networks", IEEE Trans Emerg Top Comput, Vol. 12, No. 1, 2024. doi: 10.1109/TETC.2023.3285493. [22] N. Eslami, M. H. Moaiyeri, “A Flexible and Reliable RRAM-Based In-Memory Computing Architecture for Data-Intensive Applications", IEEE Trans Emerg Top Comput, 2023. doi: 10.1109/TETC.2023.3268079. [23] G. Xu, M. Liu, Z. Jiang, W. Shen, C. Huang, “Online Fault Diagnosis Method Based on Transfer Convolutional Neural Networks", IEEE Trans Instrum Meas, Vol. 69, No. 2, 2020. doi: 10.1109/TIM.2019.2902003. [24] Y. Ying, J. Su, P. Shan, L. Miao, X. Wang, S. Peng, “Rectified Exponential Units for Convolutional Neural Networks", IEEE Access, Vol. 7, 2019. doi: 10.1109/ACCESS.2019.2928442.
| ||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 23 تعداد دریافت فایل اصل مقاله: 27 |