تعداد نشریات | 43 |
تعداد شمارهها | 1,686 |
تعداد مقالات | 13,791 |
تعداد مشاهده مقاله | 32,417,875 |
تعداد دریافت فایل اصل مقاله | 12,801,024 |
انتخاب ژن و طبقه بندی سلول های سرطانی بر پایه داده های ریزآرایه با استفاده از الگوریتم ترکیبی BPSO و BLDA | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هوش محاسباتی در مهندسی برق | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 3، دوره 5، شماره 2، تیر 1393، صفحه 29-46 اصل مقاله (759.42 K) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی فارسی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مهسا جروقی1؛ موسی شمسی2؛ حمیدرضا صابرکاری3؛ محمدحسین صداقی4؛ علی مومن نژاد3 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1کارشناس ارشد مهندسی برق، دانشکده مهندسی برق-دانشگاه صنعتی سهند-تبریز-ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2دانشیار گروه برق، دانشکده مهندسی برق-دانشگاه صنعتی سهند-تبریز-ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3- کارشناس ارشد مهندسی برق، دانشکده مهندسی برق-دانشگاه صنعتی سهند-تبریز-ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4استاد گروه برق، دانشکده مهندسی برق-دانشگاه صنعتی سهند-تبریز-ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
داده های ریزآرایه در تشخیص و طبقه بندی انواع بافت های سرطانی نقش بسزایی دارند. در پژوهش های سرطان همیشه تعداد نسبتا کم نمونه ها در ریزآرایه باعث ایجاد مشکلاتی در طراحی طبقه بندها شده است. بنابراین داده های ریزآرایه قبل از طبقه بندی از طریق تکنیک های انتخاب ژن پیش پردازش و ژن های فاقد اطلاعات آن ها دور ریخته می شود. اساسا یک روش انتخاب ژن مناسب می تواند بطور موثر کارایی دسته بندی بیماری ها (سرطان) را بهبود بخشد. در این مقاله یک روش جدید بر پایه مدل ترکیبی ازدحام ذرات باینری (BPSO) و آنالیز تفکیک کننده خطی بیز (BLDA) جهت طبقه بندی داده های ریزآرایه با ابعاد بالا ارائه شده است. ابتدا موقعیت هر ذره بصورت بردار باینری و بصورت تصادفی نمایش داده می شود. بطوریکه هر بیت نشاندهنده یک ژن است. بیت صفر نشاندهنده این است که ویژگی (ژن) متناظر با آن انتخاب نشده و بیت یک نشاندهنده این است که ژن متناظر با آن انتخاب شده است. لذا موقعیت هر ذره بیانگر یک مجموعه ژن بوده و میزان تناسب هر ذره توسط الگوریتم طبقه بندی آنالیز تفکیک کننده خطی بیز جهت ارزیابی کیفیت مجموعه ژن انتخاب شده توسط آن ذره محاسبه می شود. الگوریتم پیشنهادی بر روی چهار مجموعه از پایگاه داده سرطان اعمال و نتایج آن با سایر روش های موجود مقایسه شده است. نتایج پیاده سازی نشان می دهد که الگوریتم پیشنهادی از دقت و اعتبار بالایی در مقایسه با سایر روش های موجود برخوردار بوده و قادر است یک مجموعه کوچک از ژن های حاوی اطلاعات را به گونه ای انتخاب کند که دقت طبقه بندی افزایش یابد. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آنالیز تفکیک کننده خطی بیز؛ انتخاب ویژگی؛ بهینه سازی ازدحام ذرات باینری؛ بیان ژن؛ ریزآرایه؛ طبقه بندی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
فناوری ریزآرایه[1] در سال 1996 متولد و با عناوین آرایههای DNA[2]، تراشههای ژنی، تراشههای DNA و تراشههای زیستی نامگذاری شده است. فناوری ریزآرایه یکی از آخرین پیشرفتها در زمینه زیست شناسی ملکولی است که اجازه نظارت بر بیان هزاران ژن را بهصورت همزمان تنها در یک آزمایش هیبریداسیون میدهد. علاوه بر پتانسیل علمی این فناوری در مطالعه بنیادین بیان ژن؛ یعنی تنظیم و تعاملات ژنها، کاربردهای مهمی در پژوهشهای دارویی و کلینیکی دارد. برای مثال، با مقایسه بیان ژن در سلولهای سالم و ناسالم، ریزآرایه میتواند در شناسایی ژنهای ناسالم برای داروهای درمانی یا ارزیابی تاثیر آنها استفاده شود ]1[. ریزآرایه دارای هزاران نقطه[3] بوده، هریک از این نقاط حاوی دنبالههای مختلف شناخته شده DNA، بهنام نشانگر[4] هستند. این نقاط روی یک اسلاید شیشهای توسط یک arrayer رباتیک چاپ میشوند. دو نوع ریزآرایه بیشترین کاربرد را دارند: آرایههای بر پایه DNA مکمل[5] وآرایه الیگونوکلئوتید که به اختصار الیگو نامیده میشود ]1[. در حالت کلی، دو تفاوت عمده بین ریزآرایه cDNA و ریزآرایه الیگونوکلئوتید وجود دارد: اول اینکه در ریزآرایه cDNA طول قطعه DNA بیشتر از طول قطعه DNA در ریزآرایه الیگونوکلئوتید است؛ دوم اینکه در آزمایشهای ریزآرایهcDNA دو نمونه RNA، نمونه کنترل و نمونه تجربی، با دو فلورسنت مختلف (Cy3 و Cy5) علامت گذاری میشوند ]3-1[. هدف از ریزآرایه cDNA مقایسه بیان ژن در دو نمونه مختلف است. شکل1 مراحل بهدست آوردن دادههای ریزآرایه را نشان میدهد. با توجه به این شکل میتوان مراحل به دست آوردن ریزآرایه DNA را بهصورت زیر بیان کرد:
در ریزآرایه cDNA نمونههای نشاندار شده با هم مخلوط میشوند و سپس با مولکولهای DNA سطح اسلاید هیبرید میشوند. هر چه جفت بازهای بیشتری با هم مکمل شوند، پیوند هیدروژنی قویتری تشکیل میشود. بعد از هیبرید شدن نمونههای نشاندار شده با مولکولهای DNA سطح اسلاید، اسلاید شسته میشود. بر اثر شستشو پیوندهای ضعیفـتر از بین میروند و پیوندهای قویتر باقی میمانند. میزان شدت و قدرت سیگنال نهایی وابسته به میزان نمونههایی است که با توالیهای روی سطح، اتصال قوی برقرار کردهاند. دادههای ریزآرایه بهصورت ماتریسی از هزاران ستون و چند صد سطر هستند که هر سطر نشاندهنده یک نمونه و هر ستون نیز نشاندهنده یک ژن است. ابعاد بالای ویژگیها و تعداد نسبتاً کم نمونهها باعث ایجاد مشکلاتی در آنالیز دادههای ریزآرایه شده است .این مشکلات عبارتند از ]4و5[:
از اینرو، اولین قدم مهم در آنالیز دادههای ریزآرایه کاهش تعداد ژنها یا به عبارتی، انتخاب ژنهای متمایزکننده بهمنظور طبقهبندی است. در این مقاله یک الگوریتم بهینه بر مبنای مدل ترکیبی بهینهسازی ازدحام ذرات باینری[6] و آنالیز تفکیککننده خطی بیز[7] برای اینمنظور ارائه شده است. استفاده از این الگوریتم به کاهش نویز موجود در دادههای ریزآرایه و همچنین، افزایش صحت طبقهبندی آنها منجر میشود. در ادامه، در بخش2 پایگاههای داده ریزآرایه استفاده شده معرفی میشود. در بخش3، فرآیند کلی استخراج ویژگی و طبقهبندی دادههای ریزآرایه مطرح و مراحل مختلف آن توضیح داده میشود. در بخش4 مدل ترکیبی پیشنهاد شده بر پایه الگوریتم ترکیبی بهینهسازی ازدحام ذرات باینری و آنالیز تفکیککننده خطی بیز معرفی و مراحل مختلف آن به تفصیل بیان میشود. نتایج پیادهسازی بر روی چهار پایگاه داده در بخش5 مطرح شده و نهایتا بخش6 شامل نتیجهگیری و جمعبندی است.
شکل (1): مراحل مختلف بهدست آوردن دادههای ریزآرایه]1[
1- پایگاههای دادهدر این مقاله از چهار پایگاه داده ریزآرایه استفاده شده که در ادامه به توضیح آنها میپردازیم. شایان ذکر است که تمامی نمونهها با بهکارگیری آرایههای الیگو نوکلئوتیدی با چگالی بالا اندازهگیری شدهاند ]6[ . دادههای استفاده شده در این مقاله از مرجع ]7[ استخراج شده است. سرطان خون: این پایگاه داده شامل 72 نمونه از آزمایش های ریزآرایه با 7129 سطوح بیان ژن است. مساله اصلی در آن جداسازی دو نوع از دادههای سرطان خون، ALL[8] و AML[9] است. دادهها به دو دسته 34 نمونه کنترل (20 مورد مربوط به ALL و 14 مورد مربوط به AML) که در فرآیند تست استفاده شده و 38 نمونه سرطانی (27 مورد مربوط به ALL و 11 مورد مربوط به AML) استفاده شده در فرآیند آموزش، تقسیم میشوند. سرطان پستان: این پایگاه داده شامل 97 نمونه از آزمایش های ریزآرایه با 24481 سطوح بیان ژن است. دادهها به دو دسته 19 نمونه کنترل (12 مورد مربوط به نمونههای عود کرده[10] و 7 مورد مربوط به نمونههای عود نکرده[11]) که در فرآیند تست استفاده شده و 78 نمونه (34 مورد مربوط به نمونههای عود کرده و 44 مورد مربوط به نمونههای عود نکرده) استفاده شده در فرآیند آموزش، تقسیم میشوند. سرطان ریه: این پایگاه داده شامل 181 نمونه از آزمایش های ریزآرایه با 12533 سطوح بیان ژن است. دادهها به دو دسته 149 نمونه کنترل (15 مورد مربوط به نمونههای [12]MPM و 134 مورد مربوط به نمونههای [13]ADCA که در فرآیند تست استفاده شده و 32 نمونه (16 مورد مربوط به نمونههای MPM و 16مورد مربوط به نمونههای ADCA استفاده شده در فرآیند آموزش، تقسیم میشوند. سرطان پروستات: این پایگاه داده شامل 136 نمونه از آزمایش های ریزآرایه با 12600 سطوح بیان ژن است. دادهها به دو دسته 34 نمونه کنترل (25 مورد مربوط به نمونههای تومور و 9 مورد مربوط به نمونههای بدون تومور) که در فرآیند تست استفاده شده و 102 نمونه (52 مورد مربوط به نمونههای تومور و 50 مورد مربوط به نمونههای نرمال) استفاده شده در فرآیند آموزش، تقسیم میشوند.
2- فرآیند کلی استخراج ویژگی و طبقهبندی دادههای ریزآرایهیکی از مسائل مهم در تحلیل دادههای ریزآرایه انتخاب ژن است و آن فرآیندی است که تعداد کمی از ژنها قبل از طبقهبندی انتخاب میشوند. ابعاد بالا، تعداد نسبتا کم نمونهها و تغییرپذیری ذاتی در فرآیندهای آزمایشگاهی و بیولوژیکی باعث ایجاد مشکلاتی در آنالیز دادههای ریزآرایه شده است. از اینرو، اولین گام مهم در آنالیز دادههای ریزآرایه کاهش تعداد ژنها یا به عبارتی انتخاب ژنهای متمایزکننده بهمنظور طبقهبندی است. این مرحله انتخاب ژن نامیده میشود. شکل2 مراحل کلی استخراج ویژگی و طبقهبندی دادههای ریزآرایه را نشان میدهد. این مراحل در حالت کلی بهصورت زیر هستند که در ادامه با جزئیات کامل مطرح میشوند:
2-1- پیشپردازش دادههای بیان ژنپیش از اعمال الگوریتمهای استخراج ویژگی و طبقهبندی نیاز است که داده مورد استفاده پیشپردازش شود. دادههای مورد استفاده در این مقاله با بهکارگیری نرمافزار Weka فراخوانی شده که دارای فرمت ARFF[14] هستند. بهعلت تغییرات زیاد داده، گسستهسازی مقادیر آن برای دستیابی به صحت طبقهبندی مناسب ضروری است. گسستهسازی فرآیند تبدیل ویژگیها و متغیرهای پیوسته به مقادیر و یا ویژگیهای گسسته است. معمولا طی این فرآیند، دادهها به k بخش با طول یکسان (بازههای یکسان) و یا k% از کل داده (فرکانسهای یکسان) گسسته میشوند.
2-2- انتخاب مجموعه ژنهای حاوی اطلاعات برای طبقهبندی دادههای ریزآرایهپژوهش ها نشان داده که تشخیص دقیق سرطان میتواند با طبقهبندی دادههای ریزآرایه عملی شود. با وجود این، مشکل اصلی در تحلیل دادههای ریزآرایه بعد بالای آنهاست که در نتیجه تعداد بسیار زیاد متغیرها (ژنها) در مقابل تعداد کم نمونهها ایجاد میشود. اگرچه تعداد بسیار زیادی از ژن در دادههای ریزآرایه وجود دارند، تنها بخش اندکی از آنها تاثیر بسزایی در صحت طبقهبندی میگذارند. بسیاری از ژنها عملکرد مشابهی در دو حالت نرمال و غیرنرمال (سرطانی) دارند. همچنین، برخی از ژنها بهصورت نویز در دادهها ظاهر میشوند. وجود ژنهای حاوی نویز در بروز سرطان نقشی نداشته، اثر منفی در صحت طبقهبندی میگذارند. بنابراین، دادههای ریزآرایه قبل از طبقهبندی از طریق تکنیکهای انتخاب ژن پیشپردازش و ژنهای فاقد اطلاعات آنها دور ریخته میشود. انجام اینکار باعث افزایش بازدهی طبقهبندیکننده و همچنین، کاهش پیچیدگی محاسباتی خواهد شد ]8[. بهطور کلی، میتوان گفت سه مدل انتخاب ویژگی (ژن) وجود دارد ]9[. مدل اول مدل فیلتر است که عمل انتخاب ویژگی و طبقهبندی را در دو مرحله جداگانه انجام میدهد. این مدل ژنهایی را به عنوان ژنهای مؤثر انتخاب میکند که دارای توانایی تفکیککنندگی بالایی باشند. این مدل مستقل از طبقهبندی یا الگوریتم یادگیری است و از لحاظ محاسبات ساده و سریع است. مدل دوم مدل wrapper است که انتخاب ویژگی و طبقهبندی را در یک فرآیند انجام میدهد. این مدل در حین فرآیند جستوجوی ژنهای مؤثر، از طبقهبند استفاده میکند. به عبارتی، مدل wrapper از یک الگوریتم یادگیری برای تست زیر مجموعه ژن انتخاب شده استفاده میکند. صحت مدل wrapper نسبت به مدل فیلتر بیشتر است. روشهای مختلفی برای انتخاب زیرمجموعههای مناسب بر مبنای مدل wrapper در مقالات ارائه شده است. در ]10[ از الگوریتمهای تکاملی همراه با طبقهبند K نزدیکترین همسایگی برای این منظور استفاده شده است. در ]11[ الگوریتمهای ژنتیک موازی با بهکارگیری عملگرهای تطبیقی گسترش یافته است. همچنین در ]12[ از مدل ترکیبی الگوریتم ژنتیک و ماشین بردار پشتیبان برای انتخاب یک مجموعه از ژنها و طبقهبندی آنها استفاده شده است. در ]13[ نیز مساله انتخاب و طبقهبندی ژن بهصورت یک مساله بهینهسازی چند مرحلهای مطرح شده که در آن بهطور همزمان تعداد ویژگیها (ژنها) و همچنین تعداد نمونههای اشتباه طبقهبندی شده کاهش داده میشود. نهایتا در مدلهای ترکیبی، فرآیند انتخاب یک مجموعه از ژنهای مؤثر در حین فرآیند آموزش توسط یک طبقهبند خاص صورت میگیرد. یک نمونه از این روش، استفاده از ماشین بردار پشتیبان بههمراه حذف ویژگیهای بازگشتی است. ایده این روش، حذف یک به یک ژنها و بررسی اثر حذف شدن آنها در خطای مورد انتظار است ]14[. الگوریتم حذف ویژگیهای بازگشتی یک روش رتبهبندی ویژگی رو به عقب است؛ به عبارتی آن دسته از ژنهایی که در آخرین مرحله حذف میشوند، بهترین نتیجه طبقهبندی را بهدست میدهند، در حالیکه این ژنها ممکن است بهتنهایی همبستگی خوبی با کلاسها نداشته باشند. مدلهای ترکیبی را میتوان حالت تعمیم یافته مدل wrapper در نظر گرفت. دو نمونه دیگر از مدل ترکیبی در ]15[ و ]16[ اشاره شده است.
2-3- ارزیابی و اعتبار سنجی نتایجآخرین گام در تحلیل دادههای ریزآرایه ارزیابی نتایج حاصل از اعمال الگوریتمهای طبقهبندی است. در این مقاله ارزیابی نتایج بر اساس روش اعتبارسنجی k-fold انجام گرفته که در آن k اشاره به تعداد دفعات تکرار داشته و مقدار آن برابر 10 در نظر گرفته شده است. از اینرو اعتبارسنجی fold-10 به این ترتیب صورت میگیرد که ابتدا نمونهها به 10 بخش تقسیم شده و در هر بار اجرای الگوریتم، 1/0 کل دادهها بهعنوان نمونههای تست و باقیمانده آنها بهعنوان نمونههای آموزشی در نظر گرفته میشود. این روند 10 بار با بهکارگیری دادههای آموزشی و تست مختلف انجام گرفته و نتیجه با گرفتن مقدار متوسط در 10 بار تکرار آزمایش بهدست میآید.
3- مدل پیشنهاد شده بر پایه الگوریتم ترکیبی BPSO و BLDAمدل پیشنهاد شده بر پایه آنالیز همبستگی پیرسون، الگوریتم بهینهسازی ازدحام ذرات باینری و آنالیز تفکیککننده خطی بیز است. شکل(3) بلوک دیاگرام الگوریتم پیشنهادی را نشان میدهد. گامهای اصلی این الگوریتم به صورت زیر هستند که در ادامه با جزئیات کامل مطرح میشوند:
شکل (3): بلوک دیاگرام الگوریتم پیشنهادی
3-1- پیشپردازش دادهها و انتخاب مجموعهای از ژنها با استفاده از آنالیز همبستگی پیرسون[15]بهمنظور امتیازدهی به هر ژن، دو نشانگر ویژگی ایدهآل باینری مطابق رابطه (1) تعریف میشود. اولین نشانگر در کلاس A دارای مقدار یک و در کلاس B دارای مقدار صفر است و دومین نشانگر در کلاس A دارای مقدار صفر و در کلاس B دارای مقدار یک است.
اگر ژنها مشابه نشانگرها باشند یا بهعبارتی فاصله بین ژنها و نشانگرها کوچک باشد، آنگاه این ژنها بهعنوان ژنهای حاوی اطلاعات برای طبقهبندی انتخاب میشوند. در این مقاله برای محاسبه فاصله هر ژن از نشانگرها از معیار آنالیز همبستگی پیرسون استفاده شده که بهصورت زیر تعریف میشود]8[:
که در آن n تعداد نمونههای آموزشی، میانگین ژن، میانگین نشانگر ایدهآل، i امین مقدار از بردار ژن و i امین مقدار باینری از بردار نشانگر ایدهآل است. بهمنظور پیشپردازش اولیه، معیار PC برای تمامی ژنها محاسبه شده و k ژن که دارای PC کوچکتری هستند بهعنوان ژنهای حاوی اطلاعات اولیه انتخاب میشوند.
3-2- الگوریتم بهینهسازی ازدحام ذرات باینریایده بهینهسازی ازدحام ذرات برای اولین بار توسط کندی و ابرهارت در سال 1995 مطرح شد ]17[. PSO یک الگوریتم محاسبهای تکاملی الهام گرفته از طبیعت و براساس تکرار است. منبع الهام این الگوریتم رفتار اجتماعی حیوانات، همانند حرکت دسته جمعی پرندگان و ماهیها بوده است. در این الگوریتم هر پاسخ مساله بهصورت یک ذره مدل میشود. هر ذره برای بهدست آوردن بهترین پاسخ مساله از تجربه خود و از تجربیات بهدست آمده از جمعیت استفاده میکند. الگوریتم PSO از تعداد مشخصی از ذرات تشکیل میشود. برای هر ذره دو مقدار موقعیت و سرعت تعریف میشود که بهترتیب با یک بردار مکان و یک بردار سرعت مدل میشوند. یک حافظه به ذخیره بهترین موقعیت هر ذره در گذشته و یک حافظه نیز به ذخیره بهترین موقعیت پیش آمده در میان همۀ ذرات اختصاص مییابد. با تجربه حاصل از این حافظهها، ذرات تصمیم میگیرند که در نوبت بعدی چگونه حرکت کنند. در طول حرکت، هر ذره موقعیت خود را با تغییر سرعت با توجه به بهترین موقعیت خود و بهترین موقعیت پیش آمده در بین همه ذرات تنظیم میکند. بنابراین، حرکت هر ذره به سه عامل بستگی دارد: موقعیت فعلی ذره، بهترین موقعیتی که ذره تاکنون داشته است(Pbest) و بهترین موقعیتی که کل مجموعه ذرات تاکنون داشتهاند(Gbest) ]17[. PSO به طور موفقیت آمیزی در زمینههای بهینهسازی توابع، فرایند آموزش شبکههای عصبی، سیستمهای کنترل فازی و غیره استفاده شده است. کندی و ابرهات در سال 1997 نوع باینری الگوریتم PSO را نیز معرفی کردند که در موارد متغیرهای گسسته باینری استفاده میشود. در BPSO موقعیت هر ذره بهصورت بردار باینری صفر و یک تعریف میشود و سرعت هر ذره بهصورت تعداد بیتهای تغییر یافته در هر تکرار تعبیر میشود ]18[.
3-3- الگوریتم آنالیز تفکیک کننده خطی بیزالگوریتم BLDA یک الگوریتم قابل تنظیم بوده که بهمنظور جلوگیری از بیش برازش[16] در دادههای با ابعاد بالا بهکار میرود. با استفاده از این الگوریتم درجه تنظیم میتواند بهصورت اتوماتیک و بهسرعت از طریق دادههای آموزشی و بدون نیاز به استفاده از اعتبارسنجی تخمین زده شود. این طبقهبند برای طبقهبندی دادههای حاوی نویز و همچنین، ویژگیهایی که بهطور دقیق قابل طبقهبندی نیستند استفاده میشود ]19[ . اساس این طبقهبند بدین صورت است که در آن رگرسیون در چارچوب بیز صورت میگیرد ]20[. بدین صورت، هدفها و بردار ویژگی یک رابطه خطی با یکدیگر خواهند داشت. این رابطه بهصورت زیر است:
که در آن t و x بهترتیب بردار هدف و ویژگی، w بردار وزن ( ) و n نویز سفید است. در این صورت تابع همانندی برای وزنهای w استفاده شده در رگرسیون بهصورت زیر بیان میشود:
که در آن X ( ) ماتریس سطری حاوی بردارهای ویژگی، D نشاندهنده دو پارامتر ، معکوس واریانس و N نشاندهنده تعداد نمونهها در مجموعه آموزشی است. بهمنظور توصیف یک مجموعه بیز باید توزیع پیشین برای بردارهای وزن تعیین شود. این توزیع اطلاعات اولیهای درباره بردار وزن بهدست داده و بهصورت زیر تعریف میشود:
که در آن نشاندهنده معکوس واریانس توزیع اولیه برای بردارهای وزن ، یک ماتریسی قطری مربعی با ابعاد 1+D بوده که D تعداد ویژگی است. با داشتن توزیع پیشین و تابع همانندی میتوان توزیع پسین را با بهکارگیری قانون بیز بهصورت زیر بهدست آورد:
از آنجا که توزیع پیشین و تابع همانندی، گوسی هستند توزیع پسین نیز گوسی خواهد بود. بنابراین، میانگین و کوواریانس این توزیع بهصورت زیر است:
از اینرو، توزیع پسین میتواند برای محاسبه احتمال توزیع اهداف رگرسیون، ، برای بردار ویژگی جدید استفاده شود. در این صورت، توزیع پیشبینیکننده بهصورت زیر نشان داده میشود:
توزیع بیان شده در رابطه (8) یک توزیع گوسی با میانگین و واریانس است که برای بردار ورودی جدید ، مقادیر مختلف را تعیین میکند.شایان ذکر است که در الگوریتم BLDA هدفهای رگرسیون برای نمونههای کلاس1 در و برای نمونههای کلاس2 در تنظیم میشوند که در آن N تعداد کل نمونههای آموزشی، تعداد نمونههای کلاس1 و تعداد نمونههای کلاس2 است ]21[. از اینرو، احتمال نمونههای کلاس1 بهصورت زیر بهدست میآید:
3-4- انتخاب ویژگی و طبقهبندی با استفاده از مدل ترکیبی BPSO/BLDAدر این مقاله از الگوریتم BPSO برای اجرای فرآیند انتخاب ژن و از الگوریتم BLDA بهعنوان ارزیابیکننده برای طبقهبندی بهدست آمده توسط BPSO استفاده شده است. روش کار بدین صورت است که الگوریتم BPSO از 30 ذره و هر ذره نیز از 70 بیت باینری تشکیل شده است. موقعیت هر ذره توسط این 70 بیت باینری تعریف میشود. هر بیت نشاندهنده یک ژن است؛ بهطوریکه بیت صفر نشاندهنده این است که ویژگی (ژن) متناظر با آن انتخاب نشده و بیت یک نیز نشاندهنده این است که ویژگی (ژن) متناظر با آن انتخاب شده است. شکل4 نمایشی از ازدحام ذرات را نشان میدهد. ذرات بعد از هر بار به روز رسانی ارزیابی میشوند. موقعیت هر ذره بیانگر یک مجموعه ژن است؛ لذا میزان تناسب هر ذره توسط طبقهبند BLDA برای ارزیابی کیفیت مجموعه ژن انتخاب شده توسط آن ذره محاسبه میشود. بهترین میزان تناسب هر ذره pbest و بهترین میزان تناسب در میان گروه ذرات gbest نامیده میشود. این فرآیند تا زمانی که معیار توقف برآورده نشود تکرار خواهد شد. معیار توقف میتواند بیشترین تعداد تکرار و یا میزان تناسب بیشینه تعریف شود ]22[. سرعت ذرات در الگوریتم BPSO توسط رابطه زیر به روز رسانی میشود:
اگر در بازه نباشد، آنگاه سرعت ذرات در الگوریتم PSO باینری بهصورت زیر تعیین میشود:
برای تبدیل بردار سرعت به بردار احتمال از تابع تبدیل سیگموئید بهصورت زیر استفاده میکنیم:
از اینرو، با بهکارگیری رابطه (12) موقعیت ذرات نیز بهصورت زیر به روز رسانی میشود:
در روابط فوق وزن اینرسی، d بعد مساله، و فاکتورهای شتاب و ، و اعداد تصادفی در بازه ]1و0[ هستند. همچنین سرعت ذره در مرحله جدید و سرعت در مرحله قبلی و موقعیت قبلی ذره است. الگوریتم BPSO بهصورت زیر خلاصه میشود:
شکل (4): نمایش ازدحام ذرات در الگوریتم BPSO
4- نتایج پیادهسازیکلیه مراحل پیادهسازی الگوریتم پیشنهادی بر روی یک کامپیوتر با پردازنده GHz4/3 و حافظه RAM برابر GHz1 انجام گرفته است. مقادیر پارامترهای استفاده شده درالگوریتم BPSO در جدول1 نشان داده شده است. در جدول2 نتایج بهدست آمده از صحت الگوریتم پیشنهادی با اعمال روش اعتبارسنجی fold-10 و همچنین میانگین صحت در چهار پایگاه داده نشان داده شده است. در این جدول، Acc (٪) و Avg (N) بهترتیب نشاندهنده صحت در 10 بار اجرای الگوریتم و میانگین تعداد ژنهای انتخاب شده در هر بار اجرای الگوریتم است. همانطور که مشاهده میشود، بیشترین صحت طبقهبندی در پایگاه داده سرطان خون برابر 39/92 بوده هنگامی که میانگین تعداد ژنهای انتخاب شده برابر 48 است. کمترین صحت طبقهبندی در این پایگاه داده نیز برابر 47/85 است که در اینحالت 67 ژن انتخاب شده است. بهطور مشابه، بیشترین صحت طبقهبندی در پایگاههای داده ریه، پستان و پروستات بهترتیب 66/99، 63/94 و 68/96 است که میانگین تعداد ژنهای انتخاب شده در آنها بهترتیب 39، 43 و 50 است. کمترین مقدار صحت طبقهبندی در این پایگاههای داده نیز بهترتیب برابر 26/96، 78/90 و 05/94 است که در اینحالت میانگین تعداد ژنهای انتخاب شده بهترتیب برابر 38، 38 و 40 است. در شکل5 نیز میانگین صحت طبقهبندی الگوریتم پیشنهادی در 10 بار اجرای آن در چهار پایگاه داده بهطور شهودی نشان داده شده است.
جدول (1): مقادیر پارامترهای بهکار رفته در الگوریتم BPSO
شکل (5): ترسیم منحنی میانگین صحت طبقهبندی الگوریتم پیشنهادی در 10 بار اجرای آن بر روی چهار پایگاه داده
در جدول3 مقایسه الگوریتم پیشنهادی با سایر روشهای موجود در مراجع از نظر صحت طبقهبندی در پایگاه داده سرطان خون نشان داده شده است. همانطور که مشاهده میشود، میزان بهبود صحت طبقهبندی در الگوریتم پیشنهادی نسبت به روشهای PSO+ANN ]23[، Nero-Fuzzy ]24[ و KNN ]25[ بهترتیب بهمیزان 8/2، 2/1 و 9/21 درصد است. صحت الگوریتم پیشنهادی تنها از الگوریتم طبقهبند Bayesian ]26[ پایینتر است. بهطور مشابه، عملکرد الگوریتم پیشنهادی با سایر روشها در پایگاه داده سرطان ریه مقایسه شده و در جدول4 نشان داده شده است. بر اساس این جدول، صحت طبقهبندی در الگوریتم پیشنهادی نسبت به روشهای PSO+SVM ]27[، IPSO+KNN ]28[، PSO+ANN و Bayesian بهترتیب بهمیزان 4/0، 9/2، 1/1 و 7/11 درصد بهبود مییابد. صحت طبقهبندی الگوریتم پیشنهادی در این پایگاه داده تنها از روش ترکیبی PSO+ Ensemble NN ]23[ کمتر است. عملکرد الگوریتم پیشنهادی با روشهای PSO+SVM، GA+SVM ]27[ و Bayesian در پایگاه داده سرطان پستان نیز مقایسه شده که در جدول5 نشان داده شده است. برتری الگوریتم پیشنهادی نسبت به دو روش PSO+SVM و Bayesian بهوضوح در این جدول مشاهده میشود؛ بهطوریکه میزان بهبود در الگوریتم پیشنهادی بهترتیب برابر 4/9 و 1/26 درصد است. نهایتا الگوریتم پیشنهادی با روشهای IPSO+KNN، الگوریتم ترکیبی PSO/GA+SVM ]29[ و KNN+EA ]30[ اعمال شده
بر پایگاه داده سرطان پروستات مقایسه و در جدول6 نشان داده شده است. برتری الگوریتم پیشنهادی نسبت به همه روشهای مطرح شده در این جدول مشاهده میشود؛ بهطوریکه میزان بهبود صحت بهترتیب برابر 1/4، 7/2 و 9/7 درصد است. دلیل برتری الگوریتم پیشنهادی را میتوان از دو لحاظ انتخاب ویژگی و روش طبقهبندی بررسی نمود. BPSO شباهت زیادی با الگوریتمهای محاسبهای تکاملی مانند الگوریتم ژنتیک دارد. BPSO بر اساس رفتار اجتماعی در جمعیتهای بیولوژیکی است. الگوریتمهای BPSO و ژنتیک روشهای جستجوی مبتنی بر جمعیت هستند که با اشتراک گذاری اطلاعات میان اعضای خود و با استفاده از قوانین قطعی و احتمالی، فرآیند جستجو را بهبود میبخشند. با این حال BPSO اپراتورهای ژنتیک مانند اپراتورهای تقاطع و جهش را ندارد. البته، مدل اجتماعی تعامل بین ذرات را میتوان شبیه اپراتور تقاطع در نظر گرفت. برای مثال، پارامترهای rand1 و rand2 (رابطه 10) که بر سرعت ذرات اثر میگذارند، شبیه پارامتر جهش در الگوریتم ژنتیک هستند. در حقیقت، تنها تفاوت بین آنها این است که اپراتورهای تقاطع و جهش در الگوریتم ژنتیک احتمالاتی است، در حالیکه ذرات جدید در BPSO باید در هر تکرار بدون هیچ احتمالی پردازش شوند. در مقایسه با الگوریتم ژنتیک، مکانیسم به اشتراک گذاری اطلاعات در BPSO بهطور قابل توجهی متفاوت است. در الگوریتم ژنتیک سیر تکاملی با استفاده از اپراتورهای تقاطع و جهش انجام میشود. کروموزومها اطلاعات را بین یکدیگر به اشتراک گذاشته، کل جمعیت همانند یک گروه به سمت منطقه هدف حرکت میکنند. در فضای مساله، این مدل شبیه به جستجوی فقط یک ناحیه است. بنابراین، نقطه ضعف این مدل این است که به راحتی میتواند در بهینههای محلی گیر کند، اما در BPSO هر ذره در فضای مساله بهصورت یکنواخت توزیع شده و فقط gbest اطلاعات را برای سایر ذرات فراهم میکند. این یک مکانیسم به اشتراکگذاری یکطرفه است و سیر تکاملی فقط در جهت بهترین راه حل است. عملکرد BPSO تحت تاثیر پارامترهای w و فاکتورهای شتاب c1 و c2 است. با مقداردهی مناسب این پارامترها (جدول 1) بهراحتی میتوان به نتایج مطلوب دست یافت. اگر مقادیر این پارامترها خیلی کوچک انتخاب شود، حرکت ذرات نیز خیلی آهسته و زمانبر خواهد بود و اگر مقادیر پارامترها بزرگ انتخاب شود، الگوریتم تضعیف شده و مجموعه ویژگیهای مفید به دست نمیآید. بنابراین، تنظیم مناسب پارامترها، الگوریتم BPSO را بهراحتی قادر به انتخاب ویژگیهای مهم میکند. در مورد روش انتخاب طبقهبندی نیز میتوان اینگونه توضیح داد که اگرچه SVM در طبقهبندی تومور در اغلب موارد بهخوبی عمل میکند، ولی پیچیدگی محاسباتی بالایی در یافتن بهترین ترکیب پارامترها دارد]31[. اما طبقهبند BLDA بهراحتی و با صرف زمان کم قابل پیادهسازی است. همانطور که در جدولهای 3 الی 6 مشاهده میشود، ترکیب روش انتخاب ژن BPSO و طبقهبند BLDA در اغلب موارد دارای نتیجه بهتری است. همانطور که از شکلهای6 (الف) تا (د) مشاهده میشود، الگوریتم پیشنهادی بهخوبی قادر به جداسازی سطوح بیان ژنها به دو کلاس است. برای مثال در داده سرطان خون (شکل6 (الف))، تعداد 27 نمونه مربوط به کلاس ALL و 11 نمونه مربوط به کلاس AML است که این تفکیک بهخوبی در این شکل نشان داده شده است. بهطور مشابه، در داده سرطان پستان نیز تعداد 34 نمونه مربوط به نمونههایی است که در آنها سرطان عود کرده و 44 نمونه نیز به نمونههایی مرتبط است که سرطان در آنها عود نکرده است. این تفکیک نیز در شکل6 (ب) مشاهده میشود. در دادههای سرطان ریه و پروستات نیز وضعیت مشابهی مشاهده میشود؛ بهطوریکه در دادههای سرطان ریه تعداد 16 نمونه مربوط به نمونههای MPM و 16 نمونه نیز مربوط به ADCA است و این تفکیک در شکل6 (ج) نشان داده شده است. نهایتا در دادههای سرطان پروستات نیز تعداد 52 نمونه مربوط به نمونههای تومور و 50 نمونه نیز مربوط به نمونههای بدون تومور است و این تفکیک نیز در شکل6 (د) بهخوبی انجام گرفته است. در جداول 7 تا 10 نیز شماره ژنهای مؤثر بهدست آمده از اعمال الگوریتم پیشنهادی آورده شده است.
جدول (3): مقایسه نتایج کمّی صحت طبقهبندی در الگوریتم پیشنهادی و سایر روشها در پایگاه داده سرطان خون
جدول (4): مقایسه نتایج کمّی صحت طبقهبندی در الگوریتم پیشنهادی و سایر روشها در پایگاه داده سرطان ریه
جدول (5): مقایسه نتایج کمّی صحت طبقهبندی در الگوریتم پیشنهادی و سایر روشها در پایگاه داده سرطان پستان
جدول (6): مقایسه نتایج کمّی صحت طبقهبندی در الگوریتم پیشنهادی و سایر روشها در پایگاه داده سرطان پروستات
(الف)
(ب)
(ج)
(د) شکل (6): مجموعه ژنهای حاوی اطلاعات انتخاب شده با اعمال الگوریتم پیشنهادی در پایگاههای داده: (الف) سرطان خون؛ (ب) سرطان پستان؛ (ج) سرطان ریه و (د) سرطان پروستات
جدول (7): شماره ژنهای مؤثر در بروز سرطان خون بهدست آمده از اعمال الگوریتم پیشنهادی
جدول (8): شماره ژنهای مؤثر در بروز سرطان پستان بهدست آمده از اعمال الگوریتم پیشنهادی
جدول (9): شماره ژنهای مؤثر در بروز سرطان ریه بهدست آمده از اعمال الگوریتم پیشنهادی
جدول (10): شماره ژنهای مؤثر در بروز سرطان پروستات بهدست آمده از اعمال الگوریتم پیشنهادی
5- نتیجهگیریدر این مقاله یک الگوریتم جدید و کارآمد بر پایه مدل ترکیبی بهینهسازی ازدحام ذرات باینری و الگوریتم آنالیز تفکیککننده خطی بیز برای انتخاب ژن و طبقهبندی آنها پیشنهاد و عملکرد آن بر روی چهار پایگاه داده ریزآرایه ارزیابی شد. در ابتدا، کلیه نمونهها به دو دسته نمونههای آموزشی و نمونههای تست با استفاده از روش اعتبارسنجی fold-10 تقسیم گردید. سپس با بهکارگیری آنالیز همبستگی پیرسون، یک مجموعه ژن از نمونههای آموزشی انتخاب گردید. در مرحله بعد با بهکارگیری الگوریتم BPSO هر ذره یک مجموعه ژن را انتخاب کرده و سپس میزان تناسب مجموعه ژن انتخاب شده توسط آن ذره با طبقهبند BLDA محاسبه گردید. بعد از 50 بار تکرار ذرهای که بهترین میزان تناسب (صحت طبقهبندی) را داشته است، بهعنوان مجموعه ژن حاوی اطلاعات در نظر گرفته میشود. نتایج پیادهسازی نشان داد که الگوریتم پیشنهادی به کاهش بعد دادههای ریزآرایه منجر میشود. همچنین صحت طبقهبندی در آن بهعلت استفاده از مدل BPSO بهبود مییابد؛ علت این امر آن است که در مدل BPSO، همبستگی بین ژنها در نظر گرفته شده و این امر به از بین رفتن افزونگی و همچنین کاهش تعداد ژنهای فاقد اطلاعات و اضافی منجر میشود. با این حال، الگوریتم پیشنهادی در برخی موارد عملکرد ضعیفتری نسبت به سایر الگوریتمها دارد. برای مثال در سرطان ریه، صحت طبقهبندی در الگوریتم پیشنهادی برابر 5/99 درصد و در الگوریتمPSO-Ensemble Neural Network برابر 100 درصد است. علت این امر، آن است که استفاده از طبقهبندهای گروهی نتیجه بهتری از یک طبقهبند دارد. هدف ما در کارهای آینده، ترکیب الگوریتمهای پیشرفتهتر با الگوریتم پیشنهادی بهمنظور افزایش نرخ طبقهبندی خواهد بود.
[1]Microarray [2]Deoxyribonucleic Acid [3]Spot [4]Prob [5]Complementary DNA (cDNA) [6]Binary Particle Swarm Optimization(BPSO) [7]Bayesian Linear Discriminant Analysis (BLDA) [8]Acute Lymphoblastic Leukemia [9]Acute Myeloid Leukemia [10]Relapse [11]Non-Relapse [12]Malignant Pleural Mesothelioma [13]Adenocarcinoma [14]Attribute- Relation File Format [15]Person Correlation (PC) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[1] Wee, A., Liew, C., Yah, H., and Yang, M., "Pattern recognition techniques for the emerging field of bioinformatics: A review", Pattern Recognition, No. 38, No. 11, pp. 2055 – 2073, 2005. [2] Chu, F., and Wang, L., "Application of support vector machines to cancer classification with microarray data", International Journal of Neural Systems, Vol. 15, No. 6, pp. 239-263, 2002. [3] Lu, Y., and Han, J., "Cancer Classification Using Gene Expression Data", Department of Computer Science, University of Illinois at Urbana-Champaign, Urbana, IL 61801, USA. [4] Brazma, A., and Vilo, J., Gene expression data analysis, European Molecular Biology Laboratory, Outstation Hinxton, 2000. [5] Molaiezadeh, F., Moradi, M. H, "Informative Gene Selection in Microarray Data using Mutual Informtion and Genetic Algorithm", 13th Conference on Biomedical Engineering, Sharif University of Technology, Tehran, Iran, February 2007. [6] Ben-Doe, A., Bruhn, L., Friedman, N., Nachman, I., Schummer, M., and Yakhini, Z., "Tissue classification with gene expression profiles", Journal of Computational Biology, Vol. 7, No. 3-4, pp. 559-583, 2000. [7] http:// datam.i2r.a-star.edu.sg/datasets/krbd. [8] Chen, Y., and Zhao, Y., "A novel ensemble of classifiers for microarray data classification", Applied Soft Computing, ELSEVIER, No. 8, pp. 1664-1669, 2008. [9] Guyon, I. and Elisseeff, A., "An introduction to variable and feature selection", Journal of Machine Learning Research, Vol. 3, No. 3, pp. 1157-1182, 2003. [10] Li, L., Weinberg, C. R., Darden, T. A., and Pedersen, L. G., "Gene selection for sample classification based on gene expression data: study of sensitivity to choice of parameters of the GA/KNN method", Bioinformatics, Vol. 17, No. 12, pp. 1131-1142, 2001. [11] Jourdan, L., Metheuristics for knowledge discovery: Application to genetic data, Ph.D. thesis, University of Lille, 2003. [12] Peng, S., Xu, Q., Ling, X. B., Peng, X., Du, W., and Chen, L., "Molecular classification of cancer types from microarray data using the combination of genetic algorithms and support vector machines", FEBS Letter, Vol. 555, No. 2, pp. 358-362, 2003. [13] Reddy, A. R., and Deb, K., Classification of two-class cancer data reliably using evolutionary algorithms, Technical Report, KanGAL, 2003. [14] Guyon, I., Weston, J., Barnhill, S., and Vapnik, V., "Gene selection for cancer classification using support vector machines", Machine Learning, Vol. 46, No. 1-3, pp. 389-422, 2002. [15] Saeys, Y., Aeyels Degroeve, S., Rouze, D., and Van de peer, Y. P., "Enhancement genetic feature selection through restricted search and Walsh analysis", IEEE Transactions on Systems, Man and Cybernetics, Part C, Vol. 34, pp. 398-406, 2004. [16] Goh, L., Song, Q., and Kasabov, N., "A novel feature selection method to improve classification of gene expression data", In Proceedings of the Second Asia-Pacific Conference on Bioinformatics, pages 161-166, Australian Computer Society, Darling Hurst, Australia, 2004. [17] Kennedy, J., and Eberhat, R., "Particle Swarm Optimization", In Proceedings of the IEEE International Conference on Neural Networks, Vol. 4, pp. 1942-1948, 1995. [18] Kennedy, J., and Eberhat, R., "A Discrete Binary Version of the Particle Swarm Algorithm", In Proceedings of the IEEE International Conference on Systems, Man and Cybernetics, Vol.5, pp. 4104-4109, 1997. [19] Hoffmann, U., Vesin, J. M., Ebrahimi, T., and Diserens, K., "An efficient P300-based brain computer interface for disables subjects", Journal of Neuroscience Methods, Vol. 2, No. 2, pp. 1-5, 2007. [20] Hoffmann, U., Bayesian machine learning applied in a brain computer for disabled users, Ph.D. thesis, 2007. [21] Hoffmann, U., "Bayesian feature selection applied in a P300 brain-computer interface", Vol. 2, No. 3, pp. 1-5, 2007. [22] Chuang, L., Chang, H., Tu, C., and Yang, C., "Improved binary PSO for feature selection using gene expression data", Computational Biology and Chemistry, ELSEVIER, Vol. 1, No. 32, pp. 29-38, 2008. [23] Chen, Y., and Zhao, Y., "A novel ensemble of classifiers for microarray data classification", Applied Soft Computing, Elsevier, Vol. 8, No. 4, pp. 1664-1669, 2008. [24] Wang, Z. Y., Palade, V., and Xu, Y., "Nero-fuzzy ensemble approach for microarray cancer gene expression data analysis", In Proceeding of the International Symposium on Evolving Fuzzy Systems, pp. 241-246, 2006. [25] Jirapech,-Umpai, T., and Aitken, S, "Feature selection and classification for microarray data analysis: Evolutionary methods for identifying predictive genes", Bioinformatics, Vol. 6, No. 3, pp. 168-174, 2005. [26] Sharma, A., and Paliwal, K., "A gene selection algorithm using Bayesian classification approach", American Journal of Applied Sciences, Vol. 9, No. 1, pp. 127-131, 2012. [27] Alba, E., Garcia-Nieto, J., Jourdan, L., and Ghazali Talbi, El., "Gene selection in cancer classification using PSO/SVM and GA/SVM hybrid algorithms", IEEE Congress on Evolutionary Computation (CEC 2007), 2007. [28] Chuang, L. Y., Chang, H. W., Tu, C. J., and Yang, C. H., "Improved binary PSO for feature selection using gene expression data", Computational Biology and Chemistry, Elsevier, Vol. 32, No. 1, pp. 29-38, 2008. [29] Li, S., Wu, X., and Tan, M., "Gene selection using hybrid particle swarm optimization and genetic algorithm", Soft Computing, Springer, Vol. 12, pp. 1039-1048, 2008. [30] Juliusdottir, D., Corne, E., Keedwell, E., and Narayanan, A., "Two-phase EA/KNN for feature selection and classification in cancer microarray datasets", In CIBCB, pp. 1-8, 2005. [31] T. Li, C.L. Zhang, M. Ogihara, "A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression", Bioinformatics 20, No. 15, pp. 2429–2437, 2004. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 2,812 تعداد دریافت فایل اصل مقاله: 1,297 |