تعداد نشریات | 43 |
تعداد شمارهها | 1,649 |
تعداد مقالات | 13,394 |
تعداد مشاهده مقاله | 30,187,954 |
تعداد دریافت فایل اصل مقاله | 12,069,905 |
استخراج خودکار جملات همتراز انگلیسی-فارسی از متون مقایسهای با بهرهبرداری از اطلاعات نحوی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نشریه پژوهش های زبان شناسی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 3، دوره 10، شماره 2 - شماره پیاپی 19، مهر 1397، صفحه 15-36 اصل مقاله (1.13 M) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/jrl.2018.109525.1173 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
رضوان متولیان* 1؛ امیرحسن منجمی2؛ ابراهیم قدس اللهی3 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1استادیار گروه زبانشناسی دانشگاه اصفهان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2دانشیار گروه کامپیوتر دانشگاه اصفهان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3کارشناسی ارشد زبانشناسی رایانشی دانشگاه اصفهان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
پیکرههای موازی همواره از غنیترین منابع در مباحث پردازش زبان طبیعی محسوب میشوند. این نوع پیکرهها شامل متون ترجمهشدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله همترازشدهاند. علیرغم کاربرد فراوان این نوع پیکرهها در مطالعات مختلف از جمله پژوهشهای زبانی، ترجمة ماشینی آماری و سامانههای خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکرههای موازی مواجه بودهاند. در این راستا، در پژوهش حاضر سعی شده است بهمنظور تولید پیکره موازی با بهرهگیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات همترازانگلیسی/فارسی از متون مقایسهای ارائه شود. در این روش، با ساخت بردار ویژگی با بهرهگیری از اطلاعات نحوی جملات، یک مدل همترازی آموزش داده میشود. دقت مدل همترازی،در بهترین حالت، به شکل عملیاتی روی دادههای آزمون (208 عدد جفت جمله) 77% و روی دادههای آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم دادههای طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتمهای آموزش مورد استفاده قرار گرفت. بهمنظور افزایش دقت، از یک الگوریتم جستوجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی دادههای آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با بهکارگیری مدل همترازی بهدستآمده، به تولید ابزار همترازی دانشگاه اصفهان منجر شد، که میتواند بهمنظور خودکفایی در تولید پیکرههای موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
استخراج خودکار؛ جملات همتراز؛ زبانشناسی پیکرهای؛ پیکره مقایسهای؛ پیکره موازی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
. مقدمه پیکرههای موازی[1] بهصورت عام در مباحث زبانشناسی، و بهصورت خاص در حوزه پردازش زبان طبیعی، بهویژه در حیطه ترجمه ماشینی، از غنیترین و ارزشمندترین منابع محسوب میشوند. پیکرههای موازی، به بیان مختصر، پیکرههایی هستند که در آنها جملات همترجمه از دو یا چند زبان مختلف معادل یکدیگر قرارگرفتهاند. این پیکرههامیتوانند در سطوح کلمه، عبارت، جمله و یا پاراگراف همتراز شده باشند (جورافسکی و مارتین[2]، 2009). پیکرههای موازی کاربردهای بسیاری در مطالعات زبانی و پژوهشهای مربوط به پردازش زبان طبیعی دارند. یکی از مهمترین کاربردهای پیکرههای موازی دوزبانه در بحث ساخت ماشین ترجمه به روش آماری است (میتکو[3]، 2005). اما کاربرد پیکرههای موازی دوزبانه تنها به ساخت ماشین ترجمه با روشهای آماری محدود نمیشود و میتوان از این پیکرهها در مطالعات زبانی و میان زبانی، تصحیح ترجمه انسانی، مطالعات و ارائه روشها و ابزارهای بهبود ترجمه انسانی، سامانههای حافظه ترجمه[4]، ارزیابی کیفیت ترجمه انسانی، و سامانههای خودکار بازیابی اطلاعات میان زبانی (CLIR) [5] و غیره استفاده کرد (چهآن و یانگ جونگ[6]، 2017). تولید پیکرههای موازی دو یاچندزبانه از پرهزینهترین امور تولید محتوا برای پردازش زبان طبیعی محسوب میشود (مک انری و زایو[7]، 2007؛ براون، 2005). ازآنجایی که برای تولید و گسترش پیکرههای موازی مناسب، لازم است معیارهای زیادی مدنظر قرار گیرد، در عمل تعداد پیکرههای موازی استاندارد به خصوص در جفتهای زبانی که یک عضو آنها زبان فارسی است (مانند جفت زبانی فارسی-انگلیسی)، بسیار پایین است. . در تولید پیکرههای موازی میبایست معیارهایی مانند بهروز بودن دادهها، حجم مناسب (هان و سایرین، 2009)، دقت در همترازی (محمدی و قاسم آقایی، 2010)، کیفیت دادهها (زاری و صدرالدینی، 1392)، توجه به نوع ترجمه (مفهومی، تحتاللفظی، کلمه به کلمه، و غیره)، نویز[8] پایین (تقی پور و سایرین،2010؛ پیلهور و سایرین، 2011) را مدنظرقرارداد. مسئله نویز در پیکره موازی بهخصوص هنگامی اهمیت بیشتری پیدا میکند، که هدف استفاده از پیکره موازی ایجادشده در تولید ماشین ترجمه باشد. هنگامیکه یک مترجم انسانی متنی را ترجمه میکند، در مواردی ناچار به حذف و اضافه کردن قسمتهایی از متن است، به این حذف و اضافهها که میتواند برای یادگیری مدل ترجمه توسط ماشین ترجمه گیجکننده باشد، نویز گفته میشود (تقی پور و سایرین، 2010). برای تولید پیکرههای موازی میبایست جملات همترجمه از دو زبان، همتراز شوند. به عمل جداسازی جملات موازی (هم ترجمه) از متون دوزبانه (ترجیحاً ترجمهشده) و قرار دادن آنها در مقابل یکدیگر، همترازی جملات گفته میشود(جورافسکی و مارتین، 2009) و به این جملات که ترجمه یکدیگر محسوب میشوند و در برابر هم دیگر قرار دارند، جملات همتراز میگویند (گیل و چرچ[9]، 1993). جملات همتراز میتوانند به انواع ترجمهای 0-1 (جمله حذفشده)، 1-0 (جمله اضافهشده توسط مترجم)، 1-2 (ترجمه دو جمله به یک جمله)، 2-1 (ترجمه یک جمله به دو جمله)، 1-1 (ترجمه یک جمله به یک جمله) تقسیمبندی شوند. پیکرههای موازی را میتوان به سه روش دستی، نیمهخودکار و خودکار ایجاد نمود. در روش دستی با استفاده از نیروی انسانی و متخصص جملات همترجمه ایجاد یا انتخاب میشوند و در پیکره نهایی قرار میگیرند؛ پیکرههایی که به این شکل ایجاد میشوند پیکرههای موازی طلایی محسوب میشوند (جورجیو و همکاران[10]، 2006). در روش نیمهخودکار با بهکارگیری روشهای آموزش ماشینی و مدلسازی، جملات همترجمه اولیه توسط ماشین انتخاب میشوند. سپس این جملات توسط یک تیم کوچک انسانی مورد بازبینی قرارگرفته و جملات نامطلوب حذف میشوند. این عمل منجر به تولید پیکرههای موازی نقرهای میشود. در روشهای خودکار با استفاده از روشهای رایانشی مانند یادگیری ماشینی، سنجش میزان شباهت، روشهای احتمالاتی و دیگر روشها به کشف و استخراج جملات موازی از منابع زبانی پرداخته میشود. امروزه این روشها به دلیل سرعت قابلتوجه خود در پردازش حجم انبوهی از منابع متنی، موردتوجه هستند. یکی از منابعی که در روشهای خودکار موردتوجه است، استفاده از منابع پیکرههای مقایسهای بهمنظور استخراج جملات همتراز است. پیکرههای مقایسهای شامل متونی از دو زبان جداگانه اما در یک حوزه خاص هستند. جملات موجود در پیکرههای مقایسهای الزاماً ترجمه یکدیگر نیستند، اما میتوان انتظار داشت که در این نوع از پیکرهها جملات همترجمه کشف شوند (راف و شونک[11]، 2011). همانطور که مشخص است، به دلیل سادگی تولید این پیکرهها، و حجم بالای آنها (بارزیلی و الحداد[12]، 2003)، پیکرههای مقایسهای منابع بسیار خوبی برای استخراج جملات همتراز محسوب میشوند. تفاوت پیکرههای موازی و پیکرهها یا منابع مقایسهای در این است که در مورد پیکرههای موازی این اطمینان وجود دارد که منابع در سطوح مورد نظر مانند کلمه، عبارت، جمله، بند، یا مقاله، بدون تردید ترجمه یکدیگر هستند و از معیارهای مورد نظر پیروی میکنند، اما در مورد منابع یا پیکرههای مقایسهای این اطمینان وجود ندارد. هرچند ممکن است بتوان در منابع مقایسهای مقالاتی پیدا کرد که در سطح جمله همترجمه باشند، اما این الزام وجود ندارد که این ترجمهها دقیق باشند، یا از استانداردهای مورد نظر برخوردار باشند. به بیان دقیقتر، از طریق همترازسازی منابع مقایسهای این اطمینان حاصل میشود که جملات دقیقاً ترجمه یکدیگر هستند و از معیارها و استانداردهایی که مورد نظر هستند پیروی میکنند. تاکنون پژوهشهای بسیاری بهمنظورارائه روشهای استخراج جملات همتراز انجامگرفته است (محمدی و قاسم آقایی، 2010؛ تقی پور و سایرین؛ پیلهور و سایرین؛ جکیان طوسی، 1391؛ رحیمی و همکاران[13]، 2012) اما بسیاری از این پژوهشها به ارائه یک ابزار کاربردی متناسب با ویژگیهای زبان فارسی منجر نشدهاند. همچنین پیکرههای حاصل از بسیاری از این پژوهشها یا به دلایل مختلف مانند عدم انتشار در دسترس عموم پژوهشگران قرار ندارند (مانند پیکره امیرکبیر (جباری و ضیاعبری[14]، 2012)) یا از استانداردهای لازم بهمنظور کاربرد در پردازش زبان فارسی برخوردار نیستند (مانند نویز بالا در پیکره میزان). مقاله حاضر به معرفی روشی برای استخراج جملات همتراز از منابع مقایسهای میپردازد. در این راستا، مقالات ترجمهشده دانشنامه آزاد ویکیپدیا[15] به علت در دسترس بودن و عدم نیاز به کسب مجوزهای خاص بهعنوان پیکره مقایسهای مورداستفاده قرار گرفته است. وجود جملات ترجمهشده با نرخ رخداد بالا در این منبع و همچنین توجه نگارندگان ویکیپدیا به رعایت مصوبات نگارشی فرهنگستان در مقالات این دانشنامه، احتمال کشف جملات همتراز با کیفیت مطلوب در این منبع را افزایش میدهد. لازم به ذکر است که در طراحی الگوریتم نهایی دقت لازم بهعملآمده است که جملاتی که نویز پایینی دارند از منابع استخراج شوند؛ بنابراین جملاتی که، بهعنوانمثال، به شکل آزاد در دانشنامه ویکیپدیاترجمهشدهاند، توسط ابزار و مدل همترازی ارائهشده در این روش در خروجی دیده نخواهند شد. روش حاضر با بهرهگیری از اطلاعات نحوی و زبانی جملات، یک مدل همترازی برای جفتهای زبانی انگلیسی و فارسی ایجاد میکند. این مدل به شکل کاربردی وروی دادههای آزمون جملات همتراز را با دقت 77% استخراج میکند. گفتنی است براساس یافتههای پژوهش حاضر با استفاده از الگوریتمهای جستوجوی شباهت بر اساس دادههای یک فرهنگ لغت، دقت مدل را میتوان تا بیش از 85% افزایش داد. علاوه بر این، در پژوهش حاضر، در نهایت با استفاده از مدل همترازی بهدستآمده، چارچوب و ابزاری برای استخراج پیکره موازی از متون مقایسهای ایجاد شد که میتواند نیاز پژوهشگران حوزه پردازش زبان فارسی درزمینۀ تولید پیکرههای موازی را تا حد قابل قبولی مرتفع نماید. 2. سوال تحقیق و روشکاربا در نظر داشتن مشکلات پیش روی بحث پردازش زبان فارسی، و با توجه به پیشرفت علم پردازش زبان طبیعی در مورد سایر زبانها و همچنین با عنایت به اولویتبندی نیازهای امور پردازش زبان فارسی با توجه به مسیر آینده، ساخت ابزارهایی که بتوانند به شکل خودکار و در حجم و کیفیت قابل قبول، منابع زبانی را برای زبان فارسی فراهم کنند یک نیاز بنیادین محسوب میشود. یکی از این منابع پیکرههای موازی هستند که کاربردهای پردازشی بیشماری دارند. در این راستا سوال تحقیق مطرح در این مقاله این است که، از چه طریق میتوان به شکل خودکار به ایجاد پیکرههای موازی از پیکرههای مقایسهای اقدام نمود و در عین حال از سرعت روش ارائه شده و رعایت معیارهای لازم در این روش اطمینان حاصل نمود؟ بعد از بررسی پیشینه پژوهشی، و در نظر داشتن میزان موفقیت روشهای مختلف، هزینه (مالی و پردازشی) این روشها، پیچیدگی این راهکارها و قابلیت پیادهسازی و در صورت نیاز گسترش سریع و آسان آنها، این فرضیه مطرح شد که میتوان با بهرهبرداری از اطلاعات نحوی جملات در دو زبان، به شمارش برچسبهای دستوری جملات اقدام نموده و با استفاده از روشهای یادگیری ماشینی یک مدل همترازی ایجاد نمود و از این مدل برای استخراج جملات همتراز از منابع مقایسهای استفاده کرد. استفاده از روش ارائه شده در این پژوهش، میزان موفقیت استخراج جملات همتراز از دانشنامه آزاد ویکیپدیا در پژوهشهای پیشین را از رقم 21% (محمدی و قاسمآقایی، 2010) و 12/49 % (انصاری و سایرین، 2014) (مربوط به آستانه 1/0 که آزادی بیشتری به الگوریتم میدهد) به بیش از 77 % افزایش داده است. 3. پیشینه پژوهشاکثر روشهای خودکار تشخیص جملات همتراز، با بهرهگیری از سنجش میزان شباهت جملات در دو زبان مبدأ و مقصد کار میکنند. درعینحال، در یک دستهبندی کلی میتوان روشهای تشخیص جملات همتراز را به دودسته «مبتنی بر طول» و «مبتنی بر اطلاعات زبانی» تقسیم کرد. از اولین روشهای مبتنی بر اطلاعات زبانی روش چن (1993) است. کار چن ساخت یک مدل ترجمه ساده کلمه به کلمه در حین جستوجو برای جملات موازی است. ادعای چن این است که روش او، برخلاف سایر روشهای کشف جملات موازی، به اطلاعات زبانی توجه کافی دارد و درعینحال از سرعت قابل قبولی برخوردار است. در روش چن آن دسته از جملات همترازی در پیکره نهایی قرار میگیرند که احتمال ایجاد پیکره موازی را بیشینه نمایند. مدل چن با استفاده از 100 جمله که به شکل دستی مرتبشدهاند خود راهاندازی[16]میشود. بعدازاینکه پارامترهای مدل او روی 20000 جمله موازی دیگر و با استفاده از الگوریتم EM[17] باز تخمین زده شد، در یک مرحله، جملات موازی استخراج میشوند. خود چن دقت روش خود را 6/99 % گزارش میکند، اما بررسیهای آینده نشان داد که دقت روش او پایینتر از این رقم است (مننینگ و شوتز[18]، 1999). روش گیل و چرچ (1993) از اولین روشهای استخراج جملات همتراز مبتنی بر طول است. اساس کار روش گیل و چرچ سنجش میزان شباهت جملات بر اساس طول آنهابرحسب تعداد نویسههای[19]بهکاررفته در هر جمله میباشد. به عبارتی، در نظر گیل و چرچ جملاتی که از یک زبان به زبان دیگر ترجمه میشود به احتمال زیاد دارای طول یکسانی هستند. روش گیل و چرچ دقت 96 % را گزارش میکند. سایر روشهای استخراج جملات همتراز بهنوعی از روشهای اشارهشده در بالا الگوبرداری میکنند. روش سیمارد و سایرین[20] (1993) بر این ایده استوار است که جملات هم ترجمه به شکل معمول بیشترین میزان اشتراک کلمات همریشه را دارند. در نظر آنها کلماتی همریشه هستند که در جمله مبدأ و جمله مقصد قطعاً وجود خواهند داشت و به یک بیان ترجمه میشوند. بهعنوانمثال کلمه «تهران» همواره به کلمه «Tehran» ترجمه میشود و برعکس. یا یک جمله سؤالی همواره به یک جمله سؤالی ترجمه خواهد شد. دقت الگوریتم آنها 4/90% گزارششده است. در پژوهشی دیگر پایپریدیس و همکاران[21] (2000) مهمترین عامل در شناسایی جملات همتراز را کلماتی میدانند که بار معنایی جملات را منتقل میکنند. در تعریف آنها این کلمات شامل گروههای دستوری اسم، فعل، قید و صفت میشود و بهاحتمال بسیار زیاد تعداد این کلمات در یک جمله از زبان مبدأ و در ترجمه همین جمله در زبان مقصد دارای رابطه نزدیکی هستند. آنها با استفاده از رگرسیون خطی چند متغیره (MLR) و با حدود 3000 جمله برای جفت زبانی انگلیسی-یونانی به دقت 99% دست یافتند. روش آنها در سایر تحقیقات مورد ارزیابی و بازسازی علمی قرار گرفت و در مورد جفت زبانی پرتغالی-انگلیسی دقت 84/97 % گزارش شد (کاسلی و نانس[22]، 2003). مونتانا و مارکو[23] (2005) با بهکارگیری یک طبقهبندی آنتروپی بیشینه[24] روشی را برای شناسایی جملات همترازارائه میکنند. در روش آنها در مقالات ورودی، با استفاده از مدلهای زبانی و با استفاده از یک فرهنگ لغت جملات نماینده انتخاب میشوند. سپس با بهکارگیری یک طبقه بند ME جملات نهایی استخراج میشوند. یکی از معیارهای آنها استفاده از میزان شباهت کلمات بر اساس فرهنگ لغت است. روش آنها برای جفت زبانی عربی-انگلیسی دقت 86% - 94% را گزارش میکند. فتاح و همکاران (2006) با ترکیب دادههای زبانی مختلف و استفاده از یک طبقهبندی جدید جملات همتراز نوع 1-1 را با دقت 1/98% در پیکره نهایی خود قراردادند. استفانسکو و همکاران[25] (2012) روشی متفاوت برای استخراج جملات همتراز از پیکرههای مقایسهای ارائه میکنند. آنها با استفاده از روشی مبتنی بر CLIR به جستوجوی جملات موازی اقدام میکنند. آنها در طی چند مرحله و با روشهای جستوجوی مختلف، فضای جستوجوی خود برای کشف جملات موازی را کوچکتر میکنند. سپس در فضای جستوجو با اندازه مناسب با استفاده از معیار «شباهت ترجمه» جملات موازی را انتخاب میکنند. معیار شباهت ترجمه، درواقع ترکیبی از تعداد کلمات مشترک، طول جملات، و دادههای فرهنگ لغت است. میزان دقت در روش آنها 80 % گزارش شده است. محمدی و قاسم آقایی (2010) الگوریتمی را برای استخراج جملات همتراز از دانشنامه آزاد ویکیپدیا ارائه میکنند. روش آنها دقت 21% را گزارش میکند که آنها دلیل پایین بودن دقت را املاهای متفاوت زبان فارسی مانند نویسههای عربی «ک» و «ی» عنوان میکنند. روش محمدی و قاسم آقایی مشابه روش گیل و چرچ (1993) است. جکیان طوسی (1391) با استفاده از بردار ویژگی که شامل برچسبهای دستوری و طول جملات و دادههای فرهنگ لغت میشود به ارزیابی الگوریتمهای طبقهبندی مختلف میپردازد. شاخص F روش جکیان طوسی (1391) به شکل میانگین 35/90% گزارششده است. انصاری و همکاران (2014) با ارائه یک سیستم جدید بازیابی اطلاعات مبتنی بر ترجمه ماشینی، به استخراج جملات موازی از ویکیپدیا پرداختهاند. در روش پیشنهادی آنها ابتدا با استفاده از ابزار دیکودر موزز[26] جملات زبان مبدأ را به جملات زبان مقصد ترجمه میکنند، و سپس با سنجش میزان شباهت جملات ترجمهشده با جملات موجود در زبان مقصد و تعیین یک عنصر آستانه (بهعنوانمثال درصورتیکه طول جمله بیشتر از حد مورد نظر باشد) جملات موازی را استخراج میکنند. دقت سیستم آنها در بهترین حالات 94% (آستانه حساسیت 8/0 که تعداد زیادی از جملات همترجمه را نیز حذف میکند و تنها 73 جمله در خروجی ارائه میکند) و در پایینترین حالت 12/49 % (آستانه حساسیت 1/0 با خروجی 289 جمله) گزارش شده است. یکی از مشکلات روش ارئه شده توسط انصاری و سایرین (2014) پیچیدگی پیادهسازی و راحتی کاربرد است. زاری و صدرالدینی (1392) در کنار استفاده از روش طبقهبندی آنتروپی بیشینه به معرفی چهار دسته از ویژگیها برای جملات همتراز پرداخته و در هر مرتبه الگوریتم همترازی را با استفاده از یکی از این ویژگیها پیادهسازی میکنند. در بهترین حالت دقت الگوریتم آنها 22/89 %گزارش شده است. همانطور که مشاهده میشود، برخی از روشهای استخراج خودکار جملات همتراز یا در مورد زبان فارسی پیادهسازی نشدهاند، یا از دقت بالایی برای زبان فارسی برخوردار نیستند؛ مانند روش محمدی و قاسم آقایی (2010) برای استخراج جملات همتراز از دانشنامه ویکیپدیا که دقت 21% را گزارش میکند. در صورت گزارش دقتهای بالا نیز این موارد صرفاً در محیط آزمایشگاهی پیادهسازی و ارزیابیشدهاند، و تنها در شرایط خاص میتوان به این دقتها دستیافت و این گزارشها مورد بازسازی علمی-پژوهشی و ارزیابی در شرایط جدید قرار نگرفتهاند. برخی روشها نیز دارای پیچیدگیهای پردازشی بالا و مراحل رایانشی متعدد هستند. همچنین مواردی که از دقت قابلقبول برخوردار هستند و قابلیت پیادهسازی راحتی دارند به ارائه ابزار نهایی منجر نشدهاند. در این مقاله به معرفی روشی با پیچیدگی زمانی خطی[27] و دقت قابلقبول میپردازیم که میتوان از آن بهراحتی در تولید ابزار کاربردی تولید پیکرههای موازی استفاده نمود. همچنین با توجه به کاراییها و قابلیتهای ابزارها و روندهای پردازشی مورد استفاده در تولید ابزار نهایی، در طراحی ابزار ارائهشده در پژوهش حاضر، توجه کافی به ویژگیهای خاص زبان فارسی مانند شناسایی نسبی با همآییها، به کار بردن نویسههای عربی بهجای نویسههای فارسی و سایر موارد شده است. 4. مبانی نظریدر ابتدا به ارائه تعریف صوری عمل همترازی جملات پرداخته میشود. اگر جملات زبان مبدأ فرض شوند و ترجمه این جملات در زبان مقصد، فرض شود، لیست S مجموعه جملات موازی میباشد بهصورت: . هر جفت جمله را میتوان بهصورت زیر تعریف کرد (کوئن[28]، 2009) :
(1)
فرض بر این است که جملات به ترتیب ترجمه یکدیگر هستند. یا به بیان ریاضی:
(2) (3) همچنین داریم: (4)
نوع همترازی، با توجه به اینکه چه تعداد جمله در همترازی وجود دارند و چند جمله از زبان مبدأ به چند جمله در زبان مقصدترجمه شدهاند، میتواند به شکل زیر تعریف شود:
طبق تعریف در رابطه 5، نوع ترجمه 1-1 ترجمهای است که در آن یک جمله از زبان مبدأ به یک جمله از زبان مقصد ترجمه میشود. در یک ترجمه 1-2 دو جمله از زبان مبدأ به یک جمله از زبان مقصد ترجمه میشود و الیآخر. در الگوریتمهای همترازی، باید تمامی جملات پردازش شوند و هر جمله باید تنها یکبار در پیکره نهایی ذکر شود. به بیان کلی مجموعه جملات موازی S = {S1 , …. , Sn} مورد جستوجو است که رابطه 6 را ارضاء کند:
این تابع را میتوان با بهکارگیری روشهای مختلفی پیادهسازی نمود. در مقاله حاضر تابع match بر اساس معیار شباهت جملات بر اساس اطلاعات نحوی آنها شامل دادههای تعداد اسامی، افعال، قیود و صفتها در دو جمله انگلیسی و فارسی تعریف شده است که خروجی مدل همترازی میباشد. اساس نظری روش ارائهشده توسط پایپریدیس و همکاران (2000) برای استخراج جملات همتراز بر این ایده نظری استوار است که هدف اصلی مترجم در هنگام ترجمه هر جملهای حفظ و انتقال پیام است. بر همین اساس در نظر پایپریدیس و همکاران (2000)، طبقه کلمات باز که با برچسبهای دستوری فعل، اسم، صفت و قید مشخص میشوند، بیشترین وزن و اهمیت را در انتقال مفهوم دارند. در همین راستا، بار معنایی[29] یک جمله را میتوان مجموع تعداد تمامی کلماتی در آن جمله دانست که برچسبهای دستوری اسم، فعل، صفت و قید به آنها داده میشود. بنابراین میتوان این فرض را مطرح کرد که رابطه «همترازی» بین دو جمله صحیح منطقی است (به این معنی که رابطه همترازی بین دو جمله وجود دارد یا یک جمله هم ترجمه جمله دیگر است)، اگر و فقط اگر بار معنایی جمله در زبان مقصد به شکل معنیداری نزدیک بار معنایی جملهای از زبان مبدأ باشد. یا به بیانی دیگر، اگر و فقط اگر مجموع تعداد کلمات خانوادههای اسم، فعل، قید و صفت در دو جمله نزدیک هم باشند (پایپریدیس و همکاران، 2000). یکی از روشهای پیادهسازی این دیدگاه استفاده از رگرسیون خطی چند متغیره[30]بهمنظور ساخت مدل همترازی است. این مدل را میتوان با استفاده از دادههای یک پیکره موازی که از قبل موجود است به دست آورد. برای پیادهسازی این روش، مجموع برچسبهای اسم، فعل، قید و صفت، در جمله زبان مقصد فرض میشود و برابر تعداد برچسبهای یک گروه دستوری خاص (بهعنوان مثال برابر تعداد کلمات دارای برچسب دستوری فعل در جمله زبان مبدأ) در جمله زبان مبدأ فرض میشود. ارتباط خطی و را میتوان با استفاده از رابطه 7 بیان نمود. که در این رابطه مجموع تعداد تمامی کلماتی است که در جمله زبان مبدأ برچسب فعل دریافت کردهاند، تعداد کلمات با برچسب اسم، برچسب صفت و تعداد کلماتی است که برچسب قید دریافت کردهاند. تخمین میزان وزنها یا همان ها و همچنین میزان خطا در هنگام آموزش مدل رخ میدهد (پایپریدیس و همکاران، 2000).
باید توجه داشت که هرچند روش پایپریدیس بسیار کارآمد است، اما در این پیادهسازی عملاً دادههای مربوط به تعداد برچسبهای مجزای اقسام دستوری در جمله زبان مقصد باهم جمع ریاضی شده و در ذخیره شده است و بردار ویژگی کوچکتر شده است و عملاً این دادههای ارزشمند آموزشی حذف میشوند. بنابراین، میبایست از سایر روشهای آموزش ماشینی مانند ماشین بردار پشتیبان[31] استفاده کرد که قابلیت استفاده از این دادهها را فراهم میکنند، که در پژوهش حاضر نیز به همین شکل عمل شده است. آنچه باید در مورد الگوریتمهای همترازی در نظر داشت این است که الگوریتم نهایی باید:
روش پیادهسازی شده در این مقاله دارای پیچیدگی خطی میباشد، ابزار نهایی تا حد امکان موارد فرامتنی را شناسایی و حذف میکند، بهراحتی میتوان مدل را برای سایر جفتهای زبانی آموزش داد و ایجاد نمود، همچنین خروجی ابزار ایجادشده صرفاً جملات بهصورت متن هستند و متن خروجی بهراحتی توسط انسان و ماشین قابلخواندن است، و نیاز به پردازشهای مجزا ندارد. 5. روش پیشنهادیبا توجه به آنچه گفته شد، روش ارائهشده در این مقاله به این صورت است که در ابتدا بهمنظور آموزش الگوریتمهای طبقهبندی مانند ماشین بردار پشتیبان، یک پیکره موازی آموزشی که دارای استانداردهای مورد نظر است تهیه میشود. به بیان دیگر، ورودی اصلی الگوریتم آموزش، یک پیکره موازی طلایی در حوزه علوم انسانی دارای 1038 جفت جمله است، که در سطح جمله همتراز شدهاند، و تنها جملاتی که به صورت تحت اللفظی ترجمه شدهاند در آن قرار گرفتهاند. اطلاعات این اسناد و این پیکره آموزشی در جدول (2) ارائهشده است. سپس بردارهای ویژگی که شامل تعداد برچسبهای دستوری گروههای نحوی اسم، فعل، قید، و صفت برای هر جمله فارسی و انگلیسی و همچنین طول جملات هر دو جمله در دو زبان میباشد، برای هر جفت جمله این پیکره آموزشی ایجاد میشوند (مانند دادههای شکل (1)). برچسبهای دستوری به شکل کاملاً خودکار و با استفاده از ابزارهای برچسبگذاری دانشگاه فردوسی مشهد (FEP)، ابزار برچسب گذاری دانشگاه استنفورد (SPT)، و ابزار HunPos به اجزای سخن تخصیص داده میشوند. در مرحله بعد، با استفاده از این بردارهای ویژگی ایجادشده به آموزش و ارزیابی میزان موفقیت الگوریتمهای طبقهبندی و یادگیری ماشینی مختلف پرداخته میشود. درنهایت با مقایسه میزان موفقیت الگوریتمهای طبقهبندی مختلف در امر شناسایی جملات همتراز، بهترین گزینه برای ایجاد مدل همترازی نهایی انتخاب میشود. این مدل در ابزار استخراج جملات همترازقرارگرفته و با استفاده از یک الگوریتم جستوجوی میزان شباهت جملات بر اساس دادههای یک فرهنگ لغت دو زبانه فارسی-انگلیسی، دقت این مدل افزایش پیدا میکند. دلیل عدم گنجاندن دادههای فرهنگ لغت در مدل همترازی و بردار ویژگیهادر مرحله آموزش (به جای استفاده در گام فیلترینگ نهایی) این بوده است که درواقع هدف ِبکارگیری الگوریتم جستوجوی شباهت بر اساس دادههای فرهنگ لغت، بیشتر استفاده از آن بهعنوان یک پالایه در خروجی ابزار بوده است تا بتواند خروجیهایی که به دلیل ریاضیاتی بودن مدل، همتراز در نظر گرفته میشوند را فیلتر کند. بهعنوانمثال، اگر تنها میزان شباهت تعداد برچسبهای دستوری (یک عنصر ریاضی و غیرزبانی) دو جمله «This is a pencil» و «این یک کتاب است» را در نظر بگیریم، مدل آماری، این دو جمله را بهاشتباه همتراز درنظر گرفته و در خروجی ارائه میکند. لذا با استفاده از سنجش میزان شباهت لغوی، این دو جمله در خروجی حذف شده و بهعنوان جملات همترازارائه نمیشوند. استفاده از فرهنگ لغت بهعنوان یک پالایه، به صورتی که در این پژوهش پیادهسازی و استفاده شده است، توجه به اطلاعات زبانی را بیشتر میکند و ابزار نهایی تنها به دادههای آماری متکی نخواهد بود. هرچند استفاده از فرهنگ لغت به این شکل مشکلاتی مانند کلمات خارج از دامنه فرهنگ لغت[33] (کلماتی که در فرهنگ لغت وجود ندارند) یا عدم توانایی فرهنگ لغت در ترجمه عبارات یا ضربالمثلها را به همراه دارد، اما به هر صورت همانطور که اشاره خواهد شد، استفاده از فرهنگ لغت دقت برنامه را افزایش میدهد. در مرحله نخست، یک پیکره طلایی به شکل دستی و با استفاده از جملات مقالات ترجمهشده در زمینههای مختلف مانند زبانشناسی، ادبیات، حقوق، اقتصاد، روانشناسی، علوم اجتماعی و غیره تشکیل شد. در مرحله تولید پیکره، از انتخاب جملاتی که بیشتر بهصورت مفهومی ترجمهشده بودند، خودداری شد. علت حذف جملات با ترجمه مفهومی به این دلیل است که جملاتی که به این شکل ترجمه میشوند، به دلیل حذف و اضافههای بسیار، تنها موجب ایجاد نویز در پیکره نهایی میشوند. جدول 1 نمونهای از جملات این پیکره طلایی را نشان میدهد. در جدول 2 میتوان مشخصات کلی این پیکره مانند تعداد جملات و کلمات موجود در این پیکره و توزیع برچسبهای دستوری مختلف در این پیکره را مشاهده نمود.
جدول 1- جملات نمونه پیکره طلایی کوچک ایجادشده برای مدلسازی
جدول 2- آمارههای پیکره طلایی ایجادشده بهمنظور آموزش الگوریتمهای طبقهبندی
ازآنجاییکه هدف این پژوهش ساخت بردار ویژگی بر اساس تعداد برچسبهای دستوری جملات بود ابتدا باید از بین ابزارهای برچسبزنی موجود برای زبانهای فارسی و انگلیسی، آنهایی که از دقت کافی برخوردار بودند انتخاب میشد که پس از بررسیهای صورت گرفته ابزارهای HunPos با دقت 58/96 % برای زبان انگلیسی (هالاکسی[34]، 2007) و با دقت 9/96 % برای زبان فارسی (سراجی، 2011) و ابزار برچسبگذاری دستوری دانشگاه فردوسی با دقت 97% برای زبان فارسی و ابزار دانشگاه استنفوردبا دقت 28/97 % برای زبان انگلیسی (مننینگ، 2014) مدنظر قرار گرفتند؛ البته در مورد این ابزارها نیز میبایست در صورت نیاز متن پیکره برای آنهاپ شپردازش و آمادهسازی میشد. ابزارهای دانشگاه فردوسی و استنفورد نیاز به پردازشهای خاصی نداشتند، اما ابزار HunPos نیازمند ورودیهای خاص بود. بهعنوانمثال جملات باید با یک خط فاصله از هم جدا میشدند و تمامی کلمات هر جمله بهصورت «هر خط یک کلمه» تبدیل میشدند، یا هر کلمه از هر جمله میبایست در خط جداگانهای قرار میگرفت. بعد از آمادهسازی متن پیکره برای ابزارهای برچسبگذاری، میبایست دادههای پیکره به این ابزارها داده میشد و اطلاعات آنهابهمنظور کاربرد در یادگیری ماشینی استخراج میشدند. شکل (1) نمونهای از این دادهها را نشان میدهد که بهصورت فایل متنی ذخیره شده است. در این شکل 5 ستون اول مربوط به دادههای جملات زبان انگلیسی و دادههای 5 ستون دوم مربوط به دادههای بهدستآمده از جملات زبان فارسی میباشد. این ستونها به ترتیب برای هر دو زبان عبارتاند از تعداد برچسبهای اسم، تعداد برچسبهای فعل، تعداد برچسبهای صفت، و تعداد برچسبهای قید برای دو جمله. ستون پنجم در هر دو زبان طول جملات برحسب تعداد نویسههای جملات میباشد. ستون یازدهم ستون هدف است که در آن 2 به معنی همترازی و 1 به معنی عدم وجود همترازی است. تعداد دادههای آموزش برای تمام الگوریتمها 80 %کل دادهها و 1660 عدد است. تعداد دادههای آزمون 416 عدد است.
شکل 1- دادههای نهایی بهدستآمده از پردازش جملات پیکره بعد از ایجاد دادههای آموزش، باید به ارزیابی الگوریتمهای یادگیری و طبقهبندی مختلف روی دادهها پرداخت. در ابتدا یک ارزیابی کلی از الگوریتمهای طبقهبندی روی دادههای بهدستآمده از ابزارهای دانشگاه استنفورد و فردوسی انجام شد که نتایج آن در جدول (3 ) ارائهشده است و همانطور که مشاهده میشود، الگوریتم ماشین بردار پشتیبان بالاترین میزان دقت را گزارش میکند. بعد از این ارزیابی اولیه، دادهها در 2 مرحله کلی مورد ارزیابی قرار گرفتند. در فاز اول الگوریتمهای طبقهبندی ماشین بردار پشتیبان و جنگل تصادفی[35]رویدادههای بهدستآمده از ابزار HunPos و همچنین ابزارهای دانشگاه فردوسی و استنفورد بدون در نظر داشتن معیار طول مورد ارزیابی قرار گرفتند. سپس دادههای مربوط به معیار طول نیز به بردارهای ویژگی اضافه شدند و الگوریتمها دوباره مورد ارزیابی قرار گرفتند. که نتایج این بررسی ها در شکلهای (2) و (3) به شکل جزئیتر ارائه شده است. جدول (3 ) میزان موفقیت الگوریتمهای طبقهبندی مختلف روی دادههایی که با استفاده از ابزارهای دانشگاه فردوسی و استنفورد از روی پیکره بهدستآمده است را نشان میدهد. اعداد این جدول با استفاده از الگوریتمهای طبقهبندی که به شکل پیشفرض در بستههای نرمافزاری متلب[36] موجود هستند بهدستآمدهاند. هدف، انجام یک ارزیابی اولیه بوده است.
جدول 3- میزان دقت الگوریتمهای یادگیری طبقهبندی روی دادههای ابزارهای دانشگاه فردوسی و استنفورد
شکل (2) آمارههای آموزش الگوریتمهای طبقهبندی روی دادههای آموزش بدون معیار طول را گزارش میکند. در این شکل مشخصههای MR, ECM, NECM, Specificity, Sensitivity, Accuracy, Precision, Recall, F-measure, Consistency, و Practical Accuracy به ترتیب عبارتاند از میزان طبقهبندی اشتباه، میزان هزینه طبقهبندی اشتباه، نرخ نرمال شده هزینه طبقهبندی اشتباه، نرخ تمایز، میزان حساسیت، صحت، دقت، فراخوانی مجدد، شاخص F ، معیار توازن، و دقت عملیاتی. در این شکل عبارت «FPT+SPT» منظور دادههای بدست آمده از ابزارهای برچسبگذاری دستوری دانشگاه فردوسی برای زبان فارسی و ابزار برچسبگذاری دستوری دانشگاه استنفورد برای زبان انگلیسی است. همچنین عبارتهای «RF» و «SVM» به ترتیب به معنی «الگوریتم جنگل تصادفی» و «ماشین بردار پشتیبان» هستند. شکل (3 ) آمارههای آموزش الگوریتمهای طبقهبندی روی دادههای پیکره آموزشی با در نظر داشتن معیار طول است. توضیحات این شکل مانند توضیحات شکل (2) است.
در جدول فوق مخفف MR (Misclassification Rate) عبارت است از نرخ کلاسبندی اشتباه، ECM (Expect Cost of Misclassification) یا هزینه کلاسبندی اشتباه، و NECM (Normalized Expect Cost of Misclassification) عبارت است از نرمالشده هزینه کلاسبندی اشتباه. این آمارهها توسط ماژولهای ارزیابی دقت مدل در نرم افزار متلب ارزیابی و ارایه میشوند. این آمارهها در ارزیابی کیفیت مدل و کارایی آن از اهمیت بالایی برخوردار هستند. به لحاظ پژوهشی میبایست نتایج روش جکیان طوسی (1391) با نتایج ارایه شده در شکلهای (2) و (3) در مورد پژوهش حاضر نیز مقایسه شوند اما از این جهت که روش حل مسئله جکیان طوسی (1391) و همچنین مدل سازی جکیان طوسی (1391) با روش ارایه شده در این پژوهش تفاوتهای پایهای و اساسی دارد از ارایه آمارههای روش جکیان طوسی (1391) در این شکل ها خودداری میشود. چرا که متاسفانه اساساً در هیچ یک از مستندات ارایه شده توسط جکیان طوسی (1391) این آمارهها ارایه نمیشوند و از آنجایی که دستیابی به دادههای جکیان طوسی (1391) فراهم نبود امکان بازسازی و گزارش این آمارهها فراهم نشد. اما میتوان با مقایسه دقت و شاخص F این دو پژوهش و همچنین توجه به مدل سازی و روش برخورد با مسئله، تفاوت میان این روش ها را مشاهده نمود. همچنین پژوهش حاضر بیشتر به جنبه کاربردی بودن و ارایه محصول کاربردی برای جامعه زبانشناسی رایانشی زبان فارسی توجه داشته است در حالی که روش جکیان طوسی (1391) بیشتر جنبه آزمایشگاهی و آزمون ایده بوده است. جدول (6) میتواند این تفاوت ها را آشکار کند. همانطور که نتایج نشان میدهد بهترین گزینه برای ایجاد مدل همترازی، الگوریتم ماشین بردار پشتیبان و با استفاده از دادههای ابزارهای برچسبگذاری دانشگاه فردوسی و دانشگاه استنفورد و با در نظر داشتن معیار طول است. هرچند شاید دادههای ابزار HunPos در مرحله آموزش میزان موفقیت 97% را نشان بدهد اما همانطور که مشاهده میشود موفقیت عملیاتی مدلهای همترازی ایجادشده با استفاده از این دادهها بسیار پایین است و این مدلها قدرت تمیز بالایی روی دادههای آزمون ندارند و نمیتوان از آنها به شکل کاربردی استفاده کرد. 6. ساخت ابزار نهاییدر گام نهایی این پژوهش سعی شد تا با استفاده از مدل همترازی بهدستآمده، یک ابزار کاربردی با در نظر داشتن معیارهای ایجاد پیکره موازی استاندارد و توجه به ویژگیهای زبان فارسی بهمنظور استخراج جملات همتراز و پیکرههای موازی ایجاد شود. در این مرحله بعد از ساخت مدلهای مختلف همترازی، و آزمودن آنها به لحاظ عملیاتی بودن، بهترین مدل برای کاربرد در ابزار نهایی انتخاب شد. این ابزار تحت عنوان «چارچوب ایجاد پیکره موازی دانشگاه اصفهان» یا بهاختصارIPCF[37] ارائهشده است. در ساخت این ابزار از زبانهای برنامهنویسی متلب، VB.Net، و C# استفاده شده است. در حال حاضر مدل همترازی با دقت 77% در این ابزار قرار دارد. ذکر این نکته ضروری است که این دقت، دقت عملیاتی مدل همترازی است. به عبارتی، همانطور که نتایج آزمونها نیز نشان میدهد، دقت مدل همترازی در شرایط آزمایشگاهی و در مرحله آموزش به 97% نیز میتواند برسد، اما ازآنجاییکه هدف ایجاد مدلی با کاربرد عملیاتی بوده است، ارزیابی مدل روی دادههای آزمون مختلف نیز انجام شده و دقت %77 حاصل شده است. بهبیاندیگر، منظور از دقت عملیاتی این است که میتوان از این مدل همترازی انتظار داشت که بتواند با دقت %77 در شرایط غیر آزمایشگاهی به استخراج جملات موازی از متون مقایسهای بپردازد. همچنین امکان فیلتر کردن نتایج نهایی ابزار با استفاده از الگوریتم جستوجوی شباهت با استفاده از دادههای فرهنگ لغت نیز در این برنامه وجود دارد که دقت ابزار و مدل همترازی را از %77 به بیش از %85 افزایش میدهد. شکل (4) نمای کلی ابزار ایجادشده را نشان میدهد. همانطور که در شکل دیده میشود، ابزار توانسته جملات همتراز را از یک متن مقایسهای استخراج نماید. مقالات مورد استفاده که در این ابزار و در شکل (4) مشاهده میشوند. مقالات ترجمه شده دانشنامه ویکیپدیا هستند که در ابزار قرار گرفته اند و تنها جنبه مثال دارند. به این معنی که کاربر میتواند مقالات و جملات خود را به برنامه اضافه نماید. این مقالات به شکل کاملا تصادفی از دانشنامه ویکیپدیا انتخاب شدهاند و تنها وجه مشترک بین مقالات این است که مقالات مربوط به حوزه علوم انسانی هستند. طول این مقالات برحسب تعداد جمله بین 1 تا 60 جمله متغیر است.
شکل4- نمای کلی ابزار استخراج جملات موازی 7. الگوریتم فرهنگ لغتهمانطور که قبلاً اشاره شد هدف استفاده از فرهنگ لغت، حذف موارد ناخواستهای است که به دلیل ماهیت آماری مدل همترازی به شکل ناخواسته همتراز تشخیص داده میشوند. نحوه کار الگوریتم جستوجوی شباهت بر این اساس است که ابتدا 10 جمله از متن ورودی در هر دو زبان خوانده میشود (اگر جملات بیش از 10 مورد باشد در پنجرههای بعدی پردازش میشوند). علت انتخاب پنجرههای با اندازه 10 جمله این مسئله است که انتخاب پنجرههای کوچکتر علاوه بر افزایش بار پردازشی، درصورتیکه فاصله جملات هم ترجمه زیاد باشد، دقت ابزار را کاهش میدهد. با انتخاب پنجرههای بزرگتر از 10 جمله دقت کار ابزار به دلیل احتمال انتخاب نامزدهای همترازی بیشتر کاهش پیدا میکند. بعد از خواندن 10 جمله از ورودی، این جملات برچسب دهی دستوری میشوند، و پردازشهای لازم روی آنها صورت میگیرد. سپس به ازای هر جمله فارسی، تمامی 10 جمله انگلیسی به مدل همترازی داده میشوند و تمامی جملاتی که توسط مدل همتراز جمله فارسی تشخیص داده میشوند استخراج میشوند. بعدازاین مرحله، تمامی این جملات منتخب توسط دادههای فرهنگ لغت مورد ارزیابی قرار میگیرند. جملهای که بیشترین میزان شباهت به لحاظ کلمات مشترک در فرهنگ لغت را داشته باشد بهعنوان جمله هم ترجمه و همتراز انتخاب میشود. این میزان بیشینه باید از حساسیت تعین شده توسط کاربر بیشتر باشد. این الگوریتم استاندارد «تنها یک جمله» را مدنظر قرار میدهد. بهبیاندیگر این الگوریتم به این مسئله توجه دارد که یک جمله تنها میتواند به یک جمله ترجمه شود و نمیتواند چندین ترجمه داشته باشد. الگوریتمهای سنجش میزان شباهت لغوی جملات که در این ابزار پیادهسازی شدهاندالگوریتمهایSimple Matching Algorithm Jaccard, Modified Jaccard, و sorensen هستند. الگوریتم Modified Jaccard از رابطه 8 استفاده میکند. سایر الگوریتمها از رابطههای مرسوم و معیار استفاده میکنند. (8) 8. ارزیابی تأثیر استفاده از فرهنگ لغتبه جهت سنجش میزان تأثیر استفاده از الگوریتم جستوجوی میزان شباهت لغوی جملات، میتوان با آزمودن برنامه روی دادههای پیکرههای مطمئن و طلایی از صحت کار برنامه مطلع شد. به همین دلیل تعداد 100 جفت جمله که از همتراز بودن آنها به شکل انسانی و دستی اطمینان حاصل شد از پیکره میزان استخراج شدند. سپس تعداد 100 جمله که نمیتوانستند ترجمه یکدیگر باشند اما در پیکره میزان وجود داشتند نیز از پیکره میزان استخراج شدند.این جملات همتراز و غیر همتراز به شکل تصادفی باهم ترکیب شدند تا یک پیکره آزمون نهایی حاصل شود. بعد از اجرای برنامه روی دادههای این پیکره آزمون نتایج جدول 4 حاصل شد که نشاندهنده میزان تأثیر استفاده از الگوریتم جستوجوی میزان شباهت لغوی جملات در بهبود دقت مدل همترازی است.
جدول 4- میزان عملکرد مدل همترازی و تأثیر استفاده از فرهنگ لغت در بهبود دقت نهایی ابزار
9. ارزیابی و مقایسههرچند مقایسه روشهای مختلف همترازی، از آنجایی که از نظر اهداف و روشهای پیاده سازی با یکدیگر تفاوت های بنیادین دارند به شکل کامل امکان پذیر نباشد اما در اینجا به منظور مقایسه، به بررسی یکی از کارهایی که از جهت روش با مقاله حاضر قرابت بسیاری دارد پرداخته میشود.روش جکیان طوسی (1391)، از آنجایی که تنها روشی است که از برچسبهای دستوری در مورد جفت زبانی فارسی-انگلیسی به منظور شناسایی جملات همتراز استفاده کرده است، مطرح میشود. جکیان طوسی (1391) از الگوریتمهای آموزش ماشینی بسیاری برای ساخت مدل استفاده میکند. به عنوان مثال جدول (5) نشان دهند میزان موفقیت الگوریتم سیستم MDT در مورد پیکره FEP6000 است که نسخه ویرایش شده پیکره TEP میباشد.
جدول 5- موفقیت یکی از پیادهسازیهای جکیان طوسی (1391)
در جدول فوق روش ساخت مدلهای آموزش ماشینی بر اساس بردارهای ویژگی را نشان میدهد. حرف L نماینده استفاده از معیار شباهت طول، حرف P نشانه مدل مبتنی بر معیار شباهت برچسب های دستوری و حرف T نشانه مدل مبتنی بر میزان شباهت دو جمله از لحاظ ترجمه کلمه به کلمه میباشد. حال مدلهای ترکیبی LPT به عنوان نمونه مدلی است که از هرسه معیار L و P و T استفاده کرده است. حرف C نشانه ایجاد مدلهای ترکیبی وزنی معیارهای اشاره شده است. از آنجایی که مدل مورد استفاده در روش جکیان طوسی (1391) با مدل ایجاد شده در این پژوهش تفاوتهای بسیار اساسی و مهم دارد مقایسه و ارایه آمارههای مربوط به نتایج به دست آمده در این پژوهش در این جدول معنیدار نخواهد بود چرا که روشهای پیادهسازی و مدلسازی تفاوت جدی دارند. هرچند شاید در نگاه اول روش جکیان طوسی (1391) روش موفقتری نسبت به روش پژوهش حاضر به نظر برسد (شاخص F در بهترین حالت در مقاله حاضر 8/89% بوده است)، اما باید در نظر داشت که در روش این مقاله،تمام سعی بر این بوده که از ابزار های کاملاً خودکار در تمامی مراحل استفاده شود. به بیان دیگر جکیان طوسی (1391) برای ایجاد دادههای آموزش، برچسب گذاری دستوری و اصلاحات نگارشی از روشهای دستی استفاده کرده است، اما در پژوهش حاضر این مراحل به شکل خودکار انجام میشوند که منجر به تولید ابزاری خودکار و یکپارچه شده است که نیازی به پیش پردازش و ویرایشهای خاص ندارد. جدول (6) به شکل کلی به مقایسه این روشها میپردازد.
جدول 6- مقایسه روش جکیان طوسی (1391) با روش ارائه شده در پژوهش حاضر
10. خلاصه و نتیجهگیریدر این مقاله به پیادهسازی و بررسی یک روش کاربردی بهمنظور استخراج پیکرههای موازی از متون ترجمهشده و مقایسهای پرداخته شد. اساس کار مدل همترازی در این روش شباهت دستوری و نحوی جملات در دو زبان است و درصورتیکه بتوان ابزارهای برچسبگذاری برای زبانهای دیگر ایجاد نمود میتوان این ابزار و روش را به سایر جفتهای زبانی بهغیراز فارسی و انگلیسی نیز گسترش داد. برای پیادهسازی و ارزیابی این روش ابتدا یک پیکره طلایی کوچک حاوی 1038 جفت جمله همتراز ایجاد شد. سپس با برچسبگذاری دستوری جملات این پیکره با استفاده از ابزارهای HunPos و ابزارهای برچسبگذاری دانشگاه فردوسی و دانشگاه استنفورد دادههای آموزش ایجاد شد. که 1660 عدد از این دادههابهمنظور آموزش الگوریتمهای طبقهبندی و 416 عدد بهمنظور آزمون موفقیت این الگوریتمها اختصاص داده شدند. بعد از ارزیابیهای مختلف بهترین مدل همترازی مدل ماشین بردار پشتیبان روی دادههای ابزارهای برچسبگذاری دانشگاه فردوسی و دانشگاه استنفورد با موفقیت 77% تشخیص داده شد. البته سایر مدلها میزان موفقیت 97% در حین آموزش را نیز گزارش میکردند که البته دقت عملیاتی این مدلها پایین تشخیص داده شد. در پایان با استفاده از بهترین مدل و همچنین با طراحی یک الگوریتم سنجش میزان شباهت لغوی جملات، دقت ابزار همترازی به 85% افزایش یافت. یکی از چالشهای پیش روی پژوهش حاضر وجود کلمات خارج از دامنه فرهنگ لغت است. به این معنی که کلماتی که در فرهنگ لغت وجود نداشته باشند اما در جملات ورودی کاربر موجود باشند میزان شباهت لغوی جملات را پایین آورده و در کار الگوریتم سنجش شباهت لغوی ایجاد اشکال میکنند. همچنین به شکل کلی برچسبگذاری دستوری باهمآییها و عبارت یکی از چالشهای ابزارهای برچسبگذاری محسوب میشود. بهعنوان مثال هیچوقت نمیتوان با ترجمه کلمه به کلمه عبارت انگلیسی «kick the bucket» به عبارتی دستیافت که بیشترین میزان اشتراک برچسبهای دستوری با عبارت اصلی را داشته باشد. به همین جهت ایجاد ابزارهای برچسبگذاری که بتوانند باهمآییها را تشخیص دهند و همچنین ارائه الگوریتمهایی برای مرتفع کردن مشکلات کلمات خارج از دامنه فرهنگ لغت از کارهایی است که برای آینده پژوهشی پیشنهاد میشود. [1] Parallel corpus [2]D. Jurafsky & J. H.Martin [3]R. Mitkov [4]translation memory systems [5]Cross Language Information Retrieval [6]J. Cheon & K. O. Youngjoong [7]A. McEnery & R. Xiao [8]noise [9] W.A. Gale & K.W. Church [10] P.Georgiou et al. [11] S.A. Rauf & H. Schwenk [12] R. Barzilay & N. Elhadad [13] Z. Rahimi et al. [14] M. FattanehJabbari & S. M. Ziabary [15] Wikipedia [16] bootstrapping [17] expectation maximization [18] C. D. Manning & H. Schütze [19] characters [20] M. Simard et al. [21] S. Piperidis et al. [22] H. M. Caseli and M. G.V. Nunes [23] D. S. Munteanu & Marcu [24] maximum entropy classifier [25] D. Ștefănescu et al. [26] Moses Decoder [27] linear time complexity [28]P.Koehn [29]semantic load [30]multiple linear regression [31]support vector machine [32]tractable [33]out of vocabulary [34] P. Halácsy [35]Random Forest [36]Matlab [37]Isfahan University Parallel Corpus Framework | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
زاری، علیمه؛ صدرالدینی، محمد (1392). شناسایی جملات هم ترجمه با استفاده از طبقه بند آنتروپی بیشینه، دوازدهمین کنفرانس ملی سیستمهای هوشمند، انجمن سیستمهای هوشمند ایران. (صص 716-721) جکیان طوسی، سید احمد (1391). ارائه رهیافتی جدید برای تولید پیکره موازی انگلیسی-فارسی، پایاننامه دوره کارشناسی ارشد، دانشکده مهندسی دانشگاه فردوسی Ansari, E., Sadreddini, M. H., Tabebordbar, A., & Wallace, R. (2014). Extracting Persian-English parallel sentences from document level aligned comparable corpus using bi-directional translation. Advances in Computer Science: an International Journal, 3, 59-65.
Barzilay, R., & Elhadad, N. (2003). Sentence alignment for monolingual comparable corpora. Proceedings of the 2003 conference on Empirical methods in natural language processing, 25-32. Stroudsburg: Association for Computational Linguistics.
Brown, K. (2005). Encyclopedia of Language and Linguistics, 14-Volume Set. Elsevier Science.
Caseli, H. M. and Nunes, M. G. V. (2003). Evaluation of sentence alignment methods on portuguese-english parallel texts. Scientia, 14, 1-14.
Chen, S. F. (1993). Aligning sentences in bilingual corpora using lexical information. Proceedings of the 31st annual meeting on Association for Computational Linguistics, 9-16. Stroudsburg: Association for Computational Linguistics.
Cheon, J., & Youngjoong, K. O. (2017). Automatically Extracting Parallel Sentences from Wikipedia Using Sequential Matching of Language Resources. IEICE Transactions on Information and Systems .100 (2),405-408.
Fattah M.A., Ren F., Kuroiwa S. (2006) Text-Based English-Arabic Sentence Alignment. In DS. Huang, K. Li & G.W. Irwin (eds.) Computational Intelligence. ICIC 2006. Lecture Notes in Computer Science, vol 4114. 748-753. Berlin, Heidelberg: Springer.
Gale, W. A., & Church, K. W. (1993). A program for aligning sentences in bilingual corpora. Computational linguistics, 19, 75-102.
Georgiou, P., Sethy, P., Shin, J., & Narayanan, S. (2006). An English-Persian Automatic Speech Translator: Recent Developments in Domain Portability and User Modeling. Proceedings of the International Conference on Intelligent Systems and Computing, Cyprus: ISYC. Halácsy, P., Kornai, A., & Oravecz, C. (2007). HunPos: an open source trigram tagger. Proceedings of the 45th annual meeting of the ACL on interactive poster and demonstration sessions, 209-212. Prague, Czech Republic: Association for Computational Linguistics (ACL).
Han, X., Li, H., & Zhao, T. (2009). Train the machine with what it can learn: corpus selection for SMT. In P. Fung, P. Zweigenbaum & R. Rapp (eds.) Proceedings of the 2nd Workshop on Building and Using Comparable Corpora: from Parallel to Non-parallel Corpora, 27-33. Singapore: Association for Computational Linguistics (ACL)
Jabbari, F. & Ziabary, M. (2012). Developing an open-domain English-Farsi translation system using AFEC: Amirkabir bilingual Farsi-English corpus. The Fourth Workshop on Computational Approaches to Arabic Script-based Languages proceedings, 17-24. San Diego: AMTA
Jurafsky, D., & Martin, J. H. (2009). Speech and Language Processing (2Nd Edition). Upper Saddle River, NJ, USA: Prentice-Hall, Inc.
Koehn, P. (2009). Statistical Machine Translation. Cambridge University Press.
Manning, C. D. & Schütze, H. (1999). Foundations of statistical natural language processing. Cambridge MA: The MIT Press.
Manning, C., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S., & McClosky, D. (2014). The Stanford CoreNLP natural language processing toolkit. In K. Bontcheva Z. Jingbo (eds.) Proceedings of 52nd Annual Meeting of the Association for computational linguistics: system demonstrations, 55-60. Baltimore, Maryland: Association for Computational Linguistics (ACL).
McEnery, A., & Xiao, R. (2007). Parallel and comparable corpora: What are they up to? In G. James and G. Anderman (eds.) Incorporating Corpora: The Linguist and the Translator, 18-31. Clevedon, UK: Multilingual Matters.
Mitkov, R. (ed.) (2005). The Oxford handbook of computational linguistics. Oxford University Press: New York.
Mohammadi, M., & GhasemAghaee, N. (2010). Building bilingual parallel corpora based on wikipedia. Second International Conference on Computer Engineering and Applications (ICCEA), 264-268. Bali Island, Indonesia: Institute of Electrical and Electronics Engineers (IEEE).
Munteanu, D. S., & Marcu, D. (2005). Improving machine translation performance by exploiting non-parallel corpora. Computational Linguistics, 31, 477-504.
Pilevar M.T., Faili H., Pilevar A.H. (2011) TEP: Tehran English-Persian Parallel Corpus. In A. Gelbukh (ed.) Computational Linguistics and Intelligent Text Processing. CICLing 2011. Lecture Notes in Computer Science, vol 6609. pp. 68-79. Berlin, Heidelberg: Springer.
Piperidis, S., Papageorgiou, H., & Boutsis, S. (2000). From sentences to words and clauses. In J. Véronis (ed.)Parallel text processing: Alignment and Use of Translation Corpora. 117-138. Dordrecht: Springer.
Rahimi, Z., Taghipour, K., Khadivi, S., & Afhami, N. (2012). Document and sentence alignment in comparable corpora using bipartite graph matching. 2012 Sixth International Symposium on Telecommunications (IST), 817-821. Piscataway, NJ: Institute of Electrical and Electronics Engineers (IEEE).
Rauf, S. A., & Schwenk, H. (2011). Parallel sentence generation from comparable corpora for improved SMT. Machine translation. 25, 341-375.
Seraji, M. (2011). A statistical part-of-speech tagger for Persian. In B. S. Pedersen, G. Nešpore and I. Skadiņa (eds.). Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA, 340-343. Riga, Latvia: Northern European Association for Language Technology (NEALT).
Simard, M., Foster, G. F., & Isabelle, P. (1993). Using cognates to align sentences in bilingual corpora. Proceedings of the 1993 conference of the Centre for Advanced Studies on Collaborative research: distributed computing-Volume 2, 1071-1082. Toronto: IBM Press
Ștefănescu, D., Ion, R., & Hunsicker, S. (2012). Hybrid parallel sentence mining from comparable corpora. Proceedings of the 16th Conference of the European Association for Machine Translation, 137-144.Trento: Fondazione Bruno Kessler (FBK).
Taghipour, K., Afhami, N., Khadivi, S., & Shiry, S. (2010). A discriminative approach to filter out noisy sentence pairs from bilingual corpora. 2010 5th International Symposium on Telecommunications(IST), 537-541. Institute of Electrical and Electronics Engineers (IEEE): Curran Associates, Inc. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 2,038 تعداد دریافت فایل اصل مقاله: 470 |