تعداد نشریات | 43 |
تعداد شمارهها | 1,682 |
تعداد مقالات | 13,762 |
تعداد مشاهده مقاله | 32,199,742 |
تعداد دریافت فایل اصل مقاله | 12,747,789 |
پیکرۀ ساختهای فعل سبک زبان فارسی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نشریه پژوهش های زبان شناسی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 10، دوره 14، شماره 1 - شماره پیاپی 26، اردیبهشت 1401، صفحه 173-198 اصل مقاله (2.5 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/jrl.2023.135758.1685 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مهدیه اسحاقی* 1؛ غلامحسین کریمیدوستان2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1پژوهشگر پسادکتری زبانشناسی، دانشکده ادبیات و علوم انسانی، دانشگاه تهران، تهران، ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2استاد زبانشناسی، دانشکده ادبیات و علوم انسانی، دانشگاه تهران، تهران، ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
پیکرۀ زبانی مجموعهای بزرگ از دادههای زبانی مبتنی بر کاربرد سخنوران زبانهاست که الگوهای واقعی کاربرد زبانی را در اختیار پژوهشگران قرار میدهند. برتری پیکرهها در مقایسه با سایر منابع دادهای علاوه بر حجم زیاد داده، ایجاد امکان بهکارگیری رایانه در بررسیهای زبانی است. مقالۀ حاضر به معرفی اولین پیکرۀ ساختهای فعل سبک زبان فارسی میپردازد. آشنایی با ماهیت این ساختها و دسترسی به فهرستی از آنها، علاوه بر اهمیت نظری بهلحاظ کاربردی نیزحائز اهمیت است. این یافتهها در حوزۀ بررسیهای هوش مصنوعی مرتبط با پردازش زبانهای طبیعی، ترجمۀ ماشینی، آموزش زبان فارسی، دستورنویسی و فرهنگنگاری کاربرد مییابد. پیکرۀ هدف این پژوهش «پیکرۀ زبانی ساختهای فعلسبک زبان فارسی» یا LCP نام دارد. برای ایجاد آن پیکرۀ تکزبانۀ پژوهشگاه ارتباطات و فناوری اطلاعات (بیجنخان، 1397) که حاوی 950000 فایل متنی است، بهعنوان پیکرۀ مبنا برگزیده شد. ساختهای فعلی مرکب مربوط به 21 فعل سبک زایای زبان فارسی از آن استخراج شده است و پس از برچسبزنی در چارچوب صرف توزیعی (Halle & Marantz, 1993; Marantz, 2013) در قالب پیکرهای مشتمل بر بیش از 6000 ساخت فعل سبک در بیش از 2000000 بافت زبانی ارائه شده است که در بیش از 200000 بافت زبانی ارائه شدهاند. مقایسۀ تعداد فعلهای واژگانی زبان فارسی با تعداد ساختهای فعل سبک موجود در پیکرۀ حاضر، بدیهیترین عاملی است که وجود چنین پیکرهای در میان منابع زبان فارسی را ضرورت میبخشد. از سوی دیگر، ماهیت این پیکره، یعنی نمایش ساختهای فعل سبک در بافتهای زبانی متفاوت، میتواند به پژوهشگران در یافتن پاسخ پرسشهای موجود در رابطه با این ساختها، رد یا تأیید فرضیهها و طرح نظریههای جدید کمک کند. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
زبان فارسی؛ منابع دادهای؛ پیکرۀ زبانی؛ ساختهای فعل سبک؛ پردازش زبان طبیعی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
. مقدمه زبان از ارکان اصلی جوامع بشری و ابزار بیان هویت هر ملتی است؛ از این رو، کوشش در زمینۀ شناخت و حفظ آن ضرورت مییابد. پیکرههای زبانی از جمله ابزارهای کارآمد زبانی هستند که نقش مؤثری در حفظ و شناخت زبانها بر عهده دارند. مقالۀ حاضر به معرفی پیکرۀ زبانی ساختهای فعل سبک زبان فارسی میپردازد که حاصل پژوهش نگارندگان مقاله است.[1] پژوهشی که در آن تلاش شده است با ایجاد این ابزار زبانی راه را برای شناخت بهتر یکی از اجزای چالشبرانگیز زبان، یعنی ساختهای فعل سبک،[2] هموار گردد. فعل سبک به دستهای از فعلها اطلاق میشود که در روند تحولات زبانی بخشی از بار معنایی خود را از دست دادهاند و بهاصطلاح سبک شدهاند، این اصطلاح را اولین بار یسپرسن[3] (1965) ابداع کرد. این فعلها در بیان مفاهیم فعلی با عنصر زبانی دیگری از مقوله اسم، صفت یا حرف اضافه همنشین شده و ساختهای فعلی مرکب را ایجادکردهاند.[4] مطالعۀ نحوی و معنایی این ساختها به یکی از چالشبرانگیزترین مسائل مورد بررسی زبانشناسی امروز تبدیل شده است و در زبانهای مختلف از جنبههای مختلف و در قالب رویکردهای متفاوت به آنها پرداخته شده است. زبان فارسی از جمله زبانهایی است که در آن تعداد کمی از فعلها ساده هستند؛ ناتل خانلری (1365) به وجود حدود 279 فعل سادۀ واژگانی در زبان فارسی اشارهکردهاست.[5] کریمی[6] (1997) به وجود 115 فعل سادۀ واژگانی و کریمیدوستان (1997) به وجود 150 فعل سادۀ واژگانی سبکنشده اشارهکردهاند. سایر افعال مورد استفاده در این زبان حاصل کنار هم قرارگرفتن یک پیش فعل و یک فعل سبک هستند، این ویژگی ضرورت پرداختن به این ساختهای فعلی را دو چندان ساخته است. ساختهای فعلی سبک زبان فارسی به دلیل ماهیت ویژهای که دارند، از جمله ساختهای زبانی هستند که سبب ایجاد چالش در حوزههای مختلف از جمله آموزش زبان، فرهنگنگاری، دستورنویسی، هوشمصنوعی، ترجمۀ ماشینی، ایجاد جویشگرهای بومی و تحلیلهای زبانشناختی دادهمحور شدهاند. تسلیمیپور (1391) به چالشهای موجود در برخورد با ساختهای فعلی مرکب در سیستمهای محاسباتی اشاره کرده است. وی بر کمبود منابع محاسباتی زبان فارسی و ضرورت بررسیهای پیکرهای برای قرار دادن احتمالات معیار در اختیار پژوهشگران حوزۀ هوش مصنوعی تأکید کرده است. او استخراج خصوصیات معنایی و ساختاری ساختهای فعل سبک را برای استفاده در عملیاتهای پردازش زبانی مانند ترجمه، برچسبگذاری، خلاصهبرداری ضروری دانسته است. عسکریان (10:1391) نیز اولین گام در پردازش زبانی را شناخت اجزای پایهای زبان، یعنی واژهها، دانسته است و در این میان به چالشهای موجود در رابطه با واژههای مرکب اشاره کرده است. وی دلیل وجود این چالشها را ویژگیهای نحوی و معنایی خاص در این دسته از واژهها میداند که حاصل ترکیب ویژگیهای اجزای تشکیلدهندۀ آنهاست. ویژگیهایی که برای هر نوع سیستمی که به نوعی با فهم زبان در ارتباط است مانند سیستمهای ترجمه، خلاصهبرداری و سیستمهای محاوره مورد نیاز است. افزون بر این، یافتههای حاصل از چنین پژوهشهایی میتواند در رفع مشکلات مربوط به آموزش ساختهای فعل سبک در دستور زبان مدارس و آموزش زبان فارسی به غیر فارسی زبانان نیز مؤثر واقع شود و در امر تهیه و تدوین مواد آموزشی مرتبط با این ساختها تأثیرگذار باشد. مطالعات انجامشده در زمینۀ مشکلات آموزش زبان فارسی به غیرفارسیزبانان به کرات به وجود مشکلاتی در رابطه با آموزش ساختهای فعلی مرکب اشاره کردهاند؛ برای مثال، معرفت (1384) به انتخاب جز فعلی نامناسب بهعنوان یکی از خطاهای مشاهدهشده در کاربرد زبان فارسی از سوی فارسیآموزان غیرفارسیزبان اشارهکرده است. حساسصدیقی (1389) نیز به مشکلات غیرفارسیزبانان در رویارویی با ساختهای فعلی مرکب پرداخته است. از دیگر پژوهشهای این حوزه میتوان به برفی (1395) اشاره کرد که از دیدگاه شناختی به مشکلاتی پرداخته که غیرفارسیزبانان سه مرکز آموزشی زبان فارسی در رویارویی با این ساختها با آنها مواجه بودهاند. در حوزۀ فرهنگنگاری نیز بسیاری از نویسندگان در پی یافتن راهحلی برای چگونگی مدخل کردن چنین الگوهایی در فرهنگها هستند. خزاعیفر (1384) و طبیبزاده (1384) از جمله پژوهشگرانی هستند که به مشکلات مربوط به فعل مرکب در فرهنگنگاری پرداختهاند. مشکلاتی ازایندست که نتیجه کمبود دادههای موجود از این ساختهای زبانی است، نگارندگان مقاله را بر آن داشت که برای سهولت بخشیدن به انجام پژوهشهای این حوزه و کمک به گشایش رمزی از رمزهای زبان فارسی به ایجاد اولین پیکره از این ساختهای زبانی زایا بپردازند. در دست داشتن یک پیکرۀ زبانی حاوی این ساختها بهصورت نمونههای واقعی که الگوهای رفتاری آنها را هم بهلحاظ معنایی و هم بهلحاظ نحوی به تصویر میکشد، ابزاری خواهد بود بهسوی شناخت بهتر این ساختهای فعلی و رفع چالشهای موجود در رابطه با آنها. ساختهای فعلی سبک در زبان فارسی نیز مانند سایر زبانها مورد توجه بودهاند، از جمله مهمترین آثار موجود در این حوزه میتوان به دبیرمقدم (1376)؛ کریمی (1997)؛ واحدی لنگرودی (1996)؛ گلدبرگ[7] (1996)؛ کریمیدوستان (1997, 2005, 2008, 2011)؛ مگردومیان[8] (2001)؛ فولی،[9] هارلی[10] و کریمی (2005)؛ فامیلی[11] (2006)؛ سامولیان[12] و فقیری[13] (2013) اشارهکرد، که از میان آنها تنها سامولیان و فقیری (2013) به تهیۀ پیکرهای مربوط به بیش از ۶۰۰ فعل مرکب شامل فعل سبک «زدن» پرداخته و آن را واژگان نحوی و معنایی افعالمرکبفارسی (PersPred) نامیدهاند. این مجموعه چندزبانه شامل اطلاعات نحوی و معنایی افعال مرکب زبان فارسی با جز فعلی «زدن»، ترجمۀ انگلیسی و فرانسوی افعال و حداقل یک جمله مثال برای هر فعل است. در زبان فارسی پیش از این پیکرههایی از جمله پیکرۀ متنی زبان فارسی (بی جن خان، 1383)، پایگاه دادگان زبان فارسی (Assi, 1997)، پیکرۀ همشهری (AleAhmad et al., 2009) و پیکرۀ فارس نت (Shamsfard et al., 2010) ساخته شدهاند. اما پیکرهای که این پژوهش در پی ساخت آن بوده است، تنها یک نوع خاص از ساختهای زبانی به نام ساختهای فعلی سبک در زبان فارسی را هدف قرار داده است. پیکرۀ حاصل از پژوهش یک پیکرۀ همزمانی تکزبانه از ساختهای فعلی سبک در زبان فارسی با قابلیت جستجوی رایانهای است. دادههای موجود در این پیکرۀ زبانی مستخرج از پیکرۀ تکزبانه پژوهشگاه ارتباطات و فناوری اطلاعات است که توسط بیجنخان (1397) برای طرح جویشگر بومی مرکز تحقیقات مخابرات ایران ایجاد شده است و حاوی 950000 فایل متنی است. ساختهای فعلی مرکب مربوط به 21 فعل سبک زایای زبان فارسی(شدن، کردن، خوردن، بردن، آوردن، آمدن، انداختن، افتادن، گرفتن، دادن، بخشیدن، رفتن، رسیدن، گشتن، کشیدن، یافتن، دیدن، گذاشتن، بستن، زدن و داشتن) از این پیکره استخراج و در قالب جملههایی که این ساختهای فعلی در آنها به کار رفته است، با عنوان اولین پیکرۀ ساختهای فعلی مرکب زبان فارسی [14] (LCP)ارائه میشود. برچسبزنی این ساختها در چارچوب نظری صرفتوزیعی[15] صورت گرفته است. صرف توزیعی چارچوبی نظری است که در دهۀ 90 ظهور یافت، از منادیان این نحلۀ نظری میتوان به هله[16] (1990)، بونت[17] (1991)، نویر[18] (1997) و پستسکی[19] (1995) اشارهکرد؛ اما اولین بار هله و مرنتز[20] (1993) عنوان صرف توزیعی را برای این انگارۀ دستوری مطرح کردند. صرف توزیعی نظریهای مختص صرف نیست و این نام از این روی برآن نهاده شده است که وظیفۀ ساخت واژه بین بخشهای مختلف انگارۀ دستوری توزیع شده است. این رویکرد مبتنی بر تعامل میان بخشهای مختلف دستور ازجمله صرف، نحو و واجشناسی است. تنها یک بخش زایا در آن مفروض است و آن نحو است، ساختار واژهها نیز مانند ساختار گروه و جمله در نحو شکل میگیرد. انگارۀ صرف توزیعی در تقابل با فرضیههای واژگانگرا بر این فرض استوار است که واژهها با استفاده از ریشهها و مشخصههای صوری در نحو تولید میشوند، نه اینکه بهصورت واحدهای پیشساخته درونداد نحو شوند. بنابراین، در این رویکرد اشتقاق با عملکرد فرایندهای نحوی بر مجموعهای از مشخصههای صرفینحوی و ریشهها در حوزۀ نحو آغاز میشود و سپس، در سطح بازنمون[21] که کار نحو پایان یافته است اشتقاق در دو مسیر صورت آوایی1 و صورت منطقی[22] ادامه مییابد. از دیدگاه صرف توزیعی ریشهها[23] عناصری بدون مقوله در نظر گرفته میشوند. صدیقی (2009) ریشهها را تکواژهای انتزاعی بدون مقوله و دارای مفهومی بنیادی دانستهاند. دربارۀ ماهیت صوری ریشهها، عدهای از جمله بیرد[24] (1995) برای ریشهها مانند واژههای انتزاعی اساساً ماهیت نحوی-معنایی قائل شدهاند. آرونف[25] (1976) ماهیت واجی برای آنها در نظر گرفت هاست. پستسکی (1982) و کیپارسکی[26] (1982; 1997) آنها را ماهیتاً ترکیبی از ویژگیهای واجی و معنایی فرض کردهاند. مرنتز (1997) به ماهیت نحوی آنها پرداخته است. برر[27] (2003) ریشهها را فاقد ویژگیهای مؤثر بر ساختار فرض کرده است. از دیگر مباحث مطرحشده دربارۀ ریشهها، میزان بار معنایی آنها و نقش این بار معنایی در تعیین رفتار نحوی است. از جمله دیدگاههای مطرحشده در این زمینه دیدگاه پژوهشگرانی از جمله مرنتز (1997; 2000) و هارلی[28] (2009) است که معتقدند ریشهها قادر به انتخاب موضوع هستند و از این طریق اطلاعاتی در رابطه با بافت نحوی خود ارائه میدهند. هارلی (2009) ریشهها را عناصری بدون مقوله اما حاوی محتوای معنایی دایرهالمعارفی پیام دانسته و معتقد است هر ریشه صورت واژگانیشدۀ یک مفهوم واژگانی محض است. او ریشهها را دارای خوانشهای وابسته به بافت میپندارد. در مقابل عدهای دیگر از جمله آکواویوا[29] (2008) و برر (2013) معتقدند ریشهها حاوی اطلاعات معنایی نیستند و این عدم وجود بار معنایی به معنی عدم وجود ساختار موضوعی و هر ویژگی گزینشی دیگری است. برر (2014) نیز ریشهها را بدون مقولۀ ذاتی در نظر گرفته و از این حیث برداشت خود از ریشهها را مشابه انگارۀ صرفتوزیعی دانسته است. از دیگر نخستیهای نحو در چارچوب صرف توزیعی به تعبیر ایمبیک[30] و نویر (2001) عناصر نقشی یا مقولهسازها هستند که مسئولیت مقولهدار کردن ریشههای بدون مقوله را برعهده دارند. فرض مقولهسازی ایمبیک و مرنتز (2008) بیانگر ضرورت وجود هستههای نقشی مقولهساز در این چارچوب است. طرح کلی رویکرد مرنتز این بود که مقولههای واژگانی مانند اسم و فعل حاصل ترکیب مشخصههای مقولهای با ریشهها در واژگان نیستند، بلکه ریشهها بدون مقوله وارد نحو میشوند و محیط نحوی است که مشخص میکند این ریشهها در جایگاه متمم کدام مقولهساز جای گیرند و بر آن اساس مقولۀ آنها تعیین گردد (Panagiotidis, 2015). عناصرمقولهساز در برخی موارد تظاهر آشکار دارند و در برخی موارد فاقد تظاهر آشکارند یا به عبارتی تهی هستند. پاناگیوتیدس (2015) معتقد است که ریشهها نه تنها بدون مقوله هستند، بلکه بهلحاظ معنایی نیز کامل نیستند؛ از اینرو، مقولهسازها علاوه بر اینکه ریشهها را مقولهدار میکنند، به خوانش معنایی آنها نیز کمک میکنند. در برچسبزنی ساختهای فعل سبک موجود در پیکره به پیروی از مرنتز (2013) پیشفعلهای بهکاررفته در ساختهای فعل سبک را ریشههای بیمقوله و فعلهای سبک را عناصر مقولهساز در نظر میگیریم. بر این اساس، پس از مقدمۀ حاضر در بخش دوم به معرفی مختصر مراحل ایجاد پیکرۀ مورد بحث میپردازیم و در بخش سوم با ارائۀ نمونههایی به معرفی دادههایی میپردازیم که این پیکره در اختیار کاربران قرارمیدهد. در بخش چهارم به جمعبندی مطالب خواهیم پرداخت.
مراحل ایجاد این پیکره عبارتاند از: طراحی ساختار پیکره، گزینش پیکرۀ مبنا، پیشپردازش متنها، تعیین گرههای جستجو، تصمیمگیری دربارۀ بافت چپ و راست گرهها، نوشتن کدهای ماکرو و تهیۀ نرمافزار جستجو، استخراج تمام جملات حاوی فعلهای مورد بررسی (فارغ از در نظر گرفتن کاربرد سبک یا واژگانی آنها)، جداسازی صورتهای واژگانی و سبک فعلها، انتخاب مدل برچسبزنی و انجام فرایند برچسبزنی، ساماندهی نتایج و ایجاد امکان جستجو که در زیربخشهای بعدی بهطور جداگانه به چگونگی انجام هریک از این مراحل میپردازیم.
1-2. طراحی ساختار پیکره اولین مرحله در ایجاد یک پیکرۀ زبانی طراحی ساختار پیکره است که در آن مشخص میشود که پیکره از نوع تکزبانه است یا چند زبانه، همزمانی است یا در زمانی، گفتاری است یا نوشتاری، شامل متن است یا جمله، محدود به موضوعی خاص است یا خیر، آیا پیکرهای کلی است یا هدفویژه و در آخر اینکه نحوۀ دسترسی به آن چگونه خواهد بود. در طراحی ساختار پیکرۀ حاضر بنا شد که پیکره بهصورت یک پیکرۀ همزمانی تکزبانه به زبان فارسی باشد، پیکرهای نوشتاری و شامل جملاتی حاوی ساختهای فعل سبک مربوط به 21 فعل سبک در زبان فارسی. یک پیکرۀ هدفویژه بهمنظور ارائۀ دادهای گسترده از ساختهای فعل سبک زبان فارسی در بافتهای مختلف زبانی که بهصورت پیکرۀ الکترونیکی با امکان جستجوی ماشینی در اختیار کاربران قرارگیرد.
2-2. گزینش پیکرۀ مبنا و پیشپردازش متنها در تهیۀ یک پیکره بهویژه یک پیکرۀ هدفویژه میتوان دادهها را از یک پیکرۀ موجود در زبان استخراجکرد. چنین پیکرهای، پیکرۀ مبنا نامیده میشود. پیکرهای که در ایجاد پیکرۀ حاضر بهعنوان مبنا در نظرگرفته شده است، پیکرۀ تکزبانۀ پژوهشگاه ارتباطات و فناوری اطلاعات است که شامل 950 هزار فایل متنی است. این پیکره توسط بیجنخان (1397) برای طرح جویشگر بومی مرکز تحقیقات مخابرات ایران ایجاد شده است و یک فایل اکسس شامل 950 هزار فایل متنی است، وسعت این پیکره و تنوع متنها این امکان را ایجاد میکند که حجم وسیعی از دادههای زبانی مرتبط با ساختهای فعلی مدنظر از آن استخراج شود. هرچه پیکره بزرگتر باشد ویژگی نمایندگی[31] خود را بهتر ایفا میکند و الگوهای زبانی را با دقت بیشتری به تصویر میکشد. پس از انتخاب پیکرۀ مبنا و پیش از آغاز جستجو در نخستین گام برای نمایش دادهها و ایجاد امکان جستجو فایل اکسس پیکره را به 19 فایل اکسل شکستیم که هریک از این 19 فایل شامل 50 هزار فایل متنی است. سپس دادهها بهمنظور شناسایی موارد نیازمند پیشپردازش بهطور اجمالی بررسی شد. پیشپردازش یا نرمالسازی در واقع آمادهسازی دادهها و ایجاد تطابق نمایش آنها آغاز مرحله جستجو است. از جمله موارد نیازمند نرمالسازی وجود «ی» و «ک» عربی بود که در امر جستجو اختلال ایجادمیکرد برای حل این مشکل، برنامۀ یکسانسازی فونتها به نرمافزار اکسل دادهشد و «ی» و «ک» عربی با معادل فارسی خود جایگزین شدند. نرمالسازی فاصلهها نیز صورت گرفت. اما از اِعمال پیشپردازش بنواژهسازی بر دادههای پیکره خودداریکردیم. به این دلیل که ماهیت بنواژههای فعلهای زبان فارسی بهویژه بنواژههای زمان حال بهگونهای است که در برخی واژهها توالیهای واجی مشابه آنها یافت میشوند و سبب میشود که ابزار جستجو یافتههای نامربوط فراوان را در نتایج ارائه دهد، در مقابل به جستجوی واژهها بهصورت توکنها (موردواژهها) پرداختیم.
3-2. تعیین گرههای جستجو پس از آمادهسازی دادهها برای جستجو وارد مرحلۀ تعیین گرههای جستجو میشویم. نظر به اینکه در این پژوهش با ساختهای فعل سبک روبهرو هستیم که متشکل از پیشفعل و فعل سبک هستند، جستجو برای این ساختها در دو مرحله صورت میگیرد.
1-3-2. گرههای جستجوی مرحلهی اول در مرحلهی اول صورتهای تصریفشدۀ 21 فعل مورد بررسی پژوهش بهلحاظ زمان، شخص، جهت و نمود را بهعنوان گرههای جستجو تعیینکردیم (تصویر1). آنچه ما را ناگزیر از این ساخت که تکتک صورتهای تصریفشدۀ فعلها را بهعنوان گره جستجو د رنظر بگیریم جلوگیری از مواجهه با یافتههای نامربوط در برونداد جستجو و محدودکردن نتایج جستجو بود. از این رو، موردواژهها[32] را با تعریف فاصلۀ قبل و بعد آنها بهعنوان گره جستجو در نظرگرفتیم تا برنامه تنها جملههای حاوی همان واژه را جستجوکند. برای روشن شدن موضوع به این مثال توجهکنید؛ اگر بن ماضی فعل «شدن»، یعنی «شد»، را به مثابۀ صورت مشترک در همۀ تصریفهای ماضی بدون فاصلۀ قبل و بعد بهعنوان گره جستجو تعریفکنیم تا صورتهایی از این فعل را که شامل این توالی واجی هستند از جمله «شده، شدی، شدم و نظایر آن» را بیابد، گرچه از تعداد گرهههای جستجو کاسته میشود، چندین برابر بر برونداد جستجو افزوده میشود و واژههایی از جمله «رشد، مرشد، شدائد و مانند آن» نیز در نتایج جستجو استخراج میشود که با حجم دادهای که با آن مواجه هستیم جداسازی آنها بسیار مشکلساز خواهد بود.
تصویر 1- نمونهای از گرههای جستجوی مرحلۀ اول Picture1- A sample of the first step search nodes
2-3-2. گرههای جستجوی مرحلۀ دوم گرههای جستجوی مرحلۀ دوم را پیشفعلهای همنشین با هریک از فعلها تشکیل میدهند که پس از اتمام مرحلۀ اول جستجو در فایلهای مربوط به هریک از فعلها بهصورت غیرخودکار و در چند مرحله توسط پژوهشگر استخراج شدهاند (تصویر2).
تصویر 2- نمونهای از گرههای جستجوی مرحلۀ دوم Picture2- A sample of the second step search nodes
4-2. تعیین بافت چپ و راست گرهها و نوشتن الگوریتمهای ماکرو و تهیۀ نرمافزار جستجو بافت چپ و راست گرههای جستجو در جستجوهای پیکرهای با توجه به هدف جستجو تعیینمیشود. ما در تعیین بافت چپ و راست گرههای جستجو دو معیار را درنظرداشتیم: اول اینکه پیکرهای از ساختهای فعل سبک را در اختیار کاربران قرار دهیم که این ساختهای چالشبرانگیز زبانی را در بافتی گستردهتر از واژه ارائه میدهد تا از این طریق علاوهبر در اختیار داشتن فهرستی از ساختهای فعل سبک، امکان مشاهدۀ الگوهای رفتاری این ساختها نیز وجود داشته باشد؛ معیار دوم اینکه ویژگی جداییپذیری ساختهای فعل سبک سبب میشود گاهی میان پیشفعل و فعلسبک فاصله بیافتد؛ از این رو، برای استخراج این ساختها در مرحلۀ اول که تنها فعلها جستجومیشوند باید بافت راست واژه بهگونهای در نظرگرفته شود که پیشفعل آن، حتی در نمونههایی هم که از فعل فاصله گرفتهاند، در نتایج قابلمشاهده باشد. بر این اساس، و با نگاهی گذرا به دادههای پیکرهای بافت راست هر گره 18 و بافت چپ 8 در نظرگرفته شد. مرحلۀ بعد پس از تصمیمگیری دربارۀ گرههای جستجو و تعیین بافت چپ و راست آنها، تهیۀ نرمافزار جستجو بود. نرمافزار جستجو را بهصورت برنامههای ماکرو نوشتهشده به زبان ویژوال بیسیک در اکسل اجرا کردیم، یک برنامه برای جستجوی مرحلۀ اول، یعنی جستجوی فعلها و یک برنامه برای جستجوی پیشفعلها. علت استفاده نکردن از نرمافزارهای جستجوی موجود مانند Antconc وLancsBox این بود که در این نرمافزارها امکان جستجوی چندین واژه بهطورهمزمان وجود ندارد و ما بر این بودیم که در هریک از 19 فایل با حجم گستردهای که دارند (هرکدام 50 هزار فایل متنی) همۀ موردواژهها بهطور همزمان جستجو شوند و نتایج جستجو در کاربرگ بعدی در ستونهای اکسل با عنوان هریک از فعلها به نمایش درآید. از این رو، برنامهای خاص استخراج این دسته از فعلها تهیه شد.
5-2. استخراج تمام جملات حاوی فعلهای مورد بررسی و جداسازی صورتهای واژگانی و سبک استخراج ساختهای فعل سبک از پیکره بهآسانی امکانپذیر نیست. از این رو، طی دو مرحله به استخراج دادهها پرداختیم.
1-5-2. استخراج فعلهای مورد بررسی اعم از سبک و واژگانی در این مرحله فعلهای مدنظر پژوهش را، بدون درنظرگرفتن کارکرد سبک یا واژگانی آنها، در هریک از 19 فایل جستجو کردیم. ستون اول هر فایل شامل 50 هزار سطر است. لازم به ذکر است که هریک از سطرهای این ستون، یک متن را شامل میشود نه یک جمله را. بنابراین، برنامۀ جستجو برای هریک از 19 فایل با 50000 فایل متنی مواجه است نه 50000 جمله (تصویر 3).
تصویر3- نمونهای از متن موجود در یک سطر از درونداد مرحلهی اول Picture3- A sample of the texts in one cell of the first step input
این متنها درونداد برنامۀ جستجویی قرارگرفتند که در آن گرههای جستجو موردواژههای مربوط به فعلهای مدنظر پژوهش بودند (صورتهای تصریفشدۀ هر فعل). پس از راهاندازی برنامه در هریک از فایلها، نرمافزار به جستجوی موردواژهها پرداخته و هریک را در ستونی با عنوان همان فعل ذخیره میسازد (تصویر4). برونداد این مرحله فهرستی از صورتهای مختلف فعلهاست، فارغ از سبک یا واژگانی بودن آنها.
تصویر4- نمونهای از برونداد مرحلۀ اول Picture4- A sample of the first step output
پس از این جستجو، نتایج جستجوی مربوط به هریک از 21 فعل را در یک فایل اکسل یکجا کردیم. بدینترتیب، 21 فایل اکسل تهیه کردیم که در هر کدام نتایج جستجوی مرحلۀ اول مربوط به یکی از فعلها وجود داشت (تصویر5).
تصویر5- نمونهای از فایلهای مختص هریک از فعلهای مورد بررسی Picture 5- A sample of the files dedicated to each of the investigated verbs
2-5-2. جداسازی صورتهای سبک و واژگانی فعلها در این مرحله صورتهای واژگانی و سبک فعلها از هم جدا شد. برای تشخیص ساختهای فعل سبک فارغ از بحث ترکیبپذیری/ترکیبناپذیری[33] معنایی از معیار سازوارگی[34] استفاده کردیم که براساس آن دو جزء سازندۀ فعل سبک تشکیل یک سازه را میدهند و این سازوارگی را در رفتار آنها بررسی کردیم. بدین معنی که در مواردی که با ساخت فعل سبک مواجه هستیم کل سازه، یعنی فعلسبک و پیشفعل، در آزمونهای تعیین سازوارگی صورت خوشساخت را به دست میدهند. این آزمونها شامل مبتداسازی، همپایهسازی، حذف و جانشینی[35] هستند. برای مثال، مبتداسازی در جملۀ «تیم والیبال ایران 25 بر 19 در این ست برتری یافت» با مبتداسازی پیشفعل و فعل سبک صورت خوشساختِ «برتری یافتن تیم والیبال 25 بر 19 در این ست» را به دست میدهد و مبتداسازی فعل به تنهایی و بدون پیشفعل صورت بدساختِ «*یافتن تیم والیبال 25 بر 19 در این ست برتری» را به دست میدهد. در همپایهسازی نیز هر دو عنصر سازندۀ ساخت فعل سبک برای ایجاد صورت خوشساخت بهکار میروند «تیم والیبال ایران 25 بر 19 در این ست برتری یافت و صعود کرد» در غیر اینصورت با جملۀ بدساخت «*تیم والیبال ایران 25 بر 19 در این ست برتری و صعود کرد» مواجه خواهیم شد. در حذف نیز هر دو عنصر با هم حذف میشوند «تیم والیبال ایران 25 بر 19 در این ست برترییافت و 23 بر 22 در ست قبل». آزمون جانشینی نیز نشان از سازوارگی پیشفعل و فعل سبک دارد «تیم والیبال ایران 25 بر 19 در این ست شکست خورد«. در ساختهای فعل سبک زبان فارسی رفتارهای زبانی متنوعی یافت میشود و از دردسرسازترین رفتارهای قابلمشاهده در این ساختها جداییپذیری آنهاست. از آنجا که رفتار معناداری حداقل تا زمان انجام پروژه حاضر دربارۀ نوع و نحوۀ قرارگرفتن پیشفعلهای موجود در ساختهای فعل سبک زبان فارسی در دسترس نبود، این مرحله بهعنوان یکی از مشکلترین مراحل انجام پروژۀ حاضر بهصورت غیرخودکار و دستی انجامگرفت. از آنجا که حجم دادههای موجود در برونداد مرحلۀ اول بسیار گسترده بود، تصمیمگرفته شد استخراج پیشفعلها به روش فیلترکردن چندمرحلهای انجامگیرد. بدین معنی که تعدادی از پیشفعلها با معیارهای بالا استخراج شد و برنامۀ ماکروی جدیدی برای جستجوی آن پیشفعلها به نرمافزار اکسل داده شد. نرمافزار این برنامه را بر برونداد مرحلۀ اول که درونداد این مرحله بود اجرا کرد و موارد مربوط به پیشفعلهای مورد جستجو را از میان موارد موجود جدا و ذیل ستونهایی با عنوان همان پیشفعلها در یک کاربرگ دیگر اکسل ذخیره میکرد (تصویر 6).
تصویر6- نمونهای از برونداد مرحلۀ دوم جستجو Picture 6- A sample of the second step output
با این روش تعداد موارد باقیمانده که پژوهشگر بهصورت دستی و غیرخودکار باید به جستجوی بقیۀ پیشفعلها در آنها بپردازد کمتر و امر جستجوی دوباره برای پیشفعلها کمی آسانتر میشد (تصویر7).
تصویر7- تصویری از موارد باقیمانده پس از یک مرحله جستجوی پیشفعلها Picture 7- A picture of the remaining cases after one stage of Preverbal elements search
این روش بهویژه برای فعلهایی که از زایایی بالایی برخوردارند بسیار کمککننده است؛ برای مثال، فعل سبک «کردن» که به همین روش در نهایت بیش از 1600 پیشفعل برای آن استخراج شد. این روش بر تکتک فایلها تا استخراج کامل پیشفعلهای همنشین هریک از فعلها انجام گرفت. برونداد این مرحله 21 فایل اکسل حاوی ساختهای فعل سبک مربوط به فعلهای مورد بررسی بود که باید در مرحلۀ بعد برچسبزنی آنها صورتگیرد.[36]
6-2. برچسبزنی برچسبزنی فرایند اعطای برچسب به واحدهای زبانی موجود در پیکره است. برچسبهای مورد استفاده برای هر پیکره با توجه به هدف ساخت پیکره انتخاب میشوند. علاوه بر آن، برچسبزنی پیکرهها براساس مدلهای دستوری متفاوت در سطح واژه و یا نحو صورت میگیرد. برچسبزنی در سطح واژه، دادن برچسب مقولۀ دستوری[37] و یا برچسب اطلاعات معنایی به واژههاست که جزئیات هریک از این انواع برچسبها براساس شیوهنامۀ ساخت پیکره انتخاب میشود. برای مثال، دو نمونه از برچسبهای دستوری معمول برچسبهای مقولۀ دستوری تراکس[38] و برچسبهای درخت بانک پن[39] هستند. پیکرۀ بیجنخان (1383) از مهمترین پیکرههای برچسبخورده در زبان فارسی است. برچسبزنی در سطح نحو به روابط میان واژهها و نقش آنها در جمله میپردازد. پیکرههای برچسبخورده در سطح نحو بهطور معمول براساس دو رویکرد دستور ساختگروهی[40] و دستور وابستگی[41] بودهاند. درخت بانک وابستگی نحوی زبان فارسی (Rasooli et al., 2013) براساس دستور وابستگی است. در زیربخشهای بعدی به تشریح شیوۀ برچسبزنی پیکرۀ حاضر میپردازیم. 1-6-2. انتخاب مدل برچسبزنی همان طورکه پیش از این اشاره شد پژوهش حاضر به دنبال ایجاد پیکرهای از ساختهای فعلی سبک در زبان فارسی بوده است. گرچه این ساختها در زبان فارسی حاصل همنشینی پیشفعلهایی از مقولۀ اسم، صفت یا عبارت حرف اضافهای با یک فعل سبک هستند، هدف پژوهش حاضر شناسایی و ارائۀ آنها بهعنوان نمونهای از عناصر فعلی در زبان فارسی است. از این رو، در این مرحله تصمیمگرفته شد که برچسبزنی در سطح واژه صورتگیرد. برای پرهیز از پرداختن به مقولۀ دستوری پیشفعلها، همسو با چارچوب دستوری صرف توزیعی پیشفعلها ریشههای بیمقوله[42] در نظر گرفته شد و فعلهای سبک مقولهساز،[43] برچسب PV (preverbal) فارغ از هر مقولۀ دستوری برای پیشفعلها و LV (Light verb) برای فعلهای سبک لحاظ شد. علاوه بر این مقرر گشت که بن واژه زمان حال و گذشته (lemma)مربوط به هریک از این ساختهای فعلی ارائهشود. برچسب دیگر مورداستفاده در این مرحله (separable) / INSEP (inseparable) SEP است که برای نشان دادن جداییپذیری و جدایی ناپذیری (با توجه به وجود یا عدم وجود فاصله) پیشفعل و فعل سبک به هریک از جملات حاوی این ساختهای فعلی داده شد.
2-6-2. انجام فرایند برچسبزنی درونداد این مرحله ساختهای فعلی سبکی است که بهصورت 21 فایل اکسل جداگانه از مرحلۀ جداسازی صورتهای سبک و واژگانی برونداد شده بودند. هریک از این فایلها به یکی از فعلهای مورد بررسی پژوهش اختصاصداشت. برای برچسبزنی این فایلها نیز مانند دو مرحلۀ پیشین پژوهش، یعنی جستجوی فعلها و جستجوی پیشفعلها، برنامۀ برچسبزنی خاص این دادهها طراحی و بر روی هریک از فایلها اجرا شد. گرچه برچسبزنهایی در پلتفرم NLTK و نسخۀ فارسی آن HAZM نیز در اختیار کاربران حوزۀ پیکره قراردارد؛ اما باز هم به دلیل حجم زیاد داده و فرمت دادۀ تهیهشده، طراحی برنامهای خاص برچسبزنی دادههای پیکرۀ مدنظر ترجیح داده شد. برچسب پیشفعلها و فعلهایسبک از طریق رنگی شدن این عناصر زده شد. پیشفعلها قرمز و فعلهای سبک سبز. از دیگر برچسبهایی که تصمیمگرفته شد به این ساختهای فعلی زده شود، برچسب SEP (separable) INSEP (inseparable) بود. این برچسب مبتنی بر امکان جداییپذیری این ساختها در زبان فارسی است؛ به عبارت دیگر، امکان فاصله افتادن میان دو عنصر پیشفعل و فعل سبک. تنها چالش موجود در این مرحله مربوط به زدن برچسب SEP وINSEP بود، به این دلیل که مواردی یافت میشد که با وجود فاصلۀ میان دو عنصر سازندۀ ساختهای فعل سبک با ساخت فعل سبک جداییناپذیر (inseparable) مواجه بودیم. خوشبختانه این موارد قاعدهمند هستند و همان طور که کریمیدوستان (2011) به آن پرداخته است شامل مواردی میشوند که »خواستن« زمان آینده، »داشتن« استمرار، فعلهایکمکی وجهی »شاید« و »باید« و همچنین، ضمیرهای متصل میان این دو عنصر قرار میگیرند. بهمنظور جلوگیری از زدن برچسب SEP به مواردی از این دست، این موارد بهصورت استثنا برای برنامه تعریف شد. [44]
تصویر8- تصویری از استثناهای برنامۀ برچسبزنی SEP و INSEP Picture 8- A picture of the exceptions to the SEP/INSEP annotation program
در واقع، این استثناها مواردی هستند که ساختار فعلی زبان فارسی ورود آنها را در میان دو عنصر سازندۀ ساختهای فعل سبک مجاز میداند و سخنوران زبان برحسب نیاز از آن استفاده میکنند. در کنار این موارد سه سطر بالای هر کاربرگ به ترتیب بنواژه گذشته و حال، صورت مصدری فعل سبک و پیشفعل را با کمک توابع substitute و concatenate به نمایش گذاشته است. جدول (1) راهنمای برچسبهای پیکرۀ مورد بحث را نشان میدهد.
جدول1- راهنمای برچسبهای پیکره Table 1- The corpus tags’ guide
تصویر (9) نمونهای از برونداد مرحلۀ برچسبزنی را به تصویر میکشد. سطر اول با رنگ سفید بنواژههای گذشته و حال ساخت فعلسبک موجود در هر ستون را نشان میدهد، سطر دوم با رنگ سبز فعل سبک و سطر سوم با رنگ قرمز پیشفعل را نشان میدهد. همانگونه که تصویر نشان میدهد پیشفعل و فعل سبک در تمام نمونههای مربوط به هریک از ساختهای فعلی موجود در یک ستون نیز به ترتیب با رنگ قرمز و سبز نشان داده شده است و برچسب SEP وINSEP نیز در مقابل هریک از مثالها زده شده است.
تصویر 9- تصویری از فایل برچسبخورده ساختهای فعل سبک Picture 9- A picture of light verb construction annotated files
گام بعدی اجرای پروژۀ ساماندهی دادهها در قالب پیکره است که در زیربخش بعد به آن میپردازیم.
دادههای حاصل از این پژوهش، ساختهای فعل سبک مربوط به 21 فعل سبک زبان فارسی هستند که در بافتهای زبانی بهصورت برچسبخورده ارائه شدهاند. این 21 فعل عبارتاند از: آمدن، آوردن، افتادن، انداختن، بخشیدن، بردن، بستن، خوردن، دادن، داشتن، دیدن، رسیدن، رفتن، زدن، شدن، کردن، کشیدن، گذاشتن، گرفتن، گشتن و یافتن. در ادامه، اطلاعات مربوط به فراوانی دادههای موجود در پیکره برای هریک از این فعلها ارائه میشود. اولین فعل از این مجموعه فعلسبک «آمدن» است. برای فعلسبک «آمدن» در دادههای پیکره 77 ساخت فعل سبک یافت شد که در حدود 32000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «آمدن» است میتوان به «به عملآمدن»، «فائق آمدن»، «به سر آمدن» و نظایر آن اشاره کرد. دومین فعل از فعلهای مورد بررسی، فعلسبک «آوردن» است. برای فعل سبک «آوردن» در دادههای پیکره 108 ساخت فعل سبک یافت شد که در حدود 60000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «آوردن» است میتوان به «به ستوه آوردن»، «به چنگ آوردن»، «به خشم آوردن» و مانند آن اشاره کرد. سومین فعل مورد بررسی فعلسبک «افتادن» است. برای فعل سبک «افتادن» در دادههای پیکره 98 ساخت فعل سبک یافت شد که در حدود 15000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «افتادن» است میتوان به «دور افتادن»، «به شک افتادن»، «کارگر افتادن» و مانند آن اشاره کرد. چهارمین فعل از این مجموعه فعلسبک «انداختن» است. برای فعل سبک «انداختن» در دادههای پیکره 113 ساخت فعل سبک یافت شد که در حدود 70000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «انداختن» است میتوان به «از پا انداختن»، «خط انداختن»، «از کار انداختن» و نظایر اشاره کرد. پنجمین فعل مورد بررسی، فعل سبک «بخشیدن» است. برای فعل سبک «بخشیدن» در دادههای پیکره 111 ساخت فعل سبک یافت شد که در حدود 50000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «بخشیدن» است میتوان به «زینت بخشیدن»، «عزت بخشیدن»، «تسلی بخشیدن» و نظایر آن اشاره کرد. ششمین فعل از این مجموعه فعل سبک «بردن» است. برای فعل سبک «بردن» در دادههای پیکره 69 ساخت فعل سبک یافت شد که در حدود 19000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «بردن» است میتوان به «لذت بردن»، «رنج بردن»، «یورش بردن» و نظایر آن اشاره کرد. فعل سبک «بستن» هفتمین فعل سبک از این مجموعه است. برای فعل سبک «بستن» در دادههای پیکره 33 ساخت فعل سبک یافت شد که در حدود 3000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «بستن» است میتوان به «همت بستن»، «عقد بستن»، «دل بستن» و نظایر آن اشاره کرد. هشتمین فعل از این مجموعه، فعل سبک «خوردن» است. برای فعل سبک «خوردن» در دادههای پیکره 121 ساخت فعل سبک یافت شد که در حدود 200000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «خوردن» است میتوان به «قل خوردن»، «زخم خوردن»، «قسم خوردن» و مانند آن اشاره کرد. نهمین فعل مورد بررسی، فعل سبک «دادن» است. برای فعل سبک «دادن» در دادههای پیکره 359 ساخت فعل سبک یافت شد که در حدود 500000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «دادن» است میتوان به «چاک دادن»، «نشر دادن»، «جان دادن» و مانند آن اشاره کرد. فعل دهم از مجموعهفعلهای مورد بررسی، فعلسبک «داشتن» است. برای فعلسبک «داشتن» در دادههای پیکره 516 ساخت فعل سبک یافت شد که در حدود 300000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «داشتن» است میتوان به «انس داشتن»، «رونق داشتن»، «تمنا داشتن» و مانند آن اشارهکرد. یازدهمین فعل از این مجموعه فعلسبک «دیدن» است. برای فعل سبک «دیدن» در دادههای پیکره 43 ساخت فعل سبک یافت شد که در حدود 40000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «دیدن» است میتوان به «شایسته دیدن»، «فراهم دیدن»، «سان دیدن» و مانند آن اشاره کرد. دوازدهمین فعل مورد بررسی فعل سبک «رسیدن» است. برای فعل سبک «رسیدن» در دادههای پیکره 176 ساخت فعل سبک یافت شد که در حدود 65000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «رسیدن» است میتوان به «به وفاق رسیدن»، «به قطعیت رسیدن»، «به ارث رسیدن» و نظایر آن اشاره کرد. فعل سیزدهم از این مجموعه فعل سبک «رفتن» است. برای فعل سبک «رفتن» در دادههای پیکره 72 ساخت فعلسبک یافت شد که در حدود 40000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «رفتن» است میتوان به «لو رفتن»، «سجده رفتن»، «از یاد رفتن» و مانند آن اشارهکرد. چهاردهمین فعل مورد بررسی فعل سبک «زدن» است. برای فعلس بک «زدن» در دادههای پیکره 237 ساخت فعل سبک یافت شد که در حدود 19000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «زدن» است میتوان به «ناخنک زدن»، «لطمه زدن»، «گریز زدن» و مانند آن اشاره کرد. پانزدهمین فعل از مجموعه فعلهای مورد بررسی، فعل سبک «شدن» است. برای فعل سبک «شدن» در دادههای پیکره حدود 1137ساخت فعل سبک یافت شد که در حدود 1000000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «شدن» است میتوان به «عاجز شدن»، «مجازات شدن»، «اثبات شدن» و نظایر آن اشاره کرد. فعل شانزدهم از فعلهای مورد بررسی فعل سبک «کردن» است. برای فعل سبک «کردن» در دادههای پیکره حدود 1669 ساخت فعل سبک یافتشد که در حدود 1200000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «کردن» است میتوان به «کشت کردن»، «ترقی کردن»، «چک کردن» و مانند آن اشاره کرد. هفدهمین فعل از فعلهای مورد بررسی، فعل سبک «کشیدن» است. برای فعل سبک «کشیدن» در دادههای پیکره 171 ساخت فعل سبک یافت شد که در حدود 11000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «کشیدن» است میتوان به «زوزه کشیدن»، «به نظم کشیدن»، «زجر کشیدن» و مانند آن اشاره کرد. هجدهمین فعل مورد بررسی، فعل سبک «گذاشتن» است. برای فعل سبک «گذاشتن» در دادههای پیکره حدود 211 ساخت فعل سبک یافت شد که در حدود 45000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «گذاشتن» است میتوان به «قیمت گذاشتن»، «تأکید گذاشتن»، «تمایز گذاشتن» و نظایر آن اشاره کرد. فعل نوزدهم از این مجموعه فعل سبک «گرفتن» است. برای فعل سبک «گرفتن» در دادههای پیکره حدود277 ساخت فعل سبک یافت شد که در حدود 386000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «گرفتن» است میتوان به «بغل گرفتن»، «حاجت گرفتن»، «گوشه گرفتن» و مانند آن اشاره کرد. بیستمین فعل از فعلهای مورد بررسی، فعل سبک «گشتن» است. برای فعل سبک «گشتن» در دادههای پیکره 310 ساخت فعل سبک یافت شد که در حدود 49000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «گشتن» است میتوان به «ترکیب گشتن»، «سرکوب گشتن»، «عازم گشتن» و نظایر آن اشاره کرد. در نهایت، بیست و یکمین فعل از فعلهای مورد بررسی این پژوهش، فعل سبک «یافتن است. برای فعل سبک «یافتن» در دادههای پیکره 226 ساخت فعل سبک یافت شد که در حدود 68000 بافت زبانی ارائه شدهاند. از جمله ساختهای فعل سبکی که فعل سبک در آنها «یافتن» است میتوان به «تکوین یافتن»، «هدایت یافتن»، «مهلت یافتن» و مانند آن اشاره کرد.
جدول2- فراوانی ساختهای فعل سبک و بافتهای مرتبط در پیکرۀ حاضر Table 2- The frequency of light verb constructions and their related context in the present corpus
همان طور که مشاهده میشود فراوانی دادههای بهدستآمده برای هریک از این فعلها متفاوت است. اسحاقی و کریمیدوستان (1400) بهتفصیل به این موضوع پرداختهاند.
در این مقاله پیکرۀ ساختهای فعلی سبک زبان فارسی را معرفیکردیم. ابتدا به ماهیت این ساختهای فعلی و اهمیت و ضرورت مطالعۀ آنها در زبان فارسی پرداختیم. پس از اشاره به تعدادی از آثاری که به ضرورت وجود دادههای مربوط به این ساختها تأکیدکردهاند و چالشهای مرتبط با در دسترس نبودن این قبیل دادهها را متذکر شدهاند، وارد مبحث مراحل ایجاد پیکره شدیم. در این مراحل یکی از اولین گامها انتخاب پیکرۀ پژوهشگاه ارتباطات و فناوری اطلاعات بهعنوان پیکرۀ مبنا برای استخراج دادهها بود. گفته شد که استخراج ساختهای فعل سبک از پیکره بهآسانی و در یک مرحله امکانپذیر نیست . مراحل استخراج دادهها یکبهیک توضیح داده شد. اولین برنامۀ ماکرو برای استخراج فعل بهتنهایی و بدون در نظر گرفتن صورت سبک یا واژگانی فعل بود. مرحلۀ بعد تشخیص ساختهای فعل سبک با استفاده از معیار سبکشدگی معنایی و سازوارگی بود. پس از آن برنامۀ ماکروی جدیدی برای جستجوی پیشفعلهای مربوط به هریک از فعلها به نرمافزار اکسل داده شد که نتیجۀ آن 21 فایل اکسل بود که در هریک از آنها جملات استخراجشده از پیکرۀ مبنا حاوی فعلهای مورد بررسی به تفکیک پیشفعلهای همنشین وجود داشت. سپس، از میان مدلهای برچسبزنی موجود مدلی متناسب با دادههای بهدستآمده انتخاب شد و فرایند برچسبزنی ساختهای فعلی استخراجشده انجام گرفت. بدین ترتیب یک پیکرۀ همزمانی تکزبانه با قابلیت جستجوی رایانهای به دست آمدکه امید است در رفع چالشهای موجود برای این ساختها راهگشا باشد. آنچه در مطالعات بعدی مدنظر است بررسی آماری مسئلۀ جداییپذیری/ جداییناپذیری ساختهای فعل سبک، تهیۀ فرهنگ یکزبانه از ساختهای فعل سبک در زبان فارسی، استخراج الگوهای رفتار نحوی و معنایی فعلها، دوزبانه کردن فرهنگ ساختهای فعل سبک زبان فارسی است.
تشکر و قدردانی پژوهش حاضر حاصل طرح پژوهشی پسادکترای زبانشناسی است که در دانشگاه تهران و با حمایت مالی صندوق حمایت از پژوهشگران و فناوران کشور انجام گرفته است. بدینوسیله از صندوق حمایت از پژوهشگران و فناوران کشور نهایت قدردانی و سپاس را ابراز میداریم.
[1] این پیکره حاصل پژوهشی است که بهعنوان طرح پسادکتری با حمایت معاونت علمی و فناوری ریاست جمهوری، صندوق حمایت از پژوهشگران و فناوران کشور با شماره 99030152 در دانشگاه تهران انجام شده است. پیکرۀ مذکور در وبگاه دانشکدۀ ادبیات و علوم انسانی دانشگا تهران به آدرس https://Literature.ut.ac.ir/compound-verb بارگذاری شده است. [2] به ساختهای فعل سبک، فعل مرکب هم گفته میشود. [3] O. Jespersen [4] لازم به ذکر است که پیکرۀ حاضر دستۀ خاصی از گزارههای مرکب با عنوان ساختهای فعل سبک را مدنظر قرار داده است و در شناسایی آنها پیش از هر معیار دیگری سبکشدگی معنایی آنها را مدنظر قرار داده است، ویژگیای که در سایر دستهبندیها از جمله فعلهای مرکب انضمامی از جمله »غذا خوردن«، »ماهی گرفتن«، »زمین نشستن« و غیره دیده نمیشود. [5] ناتل خانلری در این فهرست تمامی فعلهای سادۀ واژگانی زبان فارسی را آورده است اعم از آنها که دستخوش سبکسازی شدهاند و آنها که صورت واژگانی را حفظ کردهاند. برخی از افعال در فهرست خانلری در فارسی امروزی کاربرد ندارند. [6] S. Karimi [7] A. E. Goldberg [8] K. Megerdoomian [9] R. Folli [10] H. Harley [11] N. Family [12] P. Samvelian [13] P. Faghiri [14] Light Verb Constructions of Persian [15] Distributed morphology [16] M. Halle [17] E. Bonet [18] R. Noyer [19] D. Pestesky [20] A. Marantz [24] R. Beard [25] M. Aronoff [26] P. Kiparsky [27] H. Borer [28] H. Harley [29] P. Acquaviva [30] A. Embick [31] reprentativeness [32] tokens 1 compositionality/noncompositionality 3 topicalization, coordination, deletion, substitution 1 البته ناگفته نماند که دادههای استخراج شده بار دیگر پیش از ورود به مرحلۀ برچسبزنی بازبینی شد به این دلیل که با وجود اعمال همۀ فیلترهای گفتهشده باز هم دادههای نامرتبط در نتایج جستجو به چشم میخورد و باید پیش از ورود به مرحلۀ برچسبزنی حذف شود که این مرحله نیز بهصورت غیرخودکار انجام گرفت. [37] POS tagging [38] Thrax POS tags [44] در صورت استفاده از برچسب »جداشده/ جدا نشده« این موارد نیز در فهرست امکان جداشدگی قرار میگرفت. از این رو، ضمن تعریف این موارد استثنا برای برنامه، برچسب جاییپذیر/جداییناپذیر در این مرحله تنها برای نشان دادن نمونههای دارای امکان جداییپذیری یا عدم این امکان انتخاب شده و در طرحی که در دست اقدام است مسئلۀ جداییپذیری/ جداییناپذیری این فعلها به تفصیل بررسی خواهند شد.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اسحاقی، مهدیه و کریمیدوستان، غلامحسین. (1400). زایایی فعلهای سبک در زبان فارسی. پژوهشهای زبانی دانشگاه تهران (2)12، 1-28.
برفی، وفا. (1395). کشف فضای معنایی افعال سبک زبان فارسی در نوشتار فارسیآموزان خارجی از دیدگاه شناختی. پایاننامه کارشناسی ارشد، دانشگاه سمنان.
بیجنخان، محمود. (1383). نقش پیکرههای زبانی در نوشتن دستور زبان: معرفی یک نرمافزار رایانهای. زبانشناسی (2)19، 67-48.
بیجنخان، محمود. (1397). پیکرۀ طرح جویشگر بومی. تهران: مرکز تحقیقات مخابرات ایران.
تسلیمیپور، شیوا. (1391). پردازش خودکار معنایی افعال مرکب زبان فارسی. پایاننامه کارشناسی ارشد، دانشگاه شیراز.
حساسصدیقی، پریا. (1389). آموزش زبان فارسی به غیرفارسیزبانان: مشکلات و راهکارها. پایاننامه کارشناسی ارشد، دانشگاه علامه طباطبایی.
خزاعیفر، علی. (1384). نظریه ترجمه دیروز و امروز. نامه فرهنگستان (4)7، 28-79.
دبیرمقدم، محمد. (1376). فعل مرکب در زبان فارسی. زبانشناسی23، 2-46.
طبیبزاده، امید. (1384). رابطۀ فرهنگنگاری و دستورنویسی. نامه فرهنگستان (4)7، 27-31.
عسکریان، نرجس. (1391). شناسایی خودکار افعال مرکب زبان پارسی. پایاننامه کارشناسی ارشد، دانشگاه شیراز.
معرفت، فهیمه.(1384). بررسی خطاهای زبانی در نوشتار دانشآموزان فارسیآموز کردزبان در سطح متوسط زبانآموزی. متنپژوهی (26)9، 10-37.
ناتلخانلری، پرویز. (1365). تاریخ زبان فارسی (جلد 2). تهران: نشر نو.
Acquaviva, P. (2008). Roots and lexicality in distributed morphology. In A. Galani, D. Redinger and N. Yeo (Eds), Special issues of York working papers in linguistics (pp.1-21) NewYork: University of New York.
AleAhmad, A., Amiri, H., Rahgozar, M., and Oroumchian, F. (2009). Hamshahri: A Standard Persian Text Collection. Knowledge-Based Systems 22(5), 382–387.
Aronoff, M. (1976). Word formation in generative grammar. Cambridge, MA: MIT Press.
Askariyan, N. (2012). Automatic identification of Persian compound verbs. Master thesis, University of Shiraz. [In Persian]
Assi, S. M. (1997). Farsi linguistic database (FLDB). International Journal of Lexicography 10(3), 265.
Barfi, V. (2016). Discovering the semantic space of Persian light verbs in the writing of Persian-foreign students from a cognitive point of view. Master thesis, University of Semnan. [In Persian]
Beard, R. (1995). Lexeme-morpheme base morphology. New York: State University of New York Press.
BijanKhan, M. (2004). The role of linguistic corpora in writing the grammar of language: An introduction to a computer software. Journal of Linguistics 19(2), 48-67. [In Persian]
Bijan Khan, M. (2018). Native search engine project. Tehran: Research Institute of Information and Communication Technology. [In Persian]
Bonet, E. (1991). Morphology after syntax: Pronominal clitics in Romance languages. PhD dissertation, MIT.
Borer, H. (2003). Exo-skeletal vs. endo-skeletal explanations: Syntactic projections and the lexicon. In J. C. Moore and M. Polinsky (Eds), The nature of explanations in linguistic theory (pp. 37-67). Chicago: Chicago University Press.
Borer, H. (2013). The category of roots. In R. Alexiadou, H. Borer and F. Schafer (Eds.), The syntax of roots and the roots of syntax (pp.112-149). Oxford: Oxford University Press.
DabirMoghaddam, M. (1997). Persian compound verb. Journal of Linguistics 23, 31-46. [In Persian]
Embick, D., and Marantz. A. (2008). Architecture and blocking. Linguistic Inquiry 39, 1-53.
Embick, D., and Noyer, R. (2001). Movement operations after syntax. Linguistic Inquiry 32, 555-595.
Eshaghi, M., and Karimi-Doostan, G. (2021). The productivity of Persian light verbs. Journal of Language Researches 12, 1-28. [ In Persian]
Family, N. )2006(. Explorations of semantic space: The case of light verb constructions in Persian. PhD dissertation, Ecole des Hautes Etude en Sciences Sociales.
Folli, R., Harley, H., and Karimi, S. (2005). Determinantof event type in Persian complex predicates. Lingua 115(10), 1365-1401.
Goldberg, A. E. )1996(. Words by default: Optimizing constraints and the Persian complex predicate. In D. Librik and R. Beleer (Eds.), Proceedings of Berkeley Linguistic Society (pp. 132-146). Berkeley: Berkley University Press.
Halle, M., and Marantz, A. (1993). Distributed morphology and the pieces of inflection. In K. Hale and S. J. Keyser (Eds.), The view from building (pp. 117-176). Cambridge: MIT Press.
Halle, M. (1990). An approach to morphology. North Eastern Linguistic Society 20(1), 150-184.
Harley, H. (2009). Compounding in Distributed morphology. In R. Lieber and P. Stekauer (Eds.), Oxford Handbook of Compounding (pp. 129-144). Oxford: Oxford University Press.
HasasSediqi, P. (2010). Teaching Persian to non-Persian speakers: problems and solutions. Master thesis, Alame Tabatabaei University. [ In Persian]
Jespersen, O. (1965). A modern English grammar on historical principles. London: George Allen and Unwin Ltd.
Karimi, S. (1997). Persian complex verbs: Idiomatic or compositional. Lexicology 3, 273–318.
Karimi-Doostan, G. (1997). Light verb constructions in Persian. PhD dissertation, University of Essex.
Karimi- Doostan, G. (2005). Light verb and structural case. Lingua 115(12), 1737-1756.
Karimi-Doostan, G. (2008). Event structure of verbal nouns and light verbs. In S. Karimi, V. Samiian and D. Stilo (Eds), Aspects of Iranian linguistics (pp.206-226). NewCastle: Cambridge Scholars Publishing.
Karimi- Doostan, G. (2011). Separability of light verb constructions in Persian. Studia Linguistica 65(1), 70-95.
Khazaeifar, A. (2005). Transation theory: today and in the past. Academy of Persian Language and literature journal 28, 69-79. [ In Persian]
Kiparsky, P. (1982). Lexical morphology and phonology. In S. Yang (Ed.), Linguistics in the Morning Calm (pp. 3-91). Seoul: Hansin.
Kiparsky, P. (1997). Remarks on denominal verbs. In A. Alsina, J. Bresnan and P. Sells (Eds.), Argument Structure (pp. 473-499). Stanford: Center for the Study of Language and Information.
Marantz, A. (1997). No escape from syntax: Don’t try morphological analysis in the privacy of your own lexicon. In A. Dimitriadis, L. Siegel, C. Surek-Clark, & A. Williams (Eds.), University of Pennsylvania working papers in linguistics (pp. 201-225). Philadelphia: University of Philadelphia.
Marantz, A. (2000). Roots: The universality of roots and pattern morphology. Presented at the Conference on Afro-Asiatic Language. Paris University.
Marantz, A. (2013). Verbal argument structure: Events and participants. Lingua 130, 152–168.
Marefat, F. (2005). Written errors of Kurdish learners of Persian: A case of Mahabadi dialect. Literary Text Research 9(26), 10-37. [In Persian]
Megerdoomian, K. (2001). Event structure and complex predicates in Persian. Canadian Journal of Linguistics 46, 97-125
Natel Khanlari, P. (1986). The history of Persian language (Vol. 2). Tehran: Nashrenow. [In Persian]
Noyer, R. (1997). Features, positions and affixes in autonomous: Morphological structure. NewYork. NY: Garland.
Panagiotidis, P. (2015). Categorial features: A general theory of word class categories. Cambridge: Cambridge University Press.
Pestesky, D. (1982). Complementizer-trace phenomena and the nominative island condition. The linguistic review 1(3), 297-344
Pestesky, D. (1995). Zero syntax: Experiencers and cascades. Cambridge MA: The MIT Press.
Rasooli, M. S., Kouhestani, M., and Moloodi, A. S. (2013). Development of a Persian syntactic dependency treebank. In H. Hua, J. Lin, & A. Lopez (Eds), Proceedings of the 2013 Conference of the North American Chapter of Association for Computational Linguistics: Human Language Technologies (pp. 306-314). Atlanta: Association for Computational Linguistics.
Samvelian, P., and Faghiri, P. (2013). Persian complex predicates: How compositional are they? Semantics-Syntax Interface 1, 43-74.
Shamsfard, M., Hesabi, A., Fadaei, H., Mansoory, N., Noor, P., Famian, A., Bagherbeigi, S., Fekri, E., and Monshizadeh, M. (2010). Semiautomatic development of Farsnet; the Persian wordnet. Proceedings of 5th Global WordNet Conference 9(2), 35-44.
Siddiqi, D. (2009). Syntax within word: Economy, allomorphy, and argument selection in Distributed Morphology. Amesterdom: John Benjamins.
Tabibzade, O. (2005). Dictionary and grammar writing. Academy of Persian Language and literature journal 28, 69-79. [In Persian]
Taslimipoor, S. (2012). Automatic semantic processing of Persian compound verbs. Master thesis, University of Shiraz. [In Persian]
Vahedi Langrudi, M. (1996). The syntax, semantics and argument structure of complex predicates in modern Farsi. PhD dissertation, University of Ottawa.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 608 تعداد دریافت فایل اصل مقاله: 314 |