Get a site

پایان نامه تجارت الکترونیک: چارچوبی جدید برای تشخیص مرجع مشترک و اسم اشاره در متون پارسی

پایان نامه رشته مهندسی فناوری اطلاعات

گرایش : تجارت الکترونیک

دانشگاه قم

پایان ‏نامه کارشناسی ارشد

مهندسی فناوریِ اطلاعات، گرایشِ تجارتِ الکترونیک

عنوان:

چارچوبی جدید برای تشخیصِ مرجع ‏مشترک و اسم اشاره در متون پارسی

استاد راهنما:

دکتر بهروز مینائی بیدگلی

فهرست مطالب:

فصل ۱: آشنایی با تشخیص مرجع مشترک۱

۱-۱. مقدمه و بیان مسئله ۱

۱-۲. بررسی ارتباطات هم‏مرجعی. ۶

۱-۲-۱. هم‏مرجع در مقابل پیشایند. ۹

۱-۲-۱-۱. ارتباط هم‏مرجع ۱۰

۱-۲-۱-۲. ارتباط پیشایندی ۱۱

۱-۲-۲. تحلیل پیشایند ۱۶

۱-۲-۳. تحلیل مرجع مشترک ۱۶

۱-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی. ۱۷

۱-۳.جمع‏بندی ۲۰

فصل ۲ : بخش اول. ۲۱

۲-۱-۱. پیشینه تشخیص مرجع مشترک. ۲۱

۲-۱-۲. روش‏های زبان‏شناسی. ۲۲

۲-۱-۲-۱. فاکتورهای حذف کننده. ۲۳

۲-۱-۳-۲-۱. تطبیق جنس و عدد. ۲۳

۲-۱-۳-۲-۱. تطبیق معنایی ۲۴

۲-۱-۲-۲. فاکتورهای امتیاز دهنده . ۲۴

۲-۱-۳-۲-۱. مشابهت نحوی ۲۴

۲-۱-۳-۲-۱. مشابهت معنایی ۲۵

۲-۱-۳-۲-۱. بارز بودن. ۲۵

۲-۱-۳. روش‏های یادگیری ماشین ۲۷

۲-۱-۳-۱. ویژگی‏ها ۲۸

۲-۱-۳-۲. مدل‏های جفت اشاره. ۲۸

۲-۱-۳-۲-۱. رده بندی جفت عبارت‏های اسمی. ۳۲

۲-۱-۳-۲-۱-۱. درخت تصمیم ۳۳

۲-۱-۳-۲-۲.افراز. ۳۵

۲-۱-۳-۲-۲-۱.درختِ بل. ۳۶

۲-۱-۳-۲-۲-۲. افراز گراف ۳۸

۲-۱-۳-۳. روش‏های مبتنی بر پیکره ۴۰

۲-۱-۳-۴. روش‏های جایگزین. ۴۴

۲-۱-۳-۴-۱. روش هم‏آموزی ۴۴

۲-۱-۳-۴-۲. مدل احتمالاتی مرتبه اول ۴۶

۲-۱-۳-۴-۳. رتبه‏بندی. ۴۷

۲-۱-۳-۴-۴. فیلدهای تصادفی شرطی. ۴۹

۲-۱-۳-۴-۵. خوشه ‏بندی ۵۱

۲-۱-۴. جمع‏بندی ۵۶

فصل ۲: بخش دوم ۵۷

۲-۲-۱. پیکره نشانه گذاری شده توسط اطلاعات هم‏مرجع ۵۸

۲-۲-۲. پیکره بیژن‏خان. ۵۹

۲-۲-۳. پیکره لوتوس ۶۰

۲-۲-۴.شیوه‏ های نشانه ‏گذاری پیکره لوتوس. ۶۲

۲-۲-۴-۱. نشانه‏گذاری انواع موجودیت‏ها ۶۲

۲-۲-۴-۱-۱. موجودیت شخص. ۶۴

۲-۲-۴-۱-۲. موجودیت سازمان. ۶۴

۲-۲-۴-۱-۳. موجودیت مکان. ۶۶

۲-۲-۴-۱-۴. موجودیت سیاسی. ۶۶

۲-۲-۴-۲.کلاس هر موجودیت ۶۸

۲-۲-۴-۲-۱.غیر ارجاعی ۶۹

۲-۲-۴-۲-۲.ارجاعی ۶۹

۲-۲-۴-۲-۲-۱.ارزیابی به شکل منفی. ۶۹

۲-۲-۴-۲-۲-۲.ارجاعی خاص. ۷۰

۲-۲-۴-۲-۲-۳.ارجاعی عمومی ۷۰

۲-۲-۴-۲-۲-۴.ارجاعی زیر مشخص شده. ۷۰

۲-۲-۴-۳.انواع اشاره/سطوح اشاره. ۷۱

۲-۲-۴-۳-۱.اشاره ساده. ۷۲

۲-۲-۴-۳-۱-۱.محدوده اشاره. ۷۲

۲-۲-۴-۳-۱-۲. هسته اشاره. ۷۲

۲-۲-۴-۳-۱-۳.انواع اشاره ساده. ۷۲

۲-۲-۴-۳-۲.ساختارهای پیچیده ۷۴

۲-۲-۴-۴-۲-۱.ساختارهای عطف بیان یا بدل. ۷۵

۲-۲-۵.جمع‏بندی ۷۵

فصل ۳: الگوریتم­های پیشنهادی ۷۶

۳-۱. رده بندی دودویی. ۷۶

۳-۱-۱.جدا کننده‏های خطی. ۷۷

۳-۱-۱-۱ پرسپترون ۷۸

۳-۱-۱-۲ ماشین بردار پشتیبان ۸۰

۳-۱-۱-۳ درخت تصمیم. ۸۵

۳-۲.خوشه ‏بندی. ۸۸

۳-۲-۱ .الگوریتم‏های افراز بسته‏ای ۸۹

۳-۲-۱-۱ .خوشه ‏بندی سلسله مراتبی پایین به بالا. ۹۰

۳-۲-۱-۲ .آموزش الگوریتم خوشه‏بندی سلسله مراتبی. ۹۳

۳-۳.جمع‏بندی. ۹۶

فصل ۴: سیستم ارزیابی. ۹۷

۴-۱.مقدمه. ۹۷

۴-۲.سیستم شناسایی اشاره لوتوس. ۹۸

۴-۲-۱ .بانک اطلاعاتی ۹۸

۴-۲-۲.سیستم شناسایی اشاره ۱۰۲

۴-۳.تشخیص اشاره‏های هم مرجع ۱۰۳

۴-۳-۱ ویژگی‏ها ۱۰۴

۴-۳-۲.الگوریتم یادگیری ۱۰۵

۴-۳-۳.معیار ارزیابی. ۱۰۷

۴-۳-۴.نتیجه ارزیابی. ۱۱۰

۴-۳-۴-۱.نتایج بدست آمده. ۱۱۰

۴-۳-۴-.۲چالش‏ها و تحلیل خطا ۱۱۲

۴-۴.جمع‏بندی. ۱۱۵

فصل ۵ :نتیجه گیری و پیشنهادها ۱۱۶

۵-۱.نتیجه‏ گیری. ۱۱۶

۵-۲.پیشنهادها ۱۱۸

فصل .۶ منابع ۱۲۱

چکیده:

پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصه‏سازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هم‏مرجع را بررسی نماید، کمک شایانی به انجامِ موفقیت‏آمیز این وظایف خواهد نمود. روش‏های تشخیص مرجع مشترک را می‏توان به دو دسته‏ روش‏های زبان‏شناسی و روش‏های یادگیری ماشین تقسیم نمود. روش‏های زبان‏شناسی بیشتر به اطلاعات زبان‏شناسی نیاز دارند، البته مشکل این روش‏ها این است که پر خطا و طولانی می‏باشند. از طرف دیگر روش‏های یادگیری ماشین کمتر به اطلاعات زبان‏شناسی نیاز دارند و نتایج حاصل از آنها قابل اعتماد‏تر است. در این پایان ‏نامه تلاش می‏کنیم تا فرآیند تشخیص مرجع‏مشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشاره ‏ها، عبارت‏های هم‏مرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانه‏ گذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیش‏بینی عبارت‏های اسمی هم‏‏مرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکره‏ای با نشانه ‏هایی شامل محدوده‏ی اشاره، نوع اشاره، هسته‏ی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیه می‏کنیم، این پیکره می‏تواند به عنوان اولین پیکره دارای نشانه ‏های اشاره و هم‏مرجعی، مبنای کار بسیاری از پژوهش‏های مربوط به شناسایی و کشف اشاره و تحلیل هم‏مرجعی قرار گیرد. همچنین با بهره گرفتن از این پیکره و بررسی قوانین و اولویت‏های میان اشاره ‏ها، سیستمی ارائه می‏کنیم که اشاره ‏های موجود در متن را شناسایی کرده و سپس نمونه ‏های مثبت و منفی را از پیکره لوتوس استخراج می‏کند. در نهایت نیز با بهره گرفتن از الگوریتم‏های یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونه‏ های حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان می‏دهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.

فصل اول

۱-۱- مقدمه و بیان مسئله

امروزه رایانه در تمام لایه‏های زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبان‏شناسی، بیش از پیش احساس می‏شود. «پردازش زبان طبیعی[۱]»شاخه‏ای از علم «هوش مصنوعی[۲]» است که به ماشینی کردن فرآیند زبان شناسی سنتی می‏پردازد. به این ترتیب با بهره گرفتن از رایانه می‏توان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانه‏ها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده کند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]۸۱[

در زمینه پردازش زبان طبیعی پژوهش‏هایی مانند طبقه‏بندی متون[۳]، برچسب‏گذاری ادات سخن[۴]، تعیین و ابهام‏زدایی از معانی واژگان[۵] و. انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشته ‏اند و در نتیجه راه حل‏هایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب می‏‏‏شوند. تمامی این حوزه‏های جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.

وظایف زبان طبیعی را می‏توان به ریز کاربردها[۶] و کلان کاربردها[۷] افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازش‏هایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیت‏های نامدار[۸] و . ) و یا در سطح کل متن (تشخیص هرزنامه[۹]، رده بندی متون و.) متمرکز شده اند؛ برخی از کاربرد‏ها نیز مانند استخراج اطلاعات[۱۰]، تشخیص مرجع مشترک[۱۱] و ماشین ترجمه[۱۲] در سطح بینابین قرار گرفته‏اند. ]۲۷[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگی‏های معنایی متون، انواع متفاوتی از ویژگی‏های سطح پایین‏تر (مانند ویژگی‏های لغوی[۱۳] و نحوی[۱۴]) نیز لازم است، اما به لطف سیستم‏های جدید که تا حد زیادی به روش‏های آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی‏‏‏ ویژگی‏های سطح پایین‏تر نیازی نیست. علت اینکه روش‏های یادگیری ماشین توانسته‏اند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم می‏آورد که برای بسیاری از کاربرد‏ها کافی بوده و می‏‏‏‏تواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روش‏های آماری محدود است و هرگز نمی‏توانند درک کاملی از محتوای معانی یک متن را فراهم آورند.

از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستم‏‏هایی که واژگان و جملات درست را از غلط تشخیص می‏دهند، به طور گسترده‏ای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوه‏های تجزیه کردن[۱۵] به صحتی برابر با ۹۰%، و شناسایی موجودیت‏های نامدار به صحت ۹۱% رسیده اند. [۷۸,۵۵,۳۸[.

بسیاری از پژوهشگران معتقدند که استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب می‏شود، که مجموعه‏ ای از تکنیک‏های رده‏بندی[۱۶]، خوشه‏بندی[۱۷] و قوانین وابستگی[۱۸] است و خروجی استخراج اطلاعات شامل، شناسایی موجودیت‏ها[۱۹] ، تعیین نوع وگروه آنها، طبقه بندی ارتباط میان موجودیت‏ها و همچنین استخراج رویدادهایی که در آن مشارکت دارند، می‏باشد.[۷۱[ در نهایت می‏توان گفت که خلاصه سازی، بازیابی اطلاعات[۲۰]، داده‏کاوی[۲۱]، پرسش و پاسخ[۲۲] و درک زبان[۲۳] از جمله کاربردهای این سیستم هستند.

تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارت‏های اسمی‏‏‏ که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین می‏گردند. هدف نهایی این پایان‏ نامه شناسایی اشاره‏های هم مرجع شامل ضمیر و اسم اشاره در متون پارسی می‏باشد. برای تحقق این هدف نیاز به انجام پیش پردازش‏هایی بر روی متون خام می‏باشد تا داده‏های مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره[۲۴] به عنوان یک پیش پردازش می‏تواند در کنار سایر پیمانه‏های پیش پردازشی مانند تجزیه‏گر، شناسایی موجودیت‏های نامدار و. بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [۲۳،۳۸،۵۳،۸۳]

به هر ترتیب شناسایی عبارت‏های اسمی‏‏‏ هم‏مرجع از مهمترین زیر وظایف استخراج اطلاعات می‏باشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستم‏های مرتبط با آن خواهد شد.

واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژول‏هایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل می‏شود. روش‏های موجود در این حوزه، به دو دسته روش‏های زبان‏شناسی[۲۵] و روش‏های یادگیری ماشین[۲۶] تقسیم می‏‏‏شوند. [۷۶[ در روش اول، ابتدا به ازای هر عبارت اسمی‏‏، مراجع کاندیدا تعیین می‏‏‏شود و سپس با به کارگیری مجموعه‏ ای از قواعد زبان‏شناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی می‏‏‏شوند و در‏نهایت کاندیدایی به عنوان مرجع برگزیده می‏‏‏شود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبان‏شناسی مورد نیاز، فرآیندی زمان‏بر، پرهزینه و پر خطاست. البته با پیدایش پیکره‏های[۲۷] زبان‏شناسی و موفقیت روش‏های یادگیری ماشین در سایر حوزه‏ها، روش‏های زبان‏شناسی جای خود را به روش‏های یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبان‏شناسی پیچیده و سطح بالای روش‏های زبان‏شناسی نیاز نیست به طوریکه با بهره گرفتن از دانش اندکی در زمینه زبان‏شناسی نیز می‏توان به نتایج خوب و قابل توجهی دست یافت.

از سوی دیگر، امروزه اغلب پژوهشگران فرآیند تشخیص مرجع مشترک را به دو مرحله تقسیم می‏‏‏ کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارت‏های اسمی‏‏‏ که به موجودیت[۲۸] ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشاره‏هایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارت‏های اسمی‏‏‏ تحت عنوان اشاره[۲۹] و در قالب چهار گروه اصلی ضمایر[۳۰]، اسامی‏‏‏ خاص[۳۱]، اسامی‏‏‏ عام[۳۲] و غیر اشاره‏ها[۳۳] قرار می‏گیرند،[۸،۹۱۰،۱۶،۴۸،۵۳،۷۲] سپس این فرآیند مشخص می‏‏‏‌کند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[۲۶]می‏‏‏توان گفت که فرآیند کشف اشاره، توسعه یافته‏ی فرآیند شناسایی موجودیت‏های نامدار می‏باشد که علاوه بر شناسایی اسامی‏‏‏ خاص، به شناسایی اسامی‏‏‏ عام و ضمایر نیز می‏پردازد. [،۲۳،۷۲،۸۱،۱۱۳،۱۱۴]از آنجائیکه بررسی فرآیند‏های شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزه‏ی این پایان‏ نامه است، ما عبارت‏های اسمی‏‏‏ را در قالب انواع اشاره‏های گفته شده در پیکره‏ای تحت عنوان لوتوس برچسب‏گذاری می‏نمائیم و نتیجه‏ی آن را برای تحلیل مرجع مشترک به کار خواهیم برد.

چارچوب کلی این پایان‏ نامه به این صورت می‏باشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط میان دو عبارت اسمی‏‏‏ و به خصوص ارتباط‏های هم‏مرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روش‏های ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار می‏دهیم و در بخش دوم آن، به نحوه ایجاد پیکره‏ای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتم‏های مناسب برای این پایان‏ نامه را معرفی می نمائیم. سیستم پیشهنادی برای شناسایی اشاره‏های ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتم‏های یادشده را مورد ارزیابی قرار می‏دهیم. در نهایت در فصل پنجم نیز به نتیجه گیری و پیشنهاد کارهای آتی در ادامه‏ی این پژوهش خواهیم پرداخت.

۱-۲.بررسی ارتباط هم ‏مرجعی

یکی از ‏ویژگی‏های خاص گفتمان این است که می‏توان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارت‏ها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی‏(بنیان‏گذار منطق فازی) بهره برد تا به این ترتیب از تکرار عبارت‏ها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب می‏شود که زنجیره‏ها‏ی بالقوه‏ای از تمام عبارت‏های اسمی‏که به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیان‏گذار منطق فازی که به شخص پرفسور زاده اشاره دارند).

یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیره‏ها در متن است که در فرآیند تحلیل مرجع‏مشترک انجام می‏پذیرد. برای شروع، مثال ۱ را در نظر بگیرید[۳۴]:

مثال۱: (سیستم آبیاری گلاب) ۱Ant, در روز سه شنبه رونمایی شد. (این سیستم)۱Ana, محصول اندیشه‏ی (دکتر سارا شکری)۲Ant, است. (او) Ana,2، ( یک پژوهشگر)Ana در (شرکت آبیاری لاله)۳ است.

اگر فرض کنیم که پیمانه‏های نشانه‏گذاری تا کشف اشاره به عنوان پیش پردازش‏هایی بر روی متن اجرا شوند، با اجرای این پیمانه‏ها، انواع عبارت‏های اسمی‏موجود در متن (سیستم آبیاری، این سیستم، دکتر سارا شکری، او، یک پژوهشگر و شرکت آبیاری لاله) تعیین و نشانه‏گذاری می‏شوند. سپس با اجرای پیمانه تشخیص مرجع‏مشترک، ارتباطات میان این عبارت‏ها و اطلاعات نهفته در مورد موجودیت‏های شرکت کننده در متن آشکار می‏شود. به عنوان نمونه، می‏دانیم «او» و «سارا شکری» (با اندیسِ۲) به یک فرد مشخص و همچنین «سیستم آبیاری گلاب» و «این سیستم» (با اندیسِ۱) نیز به یک سیستم مشخص اشاره می‏کنند.

استفاده از اصطلاح موجودیت در تحلیل مرجع‏مشترک، این سؤال را مطرح می‏کند که چه چیزهایی موجودیت محسوب می‏شوند؟ تاکنون گروه‏بندی‏های متعددی برای انواع موجودیت‏ها ارائه شده است، به عنوان نمونه[۳۵]ACE، یک تقسیم بندی هفت موجودیتی برای انواع موجودیت‏ها (شخص، سازمان، مکان، سیاسی، تسهیلات، سلاح و خودرو) و تعداد زیادی زیرگروه (به عنوان مثال شخص: فرد، گروه) و کلاس برای هر موجودیت پیشنهاد کرده است و[۶۴] که اغلب پژوهشگران همه این موجودیت‏ها و یا گاهی اوقات برخی از آن‏ها را مورد مطالعه و بررسی قرار می‏دهند.

یکی از ‏ویژگی‏های تحلیل مرجع‏مشترک این است که علاوه بر انواع موجودیت‏های رایج، می‏توانیم در حوزه‏ها‏ی متفاوت از تعاریف پیش فرض خود نیز برای موجودیت‏ها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[۹۷] به تحلیل مرجع‏مشترک در متون پزشکی پرداخته و بررسی موجودیت‏هایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.

با توجه به آنچه تا‏کنون گفته شد، انتظار می‏رود که با بررسی مراجع مشترک در مثال ۱، عبارت «یک پژوهشگر» نیز به همراه «او» و «سارا شکری» در یک زنجیره واحد قرار گیرد، اما خروجی پیمانه تحلیل مرجع‏مشترک چنین نیست. هر چند از نظر ما این ارتباط کاملاً بدیهی است اما واقعیت این است که عبارت «یک پژوهشگر» به عنوان ارجاع به موجودیت شخص   (در مثال ۱: سارا شکری) که در دنیای واقعی زندگی می‏کند در نظر گرفته نمی‏شود، چون منظور از «یک پژوهشگر» می‏تواند هر شخص دیگری نیز باشد. در این حالت فرآیند دیگری تحت عنوان تحلیل پیشایند می‏تواند ارتباط میان «یک پژوهشگر» و «سارا شکری» را تشخیص دهد.

همان طور که مشاهده شد، تحلیل مرجع‏مشترک و تحلیل پیشایند دو مفهوم نزدیک به هم می‏باشند به طوری که عموماً به موازات تحلیل مرجع‏مشترک، با تحلیل پیشایند روبرو می‏شویم و حتی برخی به اشتباه این دو عبارت را معادل یکدیگر می‏پندارند. با وجود اینکه این دو پیمانه از بسیاری از جهات با یکدیگر مشابه هستند، اما از جهاتی نیز با یکدیگر تفاوت دارند، و عدم توجه به این مسئله موجب سردرگمی‏و ایجاد ابهام در تحلیل متن می‏گردد.در این بخش، هدف ما بررسی هرکدام از این فرآیند‏ها‏ و مطالعه برخی از شباهت‏ها‏ و تفاوت‏ها‏ی میان این دو فرآیند می‏باشد.

[۱] معادل پارسی عبارت انگلیسی Natural Language processing

[۲] معادل پارسی عبارت انگلیسی Artificial Intelligence

[۳] معادل پارسی عبارت انگلیسی Text classification

[۴] معادل پارسی عبارت انگلیسی Part of speech tagging

[۵] معادل پارسی عبارت انگلیسی Word sense disambiguation

[۶] معادل پارسی عبارت انگلیسی Micro-task

[۷] معادل پارسی عبارت انگلیسی Macro-task

[۸] معادل پارسی عبارت انگیسی Named Entity Recognizers(NER)

[۹] معادل پارسی عبارت انگیسی Spam Detection

[۱۰] معادل پارسی عبارت انگیسی Information Extraction(IE)

[۱۱] معادل پارسی عبارت انگیسی Coreference Resolution(CR)

[۱۲] معادل پارسی عبارت انگیسی Machin Translation(MT)

[۱۳] معادل پارسی واژه انگیسی Lexical

[۱۴] معادل پارسی واژه انگیسی Syntactical

[۱۵] معادل پارسی واژه انگیسی Parsing

[۱۶] معادل پارسی واژه انگیسی Classification

[۱۷] معادل پارسی واژه انگلیسی Clustering

[۱۸] معادل پارسی عبارت انگلیسی Association pules

[۱۹] معادل پارسی واژه انگلیسی Entity

[۲۰] معادل پارسی عبارت انگلیسی Information Retrieval(IR)

[۲۱] معادل پارسی عبارت اانگلیسی Data Mining

[۲۲] معادل پارسی عبارت انگلیسی question/Answering

[۲۳] معادل پارسی عبارت انگلیسی Text understanding

[۲۴] معادل پارسی عبارت انگلیسی Mention Detection

[۲۵] معادل پارسی واژه انگلیسی linguist

[۲۶] معادل پارسی عبارت انگلیسی Machin Learning(ML)

[۲۷] معادل پارسی واژه انگلیسی Corpus

[۲۸] معادل پارسی واژه انگلیسی Entitiy

[۲۹] هرآنچه که به موجودیت خاص درمتن ارجاع داده شده است

[۳۰] معادل پارسی واژه انگلیسی Pronominal

[۳۱] معادل پارسی عبارت انگلیسی Proper Name

[۳۲] معادل پارسی واژه انگلیسی Nominal

[۳۳] معادل پارسی عبارت انگلیسی Out of Mention

[۳۴] در این فصل دو نوع اندیس برای هر عبارت اسمی در نظر گرفته‏ایم، اندیس شماره برای تشخیص مرجع مشترک می باشد، یه عنوان مثال، سیستم آبیاری گلاب و این سیستم هر دو به یک موجودیت اشاره دارند و اندیس این موجودیت ۱ می باشد. همچنین اندیس Ant نشان‏گر مقدم و اندیس Ana نشان‏گر تالی است که برای بررسی ارتباط پبشایندی در نظر گرفته شده است.

[۳۵] معادل پارسی عبارت انگلیسی Automatic Content Extraction

تعداد صفحه : ۱۴۴

قیمت : ۱۴۷۰۰ تومان

بلافاصله پس از پرداخت لینک دانلود فایل در اختیار شما قرار می گیرد

و در ضمن فایل خریداری شده به ایمیل شما ارسال می شود.

پشتیبانی سایت :       

****         [email protected]