پایاننامه ارشد کامپیوتر تشخیص پلاگاریسم بکمک گراف متون فارسی

۱۰۰ هزار تومان ۷۵ هزار تومان
افزودن به سبد خرید

جهت خرید و دانلود پاياننامه ارشد کامپيوتر تشخیص پلاگاریسم بکمک گراف متون فارسی روی خرید محصول کلیک و یا با ایمیل زیر در ارتباط باشید

sellthesis@gmail.com


پايان نامه کارشناسی ارشد کامپيوتر نرم افزار تشخیص پلاگاریسم به کمک گراف در متون فارسی


خرید محصول پاياننامه ارشد کامپيوتر تشخیص پلاگاریسم بکمک گراف متون فارسی


چکیده:

تمرکز این پایان نامه روی جستجوی شباهت های مبتنی بر گراف، در متون مربوط به زبان های طبیعی است. نیاز به یک روش قوی برای ارائه متون، مسئله مهمی در زمینه تشخیص پلاگاریسم است، ما در این پروژه با توجه به این نیاز، روشی قدرتمند را برای ارائه زبان طبیعی معرفی نموده و از آن در تشخیص پلاگاریسم بهره برده ایم. برای این منظور مفهوم “فاصله اصلاح گراف” را بیان نموده و از آن برای محاسبه فاصله ی بین دو گراف استفاده کرده ایم. جملات توسط گراف های وابستگی ارائه شده اند که در آن ها کلمات توسط وابستگی هایشان به هم متصل شده اند. گراف وابستگی ساختار گرامری جملات را استخراج می کند. روش شباهت مبتنی بر گراف در مسئله تشخیص پلاگاریسم به کار برده شده است. مزیت اصلی ارائه مبتنی بر گراف، مربوط به توانایی این روش در تشخیص شباهت های بین کلمات است. ارزیابی ها نشان دادند که نتایج حاصل از گراف وابستگی نسبت به روش های مقایسه مستقیم گراف ها نتایج بهتری دارند. استفاده از فاصله اصلاح گراف برای مقایسه دو گراف منجر به بهبود نتایج گراف وابستگی می شود و کارایی آن را بالا می برد.

کلیدواژه: فاصله اصلاح گراف، پردازش زبان طبیعی، گراف های وابستگی، تشخیص پلاگاریسم


فهرست مطالب

مقدمه 2
1-1 توضیح مسئله 5
1-2 راه حلها 6
1-3 مشکلات موجود در پیادهسازی الگوریتم 6
1-4 ساختار پایاننامه 7
پیشینهی تحقیق 9
2-1 تشخیص پلاگاریسم 9
2-2 ابعاد تشخیص پلاگاریسم 12
2-2-1 روش مبتنی بر گرامر 12
2-2-2 روشهای مبتنی بر معنا 13
2-2-3 روشهای ترکیبی 14
2-2-4 روش تشخیص پلاگاریسم خارجی 14
2-3 روشهای محاسبه میزان شباهت گرافها 15
2-3-1 روش بزرگترین زیرگراف مشترک – کوچکترین سوپرگراف مشترک 15
2-3-2 روش مبتنی بر جستجوی فضای حالت 17
2-3-3 روشهای احتمالی 18
3-1 تشخیص پلاگاریسم 23
3-1-1 تطبیق n گرام 23
3-1-2 وزندهی عبارت 23
3-1-3 تعمیم عبارت 24
3-2 گرافهای وابستگی 25
3-2-1 وابستگیها 26
3-3 فاصله ویرایش گراف 26
3-3-1 عملیات ویرایش 26
3-3-2 مسئلهی انتساب 27
3-3-3 ماتریس هزینه 28
3-3-4 الگوریتمهای انتساب 29
4-1 معماری 32
4-2 پیشپردازش متن 32
4-2-1 پیدا کردن جملات 33
4-2-2 ریشهیابی کلمات 34
4-2-3 تشکیل گراف وابستگی 40
4-3 استخراج کاندیدا 44
4-3-1 شاخصگذاری جمله 45
4-3-2 استخراج جملات کاندیدا 45
4-4 تحلیل جزئیات 45
4-4-1 الگوریتم فاصله ویرایش دو گراف 48
4-4-2 تشخیص پلاگاریسم مبتنی بر GEDارائه شده در این پروژه 49
5-1 تشخیص پلاگاریسم جابجایی کلمات و تغییر ساختار جملات 55
5-1-1 تغییرات ساختاری 10 درصدی 56
5-1-2 تغییرات ساختاری 50 درصدی 57
5-2-2 تغییرات ساختاری 100 درصدی 59
5-2 تشخیص پلاگاریسم معنایی 60
5-2-1 تغییرات معنایی 10 درصدی 60
نتیجه گیری و پیشنهادات 64
مراجع 67


مقدمه

برخی افراد ممکن است خواسته یا نا خواسته از کارهای محققان استفاده کنند در حالیکه حتی نامی از نویسنده ی اصلی اثر ذکر نکرده باشند، این عمل پلاگاریسم نامیده می شود. پلاگاریسم عمل عمدی یا غیر عمدی کپی کردن یا استفاده از ایده ها و کارهای دیگران است بدون آنکه اطلاعاتی درباره منبع اصلی ذکر شده باشد. بر اساس بررسی های صورت گرفته بر روی موضوع پلاگاریسم و تعداد مقالات بیشمار مندرج در وب و انعکاس نگرانی از وقوع آن مشخص است که اکثر مراکز آموزشی و پژوهشی در صفحات الکترونیکی خود در اقصی نقاط جهان چه در کشورهای در حال رشد آسیا و افریقا، تحت تاثیر ناشران با سابقه مجلات پژوهشی و نیز حفظ حیثیت علمی مراکز خود به معرفی همه جانبه این پدیده ضد اخلاقی و ضد اجتماعی به عنوان یک جرم مبادرت کرده اند. پلاگاریسم یک مشکلی در انجمن علمی است و به سرعت در حال رشد است، بدلیل آنکه داده و اطلاعات از بین اسناد الکترونیکی و اینترنت سریع و آسان از طریق کپی و درج از آن منابع بدست می آید. این مشکل زمانی رخ می دهد که محتوای اسناد غیرقانونی و بدون اجازه و بدون نقل قول پیدا شود که این مشکل به عنوان پلاگاریسم شناخته شده است و پلاگاریسم می تواند شامل طیف وسیعی از دستبردهای آگاهانه تا کپی کردن اتفاقی مطالب دیگران باشد. هدف اصلی این پایان نامه بیان روش مبتنی بر گراف برای ارائه متن و استفاده از آن در تشخیص پلاگاریسم است. بخش هایی که در ادامه این فصل می آیند دلایل استفاده از این روش را بیان نموده و به شرح مسئله ی تشخیص پلاگاریسم می پردازند. به علاوه یک راه حل برای این مسئله ارائه می-دهند. در نهایت ساختار پایان نامه معرفی و مطالبی که در فصل های بعدی به آنها پرداخته خواهد شد، مرور خواهند شد.
مسئله ی پیدا کردن شباهت بین دو متن، یک مسئله معمول در زمینه ی پردازش زبان های طبیعی است. به منظور ارزیابی شباهت ها بین دو متن، هر متن نیاز به روشی برای ارائه دارد. یک روش متن ساده است، که در آن یک لیست از کلمات، یک جمله را شکل می دهند. متنِ ساده معمولا به دلیل سادگی مورد استفاده قرار می گیرد، اما فاقد اطلاعات واضح راجع به ساختار گرامری است.
بعضی از جنبه های زبان با استفاده از روش های ارائه ی ساختاری از قبیل گراف های وابستگی که شامل کلمات متصل به هم است، بهتر ارائه می شوند.
گراف های وابستگی ساختار گرامری یک جمله را استخراج نموده، و به گستره ی همان جمله محدود می شوند. یکی از مزایای اصلی ارائه ی مبتنی بر گراف این است که گراف های وابستگی در بیشتر موارد حساس به ترتیب کلمات نیستند. این مزیت باعث می شود که شباهت بین جملاتی که ترتیب کلمات در آنها به هم ریخته شده است، پیدا شود.
یک ارائه ی قویتر پایه های بهتری را برای مشخص کردن شباهت ها در وضعیت های پیچیده فراهم می-کند. دو جمله ی ارائه شده در گراف وابستگی شکل های 1-1 و 1-2 را در نظر بگیرید. انسان باید بتواند مشخص کند که این جملات دارای معانی یکسانی هستند. با این حال، تشخیص اتوماتیک شباهت این دو جمله به دلیل جایگزینی کلمات دچار مشکل خواهد شد. اگر از ارائه متن ساده استفاده شود، تنها کلمات مشترک “به”، “خارج”، “از”، “شوت” و “توپ” خواهند بود. کلمه ی “شوت” و “توپ” تنها کلماتی هستند که منظور جمله را می رسانند. با دقت در گراف های وابستگی، واضح است که شباهت ساختاری بین جملات وجود دارد.


مشکلات موجود در پیاده سازی الگوریتم

یکی از مهم ترین مشکلاتی که در پیاده سازی نرم افزار تشخیص پلاگاریسم معنایی در زبان فارسی وجود دارد، به خود زبان فارسی برمی گردد. همان طور که می دانیم زبان فارسی زبانی بسیار پیچیده است و دارای دستور زبانی با استثنائات فراوان بوده و به دلیل اشتراکاتی که با زبان عربی دارد، در کاراکترهایی که در عربی و فارسی مشترکند دچار مشکل شده و باعث می گردد برخی موارد نادرست تشخیص داده شود.
از طرفی برخلاف زبان انگلیسی که دارای علائم جمع محدودی است، زبان فارسی دارای علامت های جمع زیادی می باشد و از طرفی برخی از کلمات وقتی به حالت جمع در می آیند شکل ظاهری آن ها تغییر می کند.
همچنین در مورد افعال در زبان فارسی که تقریباً شبیه به زبان عربی است دارای اشکال مختلفی است و بسته به چندم شخص بودن تغییر می کند. این استثنائات و هزاران مسئله شبیه این موارد که به دلیل دستور زبان غنی و پیچیده زبان فارسی است سبب می شود که کار تشخیص پلاگاریسم را با مشکلات زیادی مواجه نماید و نیاز باشد تا جوانب زیادی را در پیاده سازی الگوریتم مد نظر قرار دهیم.

مرور

هیچ دیدگاهی برای این محصول نوشته نشده است.