پایاننامه کامپیوتر نرم افزار تشخیص هرزنامه وب تکنیکهای داده کاوی

۱۳۵ هزار تومان ۹۵ هزار تومان
افزودن به سبد خرید

جهت خرید و دانلود پایاننامه کامپیوتر نرم افزار تشخیص هرزنامه وب تکنیکهای داده کاوی روی لینک خرید پایان نامه کلیک فرمایید و یا با ایمیل sellthesis@gmail.com در ارتباط باشید.


پایان نامه کارشناسی ارشد کامپیوتر نرم افزار تشخیص هرزنامه وب به کمک تکنیک های داده کاوی


لینک خرید پایاننامه کامپیوتر نرم افزار تشخیص هرزنامه وب تکنیکهای داده کاوی


چکیده:

امروزه هرزنامه ها یکی از مشکلات اصلی موتورهای جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیکهای ضد هرزنامه بهبود یابد.
یک مساله عادی که ما با آن در این زمینه مواجه می شویم این است که خیلی از اسناد رتبه بالایی را توسط موتور جستجو بدست آورده اند در حالی که سزاوار آن نبوده اند. با توجه به گسترش روزافزون وب و همچنین ظهور تکنیک های جدید هرزنامه توسط هرزنامه نویسان، هدف از این پایان نامه بررسی روش های مبتنی بر داده کاوی جهت شناسایی هرچه بهتر صفحات هرزنامه از غیرهرزنامه است.
الگوریتم ها و نرم افزارهای داده کاوی از جمله ابزارهای مورد استفاده در این پژوهش هستند. از مجموعه داده استاندارد UK2007 و نرم افزار وکا جهت ارائه مدلهایی بهینه استفاده شده است و سعی بر ارائه مدلهایی است که ضمن کاهش ویژگی های مورد استفاده جهت شناسایی صفحات هرزنامه از غیرهرزنامه کارایی مطلوبی را نیز ارائه دهد.


فهرست مطالب:

چکیده 1
فصل اول:مقدمه 2
1 1 پیش گفتار 3
1 2 بیان مسئله 3
1 3 اهمیت و ضرورت انجام تحقیق 4
ساختار پایان نامه 5
فصل دوم:وب و هرزنامه های وب 6
2 1 وب جهان گستر 7
2 1 1 وب به عنوان گراف 8
2 1 2 گراف وب در صفحه و سطح میزبان 8
2 1 3 اتصال 9
2 2 موتورهای جستجو 10
2 2 1 معماری موتورهای جستجوی وب 11
2 2 2 سرویس دهنده پرس و جوی موتور جستجو 13
2 3 رتبه بندی 13
2 3 1 رتبه بندی مبتنی بر محتوا 13
2 3 2 الگوریتم های مبتنی بر لینک 15
2 4 هرزنامه وب 19
2 4 1 هرزنامه محتوا 20
2 4 2 هرزنامه لینک 22
2 4 3 تکنیک های مخفی 27
2 5 یادگیری ماشین 29
2 5 1 NaΪVe Bayes 30
2 5 2 درخت تصمیم 31
2 5 3 ماشین بردار پشتیبان 33
2 6 ترکیب طبقه بندی کننده ها 35
2 6 1 Bagging 35
2 6 2 Boosting 36
2 7 روش های ارزیابی 37
2 7 1 ارزیابی متقاطع 38
2 7 2 دقت و فراخوانی 38
2 7 3 منحنی ROC 39
2 8 جمع بندی 40
فصل سوم: پیشینه تحقیق 41
3 1 مجموعه داده های مورد استفاده توسط محققین 42
3 1 1 UK2006 42
3 1 2 UK2007 43
3 1 3 مجموعه داده جمع آوری شده با استفاده از جستجوی MSN 44
3 1 4 DC2010 44
3 2 مطالعات مبتنی بر محتوا 47
3 3 روش های مبتنی بر لینک 51
3 3 1 الگوریتم های مبتنی بر انتشار برچسب ها 51
3 3 2 رتبه بندی تابعی 55
3 3 3 الگوریتم های هرس لینک و وزن دهی دوباره 56
3 3 4 الگوریتم های مبتنی بر پالایش برچسب ها 57
3 4 روش های مبتی بر لینک و محتوا 58
3 4 1 مطالعات مبتنی بر کاهش ویژگی 57
3 4 2 مطالعات مبتنی بر ترکیب طبقه بندی کننده ها 59
3 4 3 مطالعات مبتنی بر تست اهمیت ویژگی های متفاوت در تشخیص هرزنامه 63
3 4 4 مطالعات مبتنی بر پیکربندی وب 71
3 4 5 تشخیص هرزنامه از طریق آنالیز مدلهای زبانی 76
3 4 6 تاثیر زبان صفحه بر ویژگی های تشخیص هرزنامه وب 79
3 4 7 رویکرد ترکیب ویژگی های مبتنی بر محتوا و لینک برای صفحات عربی 82
3 5 جمع بندی 83
فصل چهارم: پیاده سازی ایده پیشنهادی 85
4 1 مقدمه 86
4 2 ویژگی های مجموعه داده انتخابی 87
4 3 پیش پردازش 92
4 3 1 پیش پردازش مجموعه داده UK2007 93
4 3 2 کاهش ویژگی ها با اعمال الگوریتم های داده کاوی 93
4 4 داده کاوی و ارزیابی مدل ها 96
4 4 1 نتایج الگوریتم ها با اعمال روش های کاهش ویژگی 102
4 4 2 مقایسه مقدار F_measure بدست آمده از الگوریتم ها با اعمال بر روی ویژگی های بدست آمده از الگوریتم های کاهش ویژگی 109
4 5 تفسیر نتایج 110
4 6 جمع بندی 114
فصل پنجم: نتیجه گیری و کارهای آتی 115
5 1 نتیجه گیری 116
5 2 کارهای آتی 117
منابع 118
چکیده انگلیسی 134


1-1- پیش گفتار:

داده‌كاوي كه با عنوان كشف دانش از پايگاه‌هاي داده هم شناخته مي‌شود، فرايندي براي استخراج الگوهاي مفيد از پايگاه‌هاي داده مي‌باشد [1]. داده‌کاوي مي تواند الگوهاي مفيد مورد نظر کاربران خود را از انواع مختلفي از پايگاه‌هاي داده استخراج کند. بيشتر محققان داده‌كاوي را مترادف با كشف دانش در پايگاه‌هاي داده مي‌دانند. كشف دانش شامل مراحل زير است كه به صورت پي در پي انجام مي شوند:
• پالايش داده:‌ آشفتگي‌ها و دادة ناسازگار را حذف می‌کند.
• يکپارچه‌سازي داده: درصورت لزوم منابع داده‌اي را ترکيب می‌کند.
• تبديل داده: داده را به فرم مناسب براي داده كاوي تبديل مي‌كند.
• داده كاوي:‌ فرايندی ضروري است كه در آن روشهاي هوشمند الگوهاي داده‌اي مناسب را استخراج مي‌كنند.
• ارزيابي الگو: الگوهاي استخراج شده را ارزيابی می‌کند.
• نمايش دانش: در اين مرحله تكنيكهاي مختلف نمايش دانش براي نشان دادن دانش كشف و کاوش شده به كاربر استفاده مي‌شوند.
افزايش توانايي تكنيكها و ابزارهاي مختلف در ايجاد و جمع‌آوري داده‌ها و اهميتي كه پايگاه‌هاي داده به دليل در دسترس بودن و قوي بودنشان در صنايع و تحقيقات مختلف دارند، همچنين شبکة گستردة جهاني که به عنوان يک منبع اطلاعاتي مهم بشمار مي‌رود، ما را با حجم عظيمي از داده و پايگاه‌هاي داده روبرو ساخته است.
اگرچه موتورهای جستجو تکنیک های زیادی را برای شناسایی هرزنامه وب گسترش داده اند اما هرزنامه نویسان وب تاکتیک های جدیدی را برای تاثیر گذاری روی نتایج الگوریتم های رده بندی موتورهای جستجوگر، به منظور دستیابی به رده های بالاتر توسعه داده اند.
داده کاوی به عنوان ابزاری مهم و نو کاربرد گسترده ای در شناسایی صفحات هرزنامه از غیرهرزنامه دارد.


1-2- بیان مسئله:

موتورهای جستجو به مکانی برای جستجوی اطلاعات بر روی وب تبدیل شده اند. با توجه به پدیده هرزنامه، نتایج جستجو همواره مطلوب نیست.
بیش از دو دهه است که پژوهش بر روی بازیابی اطلاعات خصمانه در دانشگاه و صنعت علاقه مندان زیادی دارد. هرزنامه ها بر هر سیستم اطلاعاتی، ایمیل، وب و وبلاگ ها و شبکه های اجتماعی سایه افکنده اند. این مفهوم برای اولین بار در سال 1996 مطرح شد و به زودی به عنوان یک چالش برای موتورهای جستجو مطرح شد.
اخیراً همه شرکت های بزرگ موتور جستجو به دلیل اثرات متعدد ومنفی ناشی از ظهور هرزنامه ها، بازیابی اطلاعات خصمانه را به عنوان یک اولویت بالا تعیین کرده اند ]3,2.[ نخست آنکه هرزنامه ها کیفیت نتایج جستجو را نامطلوب میسازند و بازده ای که سایت های قانونی می توانند در غیاب هرزنامه ها داشته باشند را کاهش می دهند.
دوم آنکه باعث عدم اطمینان یک کاربر به موتور جستجو شده و نهایتاً منجر به تعویض موتور جستجو که برای کاربر هزینه ای در بر نخواهد داشت می گردد.
هدف تعیین ویژگی های متفاوت صفحات وب به منظور رتبه بندی نتایج موتور جستجو است و بر این اساس کلاس بندی به منظور شناسایی سایتهای هرزنامه از سایتهای معتبر انجام می پذیرد.

مرور

هیچ دیدگاهی برای این محصول نوشته نشده است .