پایاننامه تشخیص اهمیت پیوند پایگاه پیوند معماری موتورهای جستجو

۱۲۰ هزار تومان ۹۵ هزار تومان
افزودن به سبد خرید

جهت خرید و دانلود پایاننامه تشخيص اهميت پيوند پايگاه پيوند معماری موتورهای جستجو روی خرید محصول کلیک و یا با ایمیل زیر در ارتباط باشید

sellthesis@gmail.com


پایان نامه کارشناسی ارشد کامپیوتر نرم افزار بهينه سازی روش تشخيص اهميت پيوند در پايگاه پيوند و کاربست آن در معماری موتورهای جستجو


خرید محصول پایاننامه تشخيص اهميت پيوند پايگاه پيوند معماری موتورهای جستجو


چکیده:

در عصر اطلاعات، وب امروزه به یکی از قدرتمند ترین و سریع ترین ابزارهای ارتباطات و تعـامل میان انسان ها بدل شده است. موتورهای جستجو به عنوان برنامه های کاربردی وب به طور خودکار پهنه وب را پیمایش نموده و مجموعـه ای از اسناد و مـدارک بروز موجـود را دریافـت می کننـد. فرآینـد دریافت، ذخیره سازی، رده بندی و شاخص دهی بر اساس الگوریتم های نيمه هوشمند به صورت خودکار انجـام می شود. اگر چه بسیاری از حقایق در مورد ساختار این برنامه های کاربردی به عنـوان اسـرار تجاری پنهان باقی مانـده است، ادبيات تحقيق در شاخه ی موتورهای جستجو و ابزارهای بازيابی اطلاعات تلاش در يافتن بهترین راهکارها برای عملکرد بهينه ی هر ماژول در ساختار موتورهای جستجو دارد. با توجه به زمان محدود کاربران وب امروزی، ارائه مرتبط ترين و تازه ترين اسناد به آنها اغلب مهمترين چالشی برای موتورهای جستجو می باشد. برای انجام اين مهم، هر ماژول در معماری موتور جستجو باید به گونه ای هوشمند طراحی شود که نه تنها اسناد مرتبط را ارائه دهد بلـکه به پاسخگویی در سريع ترين زمان ممکن بپردازد. در میـان این ماژول ها بخش حساس و حیاتی به نام خزنده وجود دارد. یکی از مسائل قابل بحث در بهینه سازی عملکرد موتورهای جستجو این است که، سیاست خزیدن پیکربندی مجـدد گردد به طریقی که لینک های خارجی مرتبطی که به محتوای مرتبط با صفحات منبع پيوند می خورند دنبال گردد. ماژول خزنده مسئول واکشی صفحات برای ماژول رتبه بندی است. اگر صفحات با کیفیت بالاتر با انحراف موضوع کمتر توسط خزنده نمایه سازی شوند، رتبه بندی سریع تر انجام خواهد شد.
با در نظر گرفتن ساختار وب به صورت گراف، نحوه ی پیمایش وب به صورت روش های جستجوی گرافی می باشد. در این پژوهش، با بکار بردن تجربی روشهای مختلف جستجوی گراف و ترکیبات مختلف آنها و با صدور پرس و جوهایی به موتور جستجوی گوگل جهت اندازه گیری کیفیت صفحات دریافتی و با ثابت در نظر گرفتن فاکتور عمق پيمايش به شناسایی بهترین روش با پیچیدگی زمانی و فضایی معقول به منظور بکار گيری در بخش خزنده در معماری موتور جستجو پرداخته خواهد شد.

کلمات کلیدی: خزنده وب، پيمايش گراف، موتورهاي جستجو، انحراف موضوع.


فهرست مطالب
عنوان صفحه
چکیده 1
فصل اول: کلیات 2
1-1 مقدمه 3
1-2 بیان مسأله 4
1-3 اهمیت و ضرورت انجام تحقیق 5
1-4 ساختار پایان نامه 6
فصل دوم: مبانی و مفاهیم پایه 7
2-1 مقدمه 8
2-2 انواع موتورهای جستجو 13
2-2-1 موتورهای کلید واژه ای 13
2-2-2 موتورهای جستجو بر اساس فهرست راهنمای موضوعی 13
2-2-3 موتورهای جستجوی مبتنی بر خزنده 15
2-2-3-1 تفاوت موتورهای دایرکتوری با موتورهای مبتنی بر خزنده 16
2-2-4 موتورهای جستجوی ترکیبی 16
2-2-5 موتورهاي جستجوی متا 17
2-2-5-1 فهرستي از موتورهاي جستجو 17
2-2-5-2 جستجوي متوالي 17
2-2-5-3 جستجوي هم زمان 17
2-2-6 موتورهاي جستجوي هوشمند 18
2-2-7 موتورهای جستجوگر مبتنی بر هزینه 18
2-3 معماری موتورهای جستجو 20
2-4 اجزای معماری موتورهای جستجو 22
2-5 استراتژی های روزآمد سازی مخزن 27
2-5-1 روش دسته ای يا خزنده دائمی 27
2-5-2 جستجوهای نسبی یا کامل 32
2-6 دو نمايه اصلي واحد نمايه ساز 28
2-7 یک مثال از نحوه عملکرد موتور جستجو 31
2-8 مراحل كار موتورهاي جستجو 31
2-8-1 پیش پردازش دادها 31
2-8-2 الویت بندی نتایج 32
2-9 برچسب ها 33
2-9-1 برچسب های توصیفی متن 33
2-9-2- بر چسب alt tag 33
2-10 فایل robots.txt 34
2-11 موقعیت و مسافت 34
2-12 مشکلات خزنده 35
2-13 روشهای بهینه سازی موتورهای جستجو 35
2-13-1 شاخص گذاری 35
2-13-2 جلوگیری از خزش و استاندارد خروج روبات ها 35
2-13-3 افزایش اهمیت 36
2-14 الگوريتم هاي رتبه بندي 37
2-14-1 پارامتر های رتبه دهی 37
2-14-2 وزن دهی به کلمات 37
2-14-3 ارزیابی کلمات کلیدی 37
2-14-4 پارامتر های وزن دهی 38
2-14-5 بازیابی تحمل پذیر 38
2-14-6 الگوریتم کلی غلط یابی املایی در موتور های جستجو 38
2-14-7 غلط یابی املایی 39
2-14-8 الگوریتم فاصله ویرایشی 39
2-14-9 الگوریتم مجاورت کی-گرم 40
2-14-10 غلط یابی حساس به متن 40
2-14-11 مفهوم ربط 41
2-14-11-1 ربط از نظر کاربر 42
2-14-11-2 ربط از نظر سیستم بازیابی 42
2-14-12 نظر خواهی از کاربر در رتبه بندی 43
2-14-13 موتورهاي جستجوي اصلي 43
2-14-13-1 Google 43
2-14-13-2 Excite 44
2-14-13-3 Altavista 44
2-14-13-4 Yahoo 44
2-14-13-5 Fast 44
2-14-13-6 Lycos 44
2-14-14 موتورهاي جستجوي خبري 45
2-14-15 متا كراولر 46
2-14-16 موتورهاي جستجوي منفعتي 48
2-14-17 موتورهاي جستجوي ليست پرداخت 49
2-14-18 موتورهاي جستجوي اختصاصي 49
2-14-19 جستجوي پاسخ 50
2-14-20 موتورهاي جستجوي كودكان 51
2-14-21 موتورهاي جستجوي منطقه اي 51
2-15 نتیجه گیری 52
فصل سوم: معماری خزنده وب و استراتژی های خزش 53
3-1 مقدمه 54
3-2 معماري خزنده هاي وب 54
3-3 انتخاب صفحه 56
3-4 اهمیت صفحه 57
3-5 چالش های اجرای یک خزنده 57

3-5-1 انتخاب صفحات برای دانلود 57
3-5-1 انتخاب صفحات برای دانلود 57

3-6 پيچيدگي هاي فرآيند خزیدن 58
3-6-1 استرات‍ژي هاي سنجش انتخاب صفحات 58
3-6-1-1 معیار مبتنی بر گرایشات کاربران 58
3-6-1-2 معیار مبتنی بر شهرت صفحات 58

3-6-1-3 معیار مبتنی بر محل قرار گرفتن صفحات 58
3-7 چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب 59
3-7-1 خزش و توقف 59
3-7-2 خزش و توقف مبتنی بر مقدار آستانه 59
3-8 استراتژی های روزآمدسازی صفحات 60
3-8-1 سیاست روزآمد سازی یکپارچه 60
3-8-2 سیاست روزآمد سازی نسبی 60
3-9 به حداقل رساندن بار روی وب سایت های بازدید شده 60
3-10 موازی سازی روند خزنده 60
3-11 ساختار وب 61
3-12 استراتژی های خزش 62
3-12-1 جستجوی ناآگاهانه 62
3-12-1-1 حركت اول عمق 62
3-12-1-2 حركت اول سطح 63
3-12-1-3 جستجو با هزینه یکنواخت 65
3-12-2 جستجوی آگاهانه یا اکتشافی 66
3-12-2-1 حركت بهترين-شروع 67
3-12-2-2 جستجوی * A 69
3-12-3 جستجوی محلی 69
3-12-3-1 جستجوی تپه نوردی 70
3-12-3-2 جستجوی پرتو محلی 70
3-12-3-3 جستجوی شبیه سازی حرارت 71
3-12-3-4 الگوریتم آستانه پذیرش 72
3-12-3-2 جستجوی پرتو محلی 70
3-13 نتیجه گیری 73
فصل چهارم: تجزیه و تحلیل نتایج حاصل از تحقیق 74
4-1 مقدمه 75
4-2 مرحله اول: بررسی روش اول سطح 75
4-3 مرحله دوم: بررسی روش اول عمق 80
4-4 مرحله سوم: بررسی روش ترکیبی 86
4-4-1 ترکیب اول: پیمایش اولین سطح به صورت BFS 86
4-4-2 ترکیب دوم: پیمایش اولین و دومین سطح به صورت BFS 86
4-4-3 ترکیب سوم: پیمایش اولین و دومین و سومین سطح به صورت BFS 86
4-5 مرحله چهارم: بررسی روش بهترین-شروع 86
4-6 مرحله پنجم: بررسی روش تپه نوردی 87
4-7 نتایج تجربی بدست آمده 88
4-8 تعداد صفحات دانلود شده برای هر پرس و جو 90
4-9 نتیجه گیری 91
فصل پنجم: نتیجه گیری و ارائه پیشنهادات 97
5-1 نتیجه گیری و جمع بندی نهایی 93
5-2 پیشنهادات و کارهای آینده 100
منابع 101


1-1 مقدمه

بدون وجود موتورهای جستجوگر تقریباً وب جهان گستر بدون فایده است. اما سؤال این است که موتورهای جستجوگر چگونه در میان این همه وب سایت اطلاعات مورد نیاز ما را پیدا می کنند. اینترنت بسیار وسیع است و کاربران وب در حدود دو میلیارد برآورد می شوند. در این میان حداقل 250 میلیون وب سایت اینترنتی وجـود دارد که در مجمـوع چیزی در حدود 30 میلیارد صفحه وب را در خود جـای داده اند. گشتن در محیط وب زمانی که بسیار کوچک و وب سایت ها بسیار کم بودند معمولاً اختصاص به پژوهشگران و اساتید دانشگاه داشت و می توان گفت که کار دشواری نیز به شمار می رفت[9].
با توسعه وب و زیاد شدن حجم اطلاعات و وب سایت ها نیاز به ابزاری جهت یافتن اطلاعات در این اقیانوس اطلاعات بیش از پیش احساس می شد. در همین حال در اوایل دهه نود میلادی بود که اولین موتورهای جستجوگر به نام آرچی پا به عرصه حضور گذاشتند. یک موتور جستجوگر در قدم اول و قبل از آنکه بخواهد نتایجی را به کاربر نمایش دهد بایستی اطلاعات را جمع آوری و طبقه بندی کرده باشد. بنابراین موتورهای جستجو باید تا حد امکان وب سایت ها را مرور کنند و آدرس صفحات را با چکیده ای از محتویات صفحه ذخیره و طبقه بندی کنند. این وظیفه بسیار سنگین است و توسط خزندگان وب انجام می شود[53].
این برنامه ها به صورت خودکار در وب به جستجو پرداخته و محتویات صفحات وب سایت ها را برای تحلیل بعدی ذخیره می کنند. از آنجا که تعداد صفحات و حجم آنها بسیار بالاست از این رو این کار در مقیاس بسیار بزرگی انجام می شود و به زمان و پهنای باند بالایی نیاز دارد. موتورهای جستجوگر معروف مخزن بسیار بزرگی را در صفحات وب ایجاد کـرده اند اما خزندگان جدیدتر باید این کار را از صفر شـروع کنند. خزنده ها برای شروع معمولاً به سراغ دایرکتوری های معروف می روند چون از طریق آنها می توانند به لیست بزرگی از سایت های مرتبط دسترسی پیدا کنند و با مرور این وب سایت ها خزنده وب هر چه بیشتر در فضای داخلی وب سایت ها فرو می رود و اطلاعات بیشتری بدست می آورد. تمامی این اطلاعات در مخزن ذخیره می شوند تا بعداً مورد تجزیه و تحلیل قرار گیرند[44].
یک خزنده با طراحی خوب می تواند محتوای صفحـات وب را با سرعت بالایی مرور کند و در عین حال همگی خزندگان با کمک یک برنامه هماهنگ کننده اقدام به جستجو در وب می کنند تا این عمل دوباره تکرار نشود. این هماهنگ کننده باعث می شود که فاکتور تازگی صفحات حفظ شود تا جدیدترین نسخه آنها در بانک اطلاعاتی موتور جستجو قرار گیرد[46].
پس از آنکه خزندگان اطلاعات را در صفحات وب جمع آوری کردند این اطلاعات باید بر روی سرورهای سایت جستجوکننده ذخیره شوند. ذخیره و ایندکس کردن صفحات فراوان و بی شمار در وب یک چالش بزرگ است اما از آن مهم تر این است که موتور جستجو بداند که کاربرانش به دنبال چه چیزی هستند. هر چه قدر اطلاعات نمایـش داده شده توسط یک موتـور جستجو با عبارت جستجـو شده توسـط کاربر منطبق تر باشد، موتور جستجو عملکرد و محبوبیت بهتری دارد.
اما آنچه که یک وب سایت را در نتایج جستجوی یک موتور جستجوگر در رتبه ی بالاتری قرار می دهد در واقع نوع الگوریتم موتور جستجوگر در رتبه بندی صفحات یافت شده است. این الگوریتم مجموعه ای پیچیده از قواعد و ملاحظات گوناگون است که البته مدام در حال بهینه سازی است تا نتایج بهتری را در معرض نمایش کاربران قرار دهد. هر چقدر الگوریتم یک موتور جستجوگر بهتر عمل کند آن وب سایت نیز نتایج بهتری را به کاربران ارائه می دهد و از همین رو ضامن موفقیت یک موتور جستجوگر همان معماری و نوع الگوریتم جستجوی آن است. موتورهای جستجو همگی کل صفحات را بر اساس کلمات موجود در آن مورد ارزیابی قرار می دهند. اهمیت یک وب سایت هم در رتبه آن تاثیر مهمی دارد و اگر سایت های زیادی به یک صفحه خاص لینک دهند، موتور جستجو با وزن دهی متوجه می شود که آن صفحه مهم است و به آن صفحه توجه بیشتری می کنـد. هر چه تعـداد لینک ها از سایت های دیگر به یک سایت بیشتر باشد یعنی آن وب سایت مهمتر و معتبرتر است.
حال اگر وب سایتی که رتبه بالایی دارد به وب سایت دیگری لینک دهد، آن لینک ارزش بیشتری نسبت به چندین لینک خواهد داشت[35].


2-2 انواع موتورهای جستجو
موتورهاي جستجو از لحاظ نحوه عملكرد و نوع انجام جستجو به چندین دسته زير تقسيم مي شوند:
• موتورهای جستجوی کلید واژه ای
• موتورهاي جستجو بر اساس فهرست راهنماي موضوعي
• موتورهاي جستجوی مبتنی بر خزنده
• موتورهای جستجوی ترکیبی
• موتورهاي جستجوی متا
• موتورهاي جستجوي هوشمند
• موتورهای جستجوگر مبتنی بر پرداخت

مرور

هیچ دیدگاهی برای این محصول نوشته نشده است .