دانلود پایان نامه بررسی آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع
این فایل با فرمت word بوده و قابل ویرایش است و همچنین آماده پرینت و ارائه می باشد
داراي فهرست و مرتب
قسمتی از متن و فهرست کلی:
چکیده:
در اين بخش، به گوگل خواهم پرداخت، يك نمونة اصلي از يك موتور جستجوي در مقياس وسيع که استفاده وسيعي از ساختار ارائه شده در فوق متني مي كند. گوگل براي جستجو و يافتن (Crawl) و شاخص بندي وب به طور مؤثر و توليد نتايج هرچه رضايت بخش تر نسبت به سيستم هاي موجود طراحي شده است. اين نمونه اصلي با پايگاه داده اي متشكل متن و فوق پيوند كامل ۲۴ ميليون صفحه در http://google.standard.edi/ موجود مي باشد. مهندسي يك موتور جستجو يك وظيفة چالش آور است. موتورهاي جستجو دهها تا صدها ميليون صفحه وب متشكل از تعداد قابل ملاحظه اي موضوعهاي متفاوت را شاخص بندي مي كنند و پاسخ گوي دهها ميليون پرس و جو به صورت روزانه هستند. بر خلاف اهميت بالاي موتورهاي جستجوي برروي وب تحقيقات آكادميك بسيار اندكي برروي آنها صورت گرفته است
مقدمه
وب چالشهاي جديدي براي بازيابي اطلاعات ايجاد مي كند. حجم اطلاعات موجود برروي وب به سرعت در حال افزايش است و به همان نسبت تعداد كاربران جديد كه در جستجوي وب بي تجربه هستند افزايش مي يابد. مردمي كه احتمالاً وب را از طريق گراف پيوند آن مرور مي كنند، اغلب كار خود را با شاخصهاي ذخيره شده با كيفيت بالاي انساني مانند ياهو! يا موتورهاي جستجو شروع مي كنند. لیستهای ذخيره و نگهداري شده توسط انساني موضوعهاي معروف را به طور موثري پوشش مي دهند اما شخصي بودن، گران و پرهزينه بودن براي ساخت و نگهداري، كندي در پيشرفت و ناتواني در پوشش موضوعهاي مبهم و پيچيده از عيبهاي عمده آنها محسوب مي شود. موتورهاي جستجو بر پاية هم خواني كلمات كليدي معمولاً نتیجه را با كيفيت بسيار پايين برمي گرداند. براي بهتر شدن شرايط، بعضي شركتهاي تبليغاتی تلاش وسيعي براي بدست آوردن نظر مردم از طريق گمراه كردن موتورهاي جستجوي اتوماتيك مي كنند. اقايان سرگي برين و لاورنس پيج موتور جستجوي در مقياس وسيعي ساخته اند كه به تعداد زيادي از مشكلات سيستم هاي موجود پرداخته است. و آن استفاده وسيعي از اين ساختمان ارائه شده در فوق متن مي كند به منظور فراهم كردن نتايج جستجوي با كيفيت بالاتر، اسم اين سيستم، گوگل، انتخاب شده است. زيرا گوگل تلفظ معمول googol يا ۱۰۱۰۰ است و بسيار مناسب هدف ما براي ساختن يك موتور جستجوي بسيار در مقياس وسيع است.
۱-۱موتورهاي جستجوي وب:
به برنامه ای اطلاق می شود که موضوعات مورد نظر کاربران را در قالب کلمات کلیدی ،درون اسناد و اطلاعات موجود در اینترنت کاوش کرده و در قالب آدرس محل ذخیره عرضه می نماید .
آمارها نشان می دهند که افراد بسیاری سفر در دنیای وب را با موتورهای جستجوگر آغاز میکنند و مراجعه به موتورهای جستجوگر چنان عادی شده است که جستجو کردن و کار با موتورهای جستجوگر، دومین فعالیت عمده کاربران دردنیای وب (بعد از ارسال و دریافت نامه های الکترونیکی)، محسوب می شودهر چه بر محبوبیت وب افزوده می گردد، نیاز به بایگانی کردن اطلاعات آن نیزبیشتر میشود؛ موتور جستجوگر نیز در واقع این اطلاعات را بایگانی کرده، درزمان مورد نیاز و به سرعت در اختیار کاربران قرار میدهد. بدون موتورجستجوگر، وب تنها به بخش کوچکی از موفقیت امروزین خود دست مییافت
فهرست مطالب
چکیده
مقدمه
فصل اول :معرفي
۱-۱موتورهاي جستجوي وب
۱-۲انواع موتور های جستجو
۱-۳ابر جستجو گر ها
۱-۴موتورهاي جستجوي وب – گسترش يافتن: ۱99۴-۲۰۰۱
۱-۵گوگل: تغيير دادن وب
۱-۶اهداف طراحي
۱-۶-۱كيفيت جستجوي بهينه شده
۱-۶-۲ تحقيقات موتور جستجوي آكادميك
فصل دوم:ويژگيهاي سيستم
۲-۱رتبه صفحه: نظم بخشيدن به وب
۲-۱-۱ توصيف محاسبه رتبه صفحه
۲-۱-۱-۱الگوریتم جدید گوگل در رتبه بندی نتایج جستجو
۲-۲ توجيه شهودي
۲-۳ متن انكر Anchor
۲-۴ ويژگيهاي ديگر
فصل سوم:بازیابی اطلاعات
۳-۱بازيافت اطلاعات
۳-۱-۱ مدل های بازیابی اطلاعات
۳-۱-۱-۱ مدل دودویی
۳-۱-۱-۲مدل برداری
۳-۱-۱-۳ مدل احتمالی
۳-۱-۲ معیار های ارزیابی مدل
۳-۲ تفاوتهاي وب با مجموعه هاي كنترل شده
فصل چهارم :آناتومي سيستم
۴-۱ نگاهي كلي به معماري گوگل
۴-۲ کاربر
۴-۳ساختمان داده هاي مهم
۴-۳-۱ فايلهاي بزرگ
۴-۳-۲ مخزن
۴-۳-۲-۱چالش های انبارۀ ذخیره سازی صفحات
۴-۳-۲-۲ صفحات منسوخ
۴-۳-۳ شاخص سند
۴-۳-۳-۱ استخراج شاخص
۴-۳-۳-۱-۱ شاخص لینک
۴-۳-۳-۱-۲ شاخص متنی
۴-۳-۴ واژه نامه
۴-۳-۵ ليستهاي بهترينها
۴-۳-۶ شاخصهاي پيشرو
۴-۳-۷ شاخص معكوس
۴-۴ جستجو و دانلود كردن وب
۴-۴-۱چالش های درون کاو
۴-۴-۲ مدل درون کاو
۴-۴-۳ روشهای تازه سازی و سرکشی دوره ای به صفحات وب
۴-۴-۴ پیش پردازش ها
۴-۴-۵ اولویت بندی نتایج
۴-۴-۵-۱ موقعیت و مسافت
۴-۴-۵-۲ مشکلات
۴-۵شاخص بندي وب
۴-۶ جستجو كردن
۴-۶-۱ارزیابی سیستم پرس و جوی گوگل
۴-۶-۲ سيستم رتبه بندي
۴-۶-۳ بازخور
فصل پنجم:عملكرد و نتايج
۵-۱احتياجات منبع ذخيره سازي
۵-۲عملكرد سيستم
۵-۳ عملكرد جستجو
فصل ششم:نتایج و پیشنهادات
۶-۱ کارکرد آینده
۶-۲جست و جو با کیفیت بالا
۶-۳معماری قابل قیاس
۶-۴ تبلیغات
فهرست ومنابع
فهرست جداول
جدول۵-۱ريز ارقام شاخص آماري و بعضي احتياجات فضاي ذخيره سازي گوگل
جدول ۵-۲ زمان جستجو