دانلود فایل تقسيمبندي صفحات وب
دسته بندي :
کالاهای دیجیتال »
رشته کامپیوتر و IT (آموزش_و_پژوهش)
بخشی از متن اصلی
فهرست مطالب
فصل اول: معرفی نامه
1-1- معرفی فصل دوم پایان نامه 2
1-2- معرفی فصل سوم پایان نامه 7
فصل دوم:روش های متفاوت تقسیم بندی صفحات وب
2-1- تقسيم بندي صفحات وب بطور مختصر 9
2-1-1-1- روش خلاصه سازي تعديل شده Luhn 10
2-1-1-2 – روش تحليل معنايي نهفته (LSA) 12
2-1-1-3- شناسايي مضمون بدنه اصلي توسط تجزيه و تحليل لايهاي 13
2-1-1-4- خلاصه سازي نظارت شده 15
2-1-1-5- يك دسته بندي كلي از خلاصه سازي 17
2-1-2- آزمايشات 18
2-1-2-1- مجموعه ی داده 18
2-1-2-2- دسته كننده ها 19
2-1-2-3- مقياس ارزيابي 21
2-1-2-4- نتايج و تحليل هاي تجربي 22
2-1-2-5 مورد پژوهش 29
2-1-3- نتیجه گیری و عملکرد آینده 31
2-2- تقسیم بندی صفحات وب با استفاده از الگوریتم اجتماع مورچه ها 32
2-2-1- پیش پردازش متنی وابسته به زبان شناسی و استخراج وب 32
2-2-2- الگوريتم Ant- Miner 36
2-2-3- نتايج محاسباتي 39
2-2-3-1- تنظيم بصورت عملي 39
2-2-3-2- نتايج تأثير تكنيك های پيش پردازش متنی وابسته به زبان شناسی 40
2-2-4- بحث و تحقيقات آينده 43
2-3- تقسيم بندي صفحات وب براساس ساختار پوشهاي 44
2-3-1 الگوريتم هاي تقسيم بندي صفحات وب 45
2-3-2- روش مبتني بر ساختار 47
2-3-3- يك كاربرد خاص 47
2-3-3-1- استخراج مهمترين خصوصيات 48
2-3-3-2- عمل دسته بندي 50
2-3-4 نتايج 51
2-3-5- نتيجه گيري و عملكرد آينده 53
فصل سوم : جستجوي وب با استفاده از طبقه بندي خودكار
3-1- معماري 57
3-1-1- دسته كنندهي خودكار 57
3-1-2-واسط جستجو 58
3-2- آزمایش معتبر سازي 59
3-2-2- برپایی آزمایش 60
3-2-2- نتایج تجربي 61
3-3- فهرست لغات هر دسته 64
3-3-1- تشخیص هرزنامۀ¹ وب 66
3-3-2- تأثیرات تبعیضات 67
3-4- عملکردهای بعدی 68
فصل اول
معرفی نامه
در این فصل به اختصار به معرفی فصول مختلف می پردازیم و با بیان اهداف کلی هر فصل مروری اجمالی بر کل مطالب پایان نامه خواهیم داشت:
معرفی فصل دوم پایان نامه:
1-1- روش های مختلف تقسیم بندی صفحات وب
در
این بخش همانگونه که از عنوان آن پیداست به معرفی و مقایسه ی روش های
متفاوت تقسیم بندی می پردازیم.این بخش شامل سه قسمت مجزاست که در هر قسمت
هر یک از این روش ها به تفصیل مورد بحث قرار گرفته اند:
1-1-1- تقسیم بندی صفحات وب بطور مختصر
با
رشد سریع جهان پهنه ی گسترده ی وب نیاز فزاینده ای به فعالیت های گسترده
در جهت کمک به کاربران صفحات وب برای طبقه بندی و دسته بندی این صفحات وجود
دارد . این قبیل کمک ها که در سازمان دهی مقادیر زیاد اطلاعات که با سیستم
های جستجو در ارتباط هستند و یا تشکیل کاتالوگ هایی که تشکیلات وب را
سامان دهی می کنند ، بسیار مفید هستند.از نمونه های اخیر آن می توان یاهو و
فرهنگ لغت looksmart (http://www.looksmart.com) که دارای کاربران زیادی
هستند را نام برد.
شواهد نشان می دهد که طبقه بندی نقش مهمی را در
آینده سیستم های جستجو بازی می کند. تحقیقات انجام شده نشان می دهد که
کاربران ترجیح می دهند برای جستجو ، از کاتولوگ های از پیش دسته بندی شده
استفاده کنند . از طرفی رسیدن به این قبیل نیاز های اساسی بدون تکنیک های
خودکار دسته بندی صفحات وب و تحت ویرایش دستی و طبیعی توسط انسان بسیار
مشکل است . زیرا با افزایش حجم اطلاعات طبقه بندی دستی بسیار وقتگیر و
دشوار است.
در نگاه اول ، دسته بندی صفحات وب را می توان از
برنامه های اداری دسته بندی متون مقتبس نمود.اگر بخواهیم در یک آزمایش
ملموس تر به نتایج دقیق برسیم، راه حل مساله بسیار دشوار خواهد شد.صفحات وب
ساختار اصلی و اساسی خود را در قالب زبان HTML قرار می دهند که آنها شامل
محتویات پر سروصدا مانند تیترهای تبلیغاتی و یا هدایت گرهای راهنما و غیر
متنی هستند.اگز روش های خاص طبقه بندی ویژه متون برای این صفحات بکار گرفته
شود چون متمایل به یک الگوریتم خاص دسته بندی متون است ، گمراه شده و باعث
از دست رفتن تمرکز بر موضوعات اصلی و محتویات مهم می شود.زیرا این محتویات
فقط شامل متن نیست.
پس وظیفه و هدف مهم ما طراحی یک کاوشگر
هوشمند برای جستجوی مطالب مهم صفحات وب است که هم شامل اطلاعات متنی و هم
سایر اطلاعات مهم باشد.در این مقاله ما نشان می دهیم که تکنیک های خلاصه
سازی صفحات وب برای جستجوگر ها دسته بندی صفحات وب ، تکنیکی کاربردی و
بسیار مفید است. ما همچنین نشان می دهیم که به جای استفاده از تکنیک های
خلاصه سازی در فضای وب که عمدتا برای متون طراحی شده ، می توان از برنامه
ها و تکنیک های خاص خلاصه سازی صفحات وب استفاده کرد. به منظور جمع آوری
شواهد قابل ملموسی که نشان دهیم تکنیک های خلاصه سازی در صفحات وب سودمند
هستند، ما ابتدا یک آزمایش موردی ایده آل را بررسی می کنیم که در آن هر
صفحه وب ، با خلا صه این صفحه، که توسط انسان خلاصه شده جابجا شده است.پس
از انجام این آزمایش در می یابیم که در مقایسه با استفاه از متن کامل صفحه
وب ، حالت خلاصه شده رشد چشمگیر 14.8 درصدی داشته است که پیشرفت قابل
ملاحظه ای شمرده می شود.به علاوه در این مقاله ما یک تکنیک جدید خلاصه سازی
صفحات وب را پیشنهاد می کنیم که این روش موضوعات اصلی صفحات وب را با روش
آنالیز لایه ای صفحات برای بالا بردن دقت دسته بندی استخراج می کند.
سپس عملیات دسته بندی را به همراه الگوریتم اجرای آن ارزیابی می کنیم و آن
را با روش های سنتی دسته بندی خودکار متون که شامل روش های نظارتی و غیر
نظارتی می باشد مقایسه می کنیم.در آخر ما نشان می دهیم که یک اسمبل از روش
خلاصه سازی حدود 12.9 درصد پیشرفت را می تواند حاصل کند که این عدد بسیار
نزدیک به حدود بالایی است که ما در آزمایش ایده آل خود به آن دست یافتیم.
این فایل به همراه چکیده، فهرست مطالب، متن اصلی و منابع تحقیق با فرمت docx در اختیار شما قرار می گیرد.
تعداد صفحات:68