پايان نامه داده كاوي پويا با استفاده از عامل
چكيده
امروزه با توجه به گسترش روز افزون اطلاعاتي كه بشر با آنها سر و كار دارد، بهرهگيري از روشهايي همچون دادهكاوي براي استخراج دانش و اطلاعات نهفته در دادهها، امري غيرقابل اجتناب ميباشد. بدليل حجم بسيار بالاي دادهها در بسياري از كاربردها و اهميت بيشتر دادههاي جديد، ذخيرهسازي اين دادهها امري مقرون به صرفه نيست، لذا دادههايي كه بايد مورد پردازش قرار گيرند، همواره بصوت پويا در حال تغيير و تحول هستند. مساله ديگري كه امروزه در بحث دادهكاوي وجود دارد، بحث توزيع شدگي ذاتي دادهها است. معمولا پايگاههايي كه اين دادهها را ايجاد يا دريافت ميكنند، متعلق به افراد حقيقي يا حقوقي هستند كه هر كدام بدنبال اهداف و منافع خود ميباشند و حاضر نيستند دانش خود را بطور رايگان در اختيار ديگران قرار دهند.
با توجه به قابليتهاي عامل و سيستمهاي چندعامله و مناسب بودن آنها براي محيطهاي پويا و توزيع شده بنظر ميرسد كه بتوان از قابليتهاي آنها براي دادهكاوي در محيطهاي پويا و محيطهاي توزيع شده بهره برد. اكثر كارهايي كه تاكنون در زمينه بهرهگيري از عامل و سيستمهاي چندعامله انجام شده است خصوصيتهايي همانند خودآغازي و بخصوص متحرك بودن عاملها را مورد بررسي قرار داده است و در آنها مواردي همچون هوشمندي، يادگيري، قابليت استدلال، هدفگرايي و قابليتهاي اجتماعي عاملها مورد بررسي قرار نگرفته است. در اين تحقيق ما قصد داريم تا ضمن بررسي كارهاي موجود در زمينه كاربرد عامل و سيستمهاي چندعامله در دادهكاوي، بحث طبقهبندي جريان دادهها را در يك محيط پويا مورد بررسي قرار دهيم. ما مساله خود را در دو فاز مورد بررسي قرار خواهيم داد. در فاز اول خصوصيتهاي يك عامل تنها مورد بررسي قرار خواهد گرفت و در فاز دوم قابليتهاي اجتماعي عاملها مانند مذاكره، دستيابي به توافق و ... براي دادهكاوي در يك محيط پويا و توزيعشده رقابتي مورد استفاده قرار خواهد گرفت. بطور كلي دستاوردهاي اصلي اين تحقيق عبارتند از 1) ارائه يك رويكرد مبتني بر عامل براي مساله طبقهبندي جريان دادههاي داراي تغيير مفهوم و پويا با استفاده از قابليتهاي هدفگرايي، هوشمندي، يادگيري و استدلال 2) ارائه يك رويكرد مبتني بر سيستمهاي چندعامله براي طبقهبندي جريان دادههاي توزيعشده در يك محيط رقابتي با استفاده از قابليتهاي اجتماعي عاملها و دستيابي به توافق. نتايج حاصل از آزمايشات انجام شده در اين پاياننامه نشاندهنده برتري استفاده از عاملها و سيستمهاي چندعامله براي بحث طبقهبندي و دادهكاوي در محيطهاي پويا و توزيع شده ميباشد.
تعداد صفحات 153 word
فهرست مطالب
1-1- مقدمهاي بر دادهكاوي.. 2
1-1-3-1- طبقهبندي مبتني بر قواعد. 5
1-3- عاملها و سيستمهاي چندعامله. 8
1-3-1-1- مقايسه عامل با شي.. 9
1-4- بهرهگيري از عامل براي دادهكاوي.. 19
1-4-1- سيستمهاي چندعامله، بستري براي دادهكاوي توزيع شده 19
2-1- مقدمهاي بر دادهكاوي پويا 24
3-2- دادهكاوي توزيعشده ايستا 35
3-2-2- روشهاي مبتني بر توزيع ذاتي دادهها 37
3-3- كارهاي مهم انجام شده در زمينه دادهكاوي با استفاده از عامل. 38
3-4- كارهاي انجام شده در زمينه طبقهبندي جريان دادهها 41
3-4-1- روشهاي طبقهبندي Ensemble-based. 41
3-4-2- درختهاي تصميم بسيار سريع. 43
3-4-5- الگوريتمهاي LWClass. 49
3-4-8- طبقهبندي جريان دادهها با استفاده از يك روش Rule-based. 53
4-2- تعريف مساله براي فاز اول. 56
4-2-2- مفهوم يا مدل موجود در جريان داده 57
4-2-3- مساله طبقهبندي جريان دادههاي داراي تغيير مفهوم. 57
4-3- تعريف مساله براي فاز دوم. 59
5-2- رويكرد پيشنهادي براي فاز اول پروژه 63
5-2-1- عامل و ويژگيهاي آن در اين مساله. 64
5-2-3-3- تابع ارزيابي محيط.. 70
5-2-3-3-1- نحوه تشخيص اطلاعات و نگهداري الگوهاي recur در جريان داده 70
5-2-3-3-2- نحوه استخراج الگوهاي recur 70
5-2-3-3-3- نحوه بروزرساني اطلاعات مربوط به الگوهاي recur 73
5-2-3-3-4- نحوه محاسبه وقوع احتمال وقوع يك الگوي خاص... 74
5-2-3-5- بخش تصميمگيري و Planning. 79
5-2-3-5-1- بخش تصميمگيري.. 79
5-3- رويكرد پيشنهادي براي فاز دوم مساله. 87
5-3-3-1- معماري عاملهاي دادهكاو. 92
5-3-3-1-2- تابع Generate Options. 95
5-3-3-1-5- 1- Plan مربوط به طبقهبندي.. 97
5-3-3-1-5-2- Plan مربوط به تطبيق طبقهبند 98
5-3-3-1-5-3- Plan مربوط به خريد و فروش قواعد با استفاده از مذاكره 101
6-3- مجموعه دادههاي مورد استفاده 116
6-3-1- مجموعه دادههاي استاندارد. 116
6-3-2- مجموعه دادههاي واقعي.. 117
6-4- معيارهاي ارزيابي و روشهاي مورد استفاده براي مقايسه. 117
6-5-1- آزمايشات مربوط به فاز اول. 119
6-5-2- آزمايشات مربوط به فاز دوم. 128
فهرست اشكال
- شكل 1-1- معماري BDI در عامل. 15
- شكل 3-1- درخت تحقيق مربوط به طبقهبندي در مبحث دادهكاوي.. 34
- شكل 3-2- طبقهبندي مبتني بر Ensemble. .44
- شكل 3-3- چارچوب روش On-Demand. 47
- شكل 3-4- نمايي از سيستم OLIN.. 49
- شكل 3-5- پروسه SCALLOP 53
- شكل 5-1- نمودار ترتيب عملكرد عامل پيشنهادي.. 66
- شكل 5-2- معماري عامل پيشنهادي.. 67
- شكل 5-3- پنجره نظاره بر روي جريان دادهها 68
- شكل 5-4- گراف ايجاد شده از روي رشته مفهومها 71
- شكل 5-5- محل تجمع الگوهاي استخراج شده از رشته مفهومها 73
- شكل 5-6- ميزان محاسبه شده احتمالها به ازاي مقادير مختلف K.. 81
- شكل 5-7- شبه كد Plan كلي عامل. 83
- شكل 5-8- نسبت واريانس به حاصلضرب 50 متغير داراي مجموع ثابت.. 85
- شكل 5-9- وزن دهي چند داده مختلف... 86
- شكل 5-10- نمايي كلي از سيستم چندعامله ايجاد شده 88
- شكل 5-11- معماري BDI عامل دادهكاو. 93
- شكل 5-12- بخشي از جريان داده و قواعد استخراج شده از آن. 99
- شكل 5-13- بخشي از جريان داده و قواعد استخراج شده از آن. 101
- شكل 6-1- كد نمونه براي استفاده از بسته نرم افزاري weka. 115
- شكل 6-2- زمان لازم بر حسب ميلي ثانيه براي دادههاي Stagger 120
- شكل 6-3- زمان مصرف شده براي تطبيق طبقهبند. 120
- شكل 6-4- نمودار مربوط به زمان پردازش روشهاي مختلف براي دادههاي HyperPlan 121
- شكل 6-5- زمان مصرف شده براي تطبيق طبقهبند 121
- شكل 6-6- نمودار مربوط به زمان پردازش روشهاي مختلف براي دادههاي Nursery 122
- شكل 6-7- زمان مصرف شده براي تطبيق طبقهبند براي دادههاي Nursery 122
- شكل 6-8- عملكرد روشهاي مختلف بر روي مجموعه داده HyperPlan 124
- شكل 6-9- نمودار عملكرد روشهاي مختلف بر روي مجموعه داده HyperPlan در يك بازه كوچكتر 124
- شكل 6-10- نمودار عملكرد روشهاي مختلف بر روي مجموعه داده HyperPlan در يك بازه كوچكتر 125
- شكل 6-11- زمان مصرف شده براي تطبيق طبقهبند براي دادههاي HyperPlan 125
- شكل 6-12- عملكرد روشهاي مختلف بر روي مجموعه داده Stagger 126
- شكل 6-13- زمان مصرف شده براي تطبيق طبقهبند براي دادههاي Stagger 126
- شكل 6-14- عملكرد روشهاي مختلف بر روي مجموعه داده Nursery 127
- شكل 6-15- زمان مصرف شده براي تطبيق طبقهبند براي دادههاي Nursery 127
- شكل 6-16- نمودار نتايج حاصل از طبقهبندي توزيع شده مجموعه داده Nursery 130
فهرست جدولها
- جدول 1-1- ويژگيهاي يك عامل 11
- جدول 3-1- ماتريس حاصل از روش LWClass. 51
- جدول 3-2- مقايسه تكنيكهاي ذكر شده 54
- جدول 5-1- ساختار اطلاعاتي ذخيره شده براي هر مفهوم و الگو. 69
- جدول 5-2- ساختار اطلاعاتي مربوط به وقوع الگوي "CFDA". 75
- جدول 5-3- نمونه اي از خروجي تابع سودمندي عامل. 81
- جدول 5-4- اطلاعات مورد استفاده براي تخمين سودمندي يك قاعده 105
- جدول 6-1- دقت طبقهبندي روشهاي مختلف... 128
- جدول 6-2- نتايج حاصل از طبقهبندي توزيع شده مجموعه داده Nursery در سه مفهوم مختلف... 130
1920