از پارسکدرز بیشترین بهره را ببرید و رویای کاری خود را زندگی کنید.
دو ساعت پیش منتشر شده
تعداد بازدید: 19
کد پروژه: 591388
شرح پروژه
کارشناسی ارشد
مدیریت فناوری اطلاعات
پروژه درسی
-
استاد من برای پروژه درسی درس داده کاوی یک سری تمرین در وکا فرستاده که حل کردم
اما نیاز به تحلیل اونها به صورت یه فایل ورد دارم
-
انتظار میرود در گام پایانی انجام پروژه درسی با نرمافزار WEKA، فایل اکسل ذیل این پیام را بطور کامل تکمیل نمایید.
ضمناً توجه به نکات زیر، ضروری میباشد.
۱) همراه فایل Excel، در یک فایل Word سه روشی را که از نظر شما بهترین انتخابها برای پیادهسازی این سیستم هوشمند میباشند، مشخص نموده (الزاماً سه روش انتخابی از سه روش دستهبندی متفاوت استفاده نمایند) و بطور کامل و به تفصیل، دلیل خود را برای این انتخابها بنویسید.
۲) در فایل Word مذکور، توضیح دهید که اگر بجای دستهبند MNB، از دستهبند دیگری (بطور مثال درخت تصمیم J48) درون Wrapper استفاده میشد، نتایج احتمالاً چه تغییری میکرد.
۳) نهایتاً تمامی فایلهای arff مراحل قبلی، بهمراه فایلهای Excel, Word صدرالاشاره را در یک پوشه (با فرمت rar یا zip) ذخیره نموده و صرفاً از طریق ایتا، یا از طریق ایمیل زیر، ارسال بفرمایید
۴) برای معیارهای ارزیابی مندرج در فایل Excel، عدد میانگین دو کلاس (Spam, Legitimate) را در نظر بگیرید.
۵) از روش k-fold Cross Validation با مقدار k=10 برای تقسیمبندی مجموعههای آموزشی و آزمایشی استفاده نمایید.
۶) دلیل عدم استفادهی مستقیم از فایلهای با ۳۰۰ و ۵۰۰ ویژگی، زمان غیر بهینهی آنها در مقایسه با سایر موارد میباشد.
-
میتوانید جهت شروع پروژه پیادهسازی یک سیستم هوشمند مبتنی بر دادهکاوی با نرمافزار WEKA، از فایل زیر بعنوان یک دیتاست استاندارد، استفاده نمایید.
البته استفاده از سایر دیتاستها نیز مشروط بر استاندارد بودن آنها و تأیید بنده، مجاز میباشد.
انتظار میرود بعنوان اولین اقدام، الگوریتمهای انتخاب ویژگی Information Gain و Gain Ratio (هر دو فیلتر، مبتنی بر آنتروپی میباشند) را اجرا نموده، تعداد ویژگیهای کاهشیافته و منتخب دیتاست ذیل را در چهار حالت ۱۰۰، ۲۰۰، ۳۰۰ و ۵۰۰ ویژگی (صفت خاصه) برای هر کدام بصورت مجزا، بدست آورده و فایل مربوط به هر کدام را جداگانه و با نامی که مشخصکنندهی فیلتر و تعداد ویژگی منتخب باشد، ذخیره نمایید.
شایان ذکر است مراحل پیشپردازش اولیه بر روی فایل دیتاست ذیلالاشاره، انجام پذیرفته و نیاز به طی مجدد این مراحل نمیباشد
این یکی از نسخ کامل مجموعه داده LingSpam است که برای تشخیص ماهیت ایمیلها (قانونی یا هرزنامه بودن آنها) در یک سیستم داده کاوی مبتنی بر الگوریتمهای یادگیری ماشین، مورد استفاده قرار میگیرد.
در این فایل که به فرمت arff (قابل خواندن توسط نرمافزار WEKA) است، پیشپردازش اولیه N-Gram (با مقدار N=1) روی متون ایمیلها، اعمال شده و آماده برای اجرای سایر مراحل (اعم از استخراج و انتخاب ویژگی و نیز دسته بندی و ارزیابی مدل)، میباشد.
-
بعنوان دومین اقدام در تکمیل پروژه درسی، انتظار میرود الگوریتم انتخاب ویژگی Chi Squared (مربع کای، مبتنی بر روش آماری کایدو) را اجرا نموده، تعداد ویژگیهای کاهشیافته و منتخب دیتاست صدرالاشاره را در چهار حالت ۱۰۰، ۲۰۰، ۳۰۰ و ۵۰۰ ویژگی (صفت خاصه)، بدست آورده و فایل مربوط به هر کدام را جداگانه و با نامی که مشخصکنندهی فیلتر و تعداد ویژگی منتخب باشد، ذخیره نمایید.
مانند قبل، ذخیرهی فایل با فرمت arff انجام پذیرد.
-
بعنوان سومین اقدام در تکمیل پروژه درسی، انتظار میرود الگوریتم انتخاب ویژگی Wrapper (رپر) را روی نتایج تمامی فیلترهای مراحل قبلی (فیلترهای InformationGain, GainRatio, ChiSquared) اجرا نموده، تعداد ویژگیهای کاهشیافته و منتخب هر کدام را بدست آورده و فایل مربوط به هر کدام را جداگانه و با نامی که مشخصکنندهی فیلتر و رپر و تعداد ویژگی منتخب باشد، ذخیره نمایید. (بطور مثال:
ChiSq100-WrMNB33
بهمعنای اینکه رپر MNB روی خروجی فیلتر مربع کای با 100 ویژگی اعمال شده و تعداد ویژگیها را به 33 عدد کاهش داده است؛ توجه فرمایید که ویژگی @@ class @@ نباید در شمارش ویژگیهای نهایی لحاظ گردد).
مانند قبل، ذخیرهی فایل با فرمت arff انجام پذیرد.
نکته ۱) از الگوریتم Multinomial Naive Bayes (دستهبند MNB) بعنوان دستهبند رپر استفاده نمایید. دلیل استفاده از این دستهبند، سریع بودن آن و نیز این موضوع است که دستهبند مذکور، مخصوص کار با مباحث Text Mining (متن کاوی) میباشد.
میتوان از دستهبندهای دیگر مثل درخت تصمیم (J48) نیز بعنوان دستهبند درون رپر استفاده نمود، لکن زمان پردازش برای انتخاب بهترین ویژگیها افزایش خواهد یافت.
نکته ۲) نیازی به تغییر سایر مشخصات رپر نمیباشد؛ فقط دستهبند را به MNB یا هر دستهبند دیگر تغییر دهید. ضمناً روش جستجو نیز بصورت پیشفرض، الگوریتم BestFirst باشد.
-
انتظار میرود در گام پایانی انجام پروژه درسی با نرمافزار WEKA، فایل اکسل ذیل این پیام را بطور کامل تکمیل نمایید.
ضمناً توجه به نکات زیر، ضروری میباشد.
۱) همراه فایل Excel، در یک فایل Word سه روشی را که از نظر شما بهترین انتخابها برای پیادهسازی این سیستم هوشمند میباشند، مشخص نموده (الزاماً سه روش انتخابی از سه روش دستهبندی متفاوت استفاده نمایند) و بطور کامل و به تفصیل، دلیل خود را برای این انتخابها بنویسید.
۲) در فایل Word مذکور، توضیح دهید که اگر بجای دستهبند MNB، از دستهبند دیگری (بطور مثال درخت تصمیم J48) درون Wrapper استفاده میشد، نتایج احتمالاً چه تغییری میکرد.
۳) نهایتاً تمامی فایلهای arff مراحل قبلی، بهمراه فایلهای Excel, Word صدرالاشاره را در یک پوشه (با فرمت rar یا zip) ذخیره نموده و صرفاً از طریق ایتا، یا از طریق ایمیل زیر، ارسال بفرمایید.
۴) برای معیارهای ارزیابی مندرج در فایل Excel، عدد میانگین دو کلاس (Spam, Legitimate) را در نظر بگیرید.
۵) از روش k-fold Cross Validation با مقدار k=10 برای تقسیمبندی مجموعههای آموزشی و آزمایشی استفاده نمایید.
۶) دلیل عدم استفادهی مستقیم از فایلهای با ۳۰۰ و ۵۰۰ ویژگی، زمان غیر بهینهی آنها در مقایسه با سایر موارد میباشد.
۷) با برخی از دستهبندها تا کنون آشنا شدهاید و جزییات سایر دستهبندها را انشالله در جلسات آینده فرا خواهید گرفت.
۸) مهلت ارسال پروژه، حداکثر تا تاریخ ۱۰ دی ماه ۱۴۰۴ میباشد.
۹) در ابتدای فایل Word، نام و نامخانوادگی و شماره دانشجویی اعضای گروه را مرقوم بفرمایید.
-
فایل های وکای این تمارین رو هم دارم
-
تا پنجشنبه
این پروژه شامل 11 فایل مهم است، لطفا قبل از ارسال پیشنهاد حتما نسبت به بررسی این فایل اقدام فرمایید.
مهارت ها و تخصص های مورد نیاز
بودجه
500,000 تومان تا 1,500,000 تومان
مهلت برای انجام
3روز
وضعیت مناقصه
باز (آماده دریافت پیشنهاد)
درباره کارفرما
عضویت هشت سال پیش
نیاز به استخدام فریلنسر یا سفارش پروژه مشابه دارید؟
قادر به انجام این پروژه هستید؟
تا کنون 2 پیشنهاد قیمت از سمت فریلنسرها برای این پروژه ارسال شده
پياده سازي مقاله اي در رابطه با data mining يا web mining
دو ساعت پیش منتشر شده
به رایگان یک حساب کاربری بسازید
مهارتها و تخصصهای خود را ثبت کنید، رزومه و نمونهکارهای خود را نشان دهید و سوابق کاری خود را شرح دهید.
به شیوهای که دوست دارید کار کنید
برای پروژههای دلخواه در زمان دلخواه پیشنهاد قیمت خود را ثبت کنید و به فرصتهای شغلی منحصر به فرد دسترسی پیدا کنید.
با اطمینان دستمزد دریافت کنید
از زمان شروع کار تا انتهای کار به امنیت مالی شما کمک خواهیم کرد. وجه پروژه را از ابتدای کار به امانت در سایت نگه خواهیم داشت تا تضمین شودکه بعد از تحویل کار دستمزد شما پرداخت خواهد شد.
میخواهید شروع به کار کنید؟
یک حساب کاربری بسازید
بهترین مشاغل فریلنسری را پیدا کنید
رشد شغلی شما به راحتی ایجاد یک حساب کاربری رایگان و یافتن کار (پروژه) متناسب با مهارتهای شما
است.
پیدا کردن کار (پروژه)
تماشای دمو روش کار