از پارسکدرز بیشترین بهره را ببرید و رویای کاری خود را زندگی کنید.
نه روز پیش منتشر شده
تعداد بازدید: 90
کد پروژه: 556030
شرح پروژه
این پروژه قبلا توسط بنده انجام شده ولی استاد ازم خواسته ایرادات کدم رو برطرف کنم ولی چون درگیر امتحانات هستم و وقتم محدوده از شما میخوام خواهش کنم منو تو این پروژه همراهی کنید.
کدی که برای این تمرین نوشتم به همراه دیتاست ضمیمه شده.
هدف از این پروژه ایجاد و مقایسه ی پنج مدل ماشین لرنینگ برای پیدا کردن دقیق ترین مدل یا مدل ها برای پیش بینی فاکتور های موثر بر دیابت است
دیتاست شامل اطلاعات کلینیکی در مورد افراد دیابتی و غیردیابتی است.
اصلاحات طبق خواسته ی استاد به شرح زیر است:
۱. Encoding باعث به وجود آمدن نتایج غیرمعتبر میشود. خصوصا در رگرسیون لجستیک پس به جای استفاده از Encoding
راه بهتر استفاده از dummy-variables(pd.get_dummies) است.
این روش داده ها رو به روش onehot کدگذاری میکنه. درست مثل Race variable. این روش در Smoking_history و سایر ویژگی های categorical کمک کننده خواهد بود. متغیرهای باینری مثل Hypertension نیازی به این متد ندارند.
۲. برای داده های categorical محاسبه ی correlation matrix خیلی هوشمندانه نیست. ما میخواهیم بدانیم اساسا آیا همبستگی وجود دارد یا خیر! پس روش هایی مثل chi^2 test مناسب تر است.(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html) تجسم ها میتواند چیزی شبیه به چیزی که اینجا آمده (https://seaborn.pydata.org/tutorial/categorical.html) با catplot باشد
۳. برای سایر داده ها مثلا BMI و غیره میتوان از نمودارهای جعبه ای استفاده کرد که براساس دیابت تقسیم میشوند. بنابراین در این قسمت ما یک Boxplot برای bmi افراد غیردیابتی و یکی هم برای افراد دیابتی داریم. که با توجه به این باکس پلات ها باید بررسی کنیم که آیا تفاوت هایی وجود دارد یا خیر
۴. ساختن نمودارهای جعبه ای از داده های طبقه بندی معقول نیست( این روش همانطور که در کد نوشته شده دیده میشود، معمولا فقط یک خط و یک نقطه است و چیزی بیشتر نمی توان دید. چیزی شبیه به barplot ها را امتحان کنید تا ببینید برای هرکدام چند متغیر دارید. این روش برای Smoking_history و غیره هم صدق میکند.
۵. مدل ها نیاز به tuning دارند. به عنوان مثال در حال حاضر نمیدانیم که آیا Random Forrest با پارامترهای مختلف بهتر عمل میکند یا خیر؟!
اینجا روش cross_validation روش معقولانه ای خواهد بود. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html که این برای boosted trees هم صدق میکند.
مدل ها در حالت فعلی به احتمال زیاد overfitting دارند.
۶. باید مراقب باشید که فقط از regular score استفاده نکنید! چون مجموعه ی داده بسیار نامتعادل است( از اونجایی که حدود ۸٪ افراد دیابتی هستند و بقیه نیستند) بنابراین accuracy مشخصه ی مناسبی نخواهد بود. تصور کنید اگر مدل همیشه فقط غیردیابتی ها را در نظر بگیرد، بدون توجه به اینکه چه اتفاقی افتاده، accuracy این پیش بینی ۹۲٪ خواهد بودچون ۹۲٪ از دیتاست غیر دیابتی هستند!
پس F1-score یا حتی F1-score وزنی انتخاب بهتری خواهد بود.( https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html )
این F1-scoreبرای هر گروه رو نشان میدهد. بنابراین میتوانیم ببینیم که درکل چقدر خوب عمل میکند.
۷. برای رگرسیون لجستیک هم میتوانید تاثیر دقیق هر پارامتر را جستجو کنید. این میتونه جالب باشه که ببینیم کدام ویژگی بیشتر بر روی دیابت تاثیر میگذاره.
۸. برای بقیه مدل ها معمولا feature_importance( https://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html) اطلاعاتی رو در مورد اینکه کدام ویژگی به پیش بینی مدل کمک کرده رو ارائه میده. حتی اگر نمیتوانیم پارامترها رو برای هرکدام دریافت کنیم
این پروژه شامل 1 فایل مهم است، لطفا قبل از ارسال پیشنهاد حتما نسبت به بررسی این فایل اقدام فرمایید.
مهارت ها و تخصص های مورد نیاز
مبلغ پروژه
1,700,000 تومان
مهلت برای انجام
30روز
وضعیت مناقصه
انجام شده
درباره کارفرما
عضویت ده ماه پیش
قادر به انجام این پروژه هستید؟
تا کنون 14 پیشنهاد قیمت از سمت فریلنسرها برای این پروژه ارسال شده
به رایگان یک حساب کاربری بسازید
مهارتها و تخصصهای خود را ثبت کنید، رزومه و نمونهکارهای خود را نشان دهید و سوابق کاری خود را شرح دهید.
به شیوهای که دوست دارید کار کنید
برای پروژههای دلخواه در زمان دلخواه پیشنهاد قیمت خود را ثبت کنید و به فرصتهای شغلی منحصر به فرد دسترسی پیدا کنید.
با اطمینان دستمزد دریافت کنید
از زمان شروع کار تا انتهای کار به امنیت مالی شما کمک خواهیم کرد. وجه پروژه را از ابتدای کار به امانت در سایت نگه خواهیم داشت تا تضمین شودکه بعد از تحویل کار دستمزد شما پرداخت خواهد شد.
میخواهید شروع به کار کنید؟
یک حساب کاربری بسازید
بهترین مشاغل فریلنسری را پیدا کنید
رشد شغلی شما به راحتی ایجاد یک حساب کاربری رایگان و یافتن کار (پروژه) متناسب با مهارتهای شما
است.
پیدا کردن کار (پروژه)
تماشای دمو روش کار