پارس‌کدرز چگونه کار می‌کند؟

از پارس‌کدرز بیشترین بهره را ببرید و رویای کاری خود را زندگی کنید.

پارس‌کدرز خریداران یا کارفرمایان را به مجری‌ها /فریلنسرهای خبره‌ای متصل می‌کند که برای انجام پروژه آماده هستند.

اصلاح مدل های ماشین لرنینگ برای پیش بینی دیابت

نه روز پیش منتشر شده

تعداد بازدید: 90

کد پروژه: 556030


شرح پروژه

این پروژه قبلا توسط بنده انجام شده ولی استاد ازم خواسته ایرادات کدم رو برطرف کنم ولی چون درگیر امتحانات هستم و وقتم محدوده از شما میخوام خواهش کنم منو تو این پروژه همراهی کنید.
کدی که برای این تمرین نوشتم به همراه دیتاست ضمیمه شده.
هدف از این پروژه ایجاد و مقایسه ی پنج مدل ماشین لرنینگ برای پیدا کردن دقیق ترین مدل یا مدل ها برای پیش بینی فاکتور های موثر بر دیابت است
دیتاست شامل اطلاعات کلینیکی در مورد افراد دیابتی و غیردیابتی است.
اصلاحات طبق خواسته ی استاد به شرح زیر است:
 
۱. Encoding باعث به وجود آمدن نتایج غیرمعتبر میشود. خصوصا در رگرسیون لجستیک پس به جای استفاده از Encoding 
راه بهتر استفاده از dummy-variables(pd.get_dummies) است.
این روش داده ها رو به روش onehot کدگذاری میکنه. درست مثل Race variable.  این روش در Smoking_history و سایر ویژگی های categorical  کمک کننده خواهد بود. متغیرهای باینری مثل Hypertension  نیازی به این متد  ندارند.
۲. برای داده های categorical محاسبه ی correlation matrix خیلی هوشمندانه نیست. ما میخواهیم بدانیم اساسا آیا همبستگی وجود دارد یا خیر! پس روش هایی مثل chi^2 test مناسب تر است.(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html) تجسم ها میتواند چیزی شبیه به چیزی که اینجا آمده (https://seaborn.pydata.org/tutorial/categorical.html) با catplot باشد
۳. برای سایر  داده ها مثلا BMI و غیره میتوان از نمودارهای جعبه ای استفاده کرد که براساس دیابت تقسیم میشوند. بنابراین در این قسمت ما یک Boxplot برای bmi افراد غیردیابتی و یکی هم برای افراد دیابتی داریم. که با توجه به این باکس پلات ها باید بررسی کنیم که آیا تفاوت هایی وجود دارد یا خیر
۴. ساختن نمودارهای جعبه ای از داده های طبقه بندی معقول نیست( این روش همانطور که در کد نوشته شده دیده میشود، معمولا فقط یک خط و یک نقطه است و چیزی بیشتر نمی توان دید. چیزی شبیه به barplot ها را امتحان کنید تا ببینید برای هرکدام چند متغیر دارید. این روش برای Smoking_history و غیره هم صدق میکند.
۵. مدل ها نیاز به tuning دارند. به عنوان مثال در حال حاضر نمیدانیم که آیا Random Forrest با پارامترهای مختلف بهتر عمل میکند یا خیر؟!
اینجا روش cross_validation روش معقولانه ای خواهد بود. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html که این  برای boosted trees هم صدق میکند.
مدل ها در حالت فعلی به احتمال زیاد overfitting دارند.
۶. باید مراقب باشید که فقط از regular score  استفاده نکنید! چون مجموعه ی داده بسیار نامتعادل است( از اونجایی که حدود ۸٪ افراد دیابتی هستند و بقیه نیستند) بنابراین accuracy مشخصه ی مناسبی نخواهد بود. تصور کنید اگر مدل همیشه فقط غیردیابتی ها را در نظر بگیرد، بدون توجه به اینکه چه اتفاقی افتاده، accuracy این پیش بینی ۹۲٪ خواهد بودچون ۹۲٪ از دیتاست غیر دیابتی هستند!
پس F1-score یا حتی F1-score وزنی انتخاب بهتری خواهد بود.( https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html )
این F1-scoreبرای هر گروه رو نشان میدهد. بنابراین میتوانیم ببینیم که درکل چقدر خوب عمل میکند.
۷. برای رگرسیون لجستیک هم میتوانید تاثیر دقیق هر پارامتر را جستجو کنید. این میتونه جالب باشه که ببینیم کدام ویژگی بیشتر بر روی دیابت تاثیر میگذاره.
۸. برای بقیه مدل ها معمولا  feature_importance( https://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html) اطلاعاتی رو در مورد اینکه کدام ویژگی به پیش بینی مدل کمک کرده رو ارائه میده. حتی اگر نمیتوانیم پارامترها رو برای هرکدام دریافت کنیم

این پروژه شامل 1 فایل مهم است، لطفا قبل از ارسال پیشنهاد حتما نسبت به بررسی این فایل اقدام فرمایید.

مهارت ها و تخصص های مورد نیاز


مبلغ پروژه

1,700,000 تومان

مهلت برای انجام

30روز

وضعیت مناقصه

انجام شده


درباره کارفرما

عضویت ده ماه پیش

11 پروژه ثبت شده ،
0 پروژه در حال انجام ،
0 پروژه آماده دریافت پیشنهاد ،
نرخ پذیرش پیشنهاد 100%

برای پیدا کردن پروژه‌های مشابه ثبت نام کنید و پروفایل خود را بسازید.

ورود با گوگل
یا
نام نباید خالی باشد.
نام خانوادگی نباید خالی باشد.

نیاز به استخدام فریلنسر یا سفارش پروژه مشابه دارید؟

سفارش پروژه مشابه

قادر به انجام این پروژه هستید؟

ارسال پیشنهاد قیمت

تا کنون 14 پیشنهاد قیمت از سمت فریلنسرها برای این پروژه ارسال شده

سری به پروژه‌های مشابه بزنید

روش کار در پارس‌کدرز

به رایگان یک حساب کاربری بسازید

مهارت‌ها و تخصص‌های خود را ثبت کنید، رزومه و نمونه‌کارهای خود را نشان دهید و سوابق کاری خود را شرح دهید.

به شیوه‌ای که دوست دارید کار کنید

برای پروژه‌های دلخواه در زمان دلخواه پیشنهاد قیمت خود را ثبت کنید و به فرصت‌های شغلی منحصر به فرد دسترسی پیدا کنید.

با اطمینان دستمزد دریافت کنید

از زمان شروع کار تا انتهای کار به امنیت مالی شما کمک خواهیم کرد. وجه پروژه را از ابتدای کار به امانت در سایت نگه خواهیم داشت تا تضمین شودکه بعد از تحویل کار دستمزد شما پرداخت خواهد شد.

می‌خواهید شروع به کار کنید؟

یک حساب کاربری بسازید


بهترین مشاغل فریلنسری را پیدا کنید
رشد شغلی شما به راحتی ایجاد یک حساب کاربری رایگان و یافتن کار (پروژه) متناسب با مهارت‌های شما است.

پیدا کردن کار (پروژه)

تماشای دمو روش کار