هوش مصنوعي - يادگيري تقويتي

ده سال پیش منتشر شده

تعداد بازدید: 709

کد پروژه: 16633

شرح پروژه

در اين الگوريتم عامل وضعيت محيط را دريافت کرده، از بين اعمال ممکن يکي را انتخاب کرده و آن را روي محيط اجرا مي کند؛ سپس در اثر انجام اين عمل وضعيت محيط تغيير کرده و عامل نيز از محيط پاداشي دريافت مي کند. پس به عبارتي هدف اصلي يافتن بهترين دنباله از اَعمال است در صورتي که مجموع پاداش دريافت شده، حداکثر باشد؛ براي يافتن بهترين عمل در هر وضعيت به گونه اي است که مجموع پاداش دريافت شده حداکثر باشد. در واقع اين خروجي مقدار پاداشي است که به عامل در ازاي انجام عمل aدر حالت محيطي s تعلق مي گيرد. همانطور که ذکر شد، عامل با استفاده از عملگرهاي خود، عملي را روي محيط انجام مي دهد و به اين ترتيب روي محيط پيرامون خود تأثير گذار است و در ضمن از محيط پاداشي دريافت مي کند. مقدار پاداشي که عامل به ازاي انجام هر عمل در هر حالت از محيط دريافت مي کند، طبق تابع پاداش تعريف شده است. را فرا مي گيرد. يادگيري تقويتي استاندارد يک الگوريتم يادگيري Online است که مي تواند يک سياست کنترلي براي فرايند تصميم گيري مارکوف را بر اساس پاداش تأخير دار بلند مدت، و با وجود تابع پاداش و اثر اعمال معين ياد بگيرد. خروجي اين الگوريتم مقادير جدولQ، به صورت شکل شامل مقادير يادگرفته شدۀ تابع Qوقتي در حالت s عمل a انجام شود،است. ACTION4(LEFT) ACTION3(DOWN) ACTION2(RIGHT) ACTION1(UP) Q(s,a) STATE1 STATE2 STATE3 STATE4 برنامه grid world به صورت يک محيط شبکه اي است . در ابتدا يک سلول براي شروع حرکت عامل انتخاب مي شود عامل در آن قرار دارد و سلول ديگري يا به صورت ثابت يا انتخابي ، سلول پاياني مي باشد. اگر عامل در اتاقي در نظر بگيريم ، هرگاه عامل ، خود را به در رساند، پاداش100 و در غير اين صورت پاداش صفر دريافت مي کند. اگر يک محيط 4*4 در نظر بگيريم سلول انتهاي مقدار100پاداش و بقيه سلول ها داراي مقدار پاداش صفر مي باشند. عامل تشخيص مي دهد در چه وضعيتي است و اعمال براي او شناخته شده است که در اينجا چهار عمل تعريف شده براي عامل داريم) (up, right, down. Left عامل در لحظه t حالت St را تشخيص و عمل at را انجام مي دهد و وضغيت ها و پاداشها را در جدول Q به خاطر مي سپارد. در هربار حرکت از شروع به سمت پايان جدولQ به روز رساني مي شود. مراحل الگوريتم يادگيري تقويتي استاندارد با دادن مقدار اوليه صفر به جدول q دريافت حالت فعلي محيطs تکرار حلقۀ زير تا رسيدن به شرط پايان: انتخاب يک عمل(a) به يکي از دو شکل زير و انجام آن: به صورت تصادفي بر اساس جدولQ که تاکنون ساخته شده دريافت پاداش از محيطr دريافت حالت جديد محيطs تغيير مقدار جدولQ طبق رابطه زير: Q(s,a) = r+ γ max Q( s’, a’) حالت فعلي را حالت بعدي قرار بده (s ← s `) اين الگوريتم، هر بار با حالت اوليه شروع مي کند و با انجام يک سري اعمال و دريافت پاداش به حالت هدف مي رسد. به هر کدام از اين دنباله ها، که از يک حالت اوليه شروع و به يک حالت هدف ختم مي شود،يکepisode مي گويند. درحالت هدف، معمولاً عامل با انجام هر عمل به همين حالت بر مي گردد و هيچ پاداشي از محيط دريافت نمي کند؛. حلقۀ تکرارِ فوق به تعداد مثال هاي آموزشي جمع آوري ، اجرا مي شود. در مراحل اوليۀ يادگيري، بدون توجه به مقادير جدولQ بطور تصادفي عملي انتخاب مي شود. با اين کار ممکن است اعمال بهينه اي که تاکنون انتخاب نشده اند، کشف شده و به جدول اضافه شوند. و هرچه به مراحل پايانيِ يادگيري نزديک مي شويم، بهترين عمل طبق جدولQاي که تاکنون ساخته شده، انتخاب مي شود عامل در هر لحظه t يک عمل را مي تواند انتخاب و انجام دهد. R تابع پاداش مي باشد Rt =( st , at) و وضيت بعدي S’ S t+1 = δ( st , at) توابع r, δ جزيي از محيط اند و براي عامل نا شناخته اند. محيط در پاسخ به عمل عامل پاداش rt را مي دهد و به حالت st+1 مي رود. γ مقداري بين صفر و يک است که مي توان يا به صورت ثابت تعريف کرد يا از ورودي دريافت شود. در اين مثال مقادير qهرعمل/حالت در کنار آن درج شده است با هر حرکت عامل به سمت راست پاداش صفر به آن تعلق ميگيرد. اگر عامل از حالت s 1شروع کرده و به سمت راست حرکت کند مقدار جديد Qرابر است با: r( s, a)+ γ max( Q ( s’, a’)) 0 + 0.9 max (66,81,100) S1 در پايان عامل policy سياست کنترل را آموخته و يکبار مسير را بدون خطا با حداکثر دريافتي طي مي کند. . .

قابل تحویل:

این پروژه شامل 1 فایل مهم است، لطفا قبل از ارسال پیشنهاد حتما نسبت به بررسی این فایل اقدام فرمایید.

مهارت ها و تخصص های مورد نیاز

بودجه

5,000 تومان تا 100,000 تومان

مهلت برای انجام

4روز

وضعیت مناقصه

بسته

درباره کارفرما

نر افزار - ليلي

عضویت ده سال پیش

1 پروژه ثبت شده ،

0 پروژه در حال انجام ،

0 پروژه آماده دریافت پیشنهاد ،

نرخ پذیرش پیشنهاد 0%

برای پیدا کردن پروژه‌های مشابه ثبت نام کنید و پروفایل خود را بسازید.

ورود با گوگل

یا

نیاز به استخدام فریلنسر یا سفارش پروژه مشابه دارید؟

سفارش پروژه مشابه

روش کار در پارس‌کدرز

به رایگان یک حساب کاربری بسازید

مهارت‌ها و تخصص‌های خود را ثبت کنید، رزومه و نمونه‌کارهای خود را نشان دهید و سوابق کاری خود را شرح دهید.

به شیوه‌ای که دوست دارید کار کنید

برای پروژه‌های دلخواه در زمان دلخواه پیشنهاد قیمت خود را ثبت کنید و به فرصت‌های شغلی منحصر به فرد دسترسی پیدا کنید.

با اطمینان دستمزد دریافت کنید

از زمان شروع کار تا انتهای کار به امنیت مالی شما کمک خواهیم کرد. وجه پروژه را از ابتدای کار به امانت در سایت نگه خواهیم داشت تا تضمین شودکه بعد از تحویل کار دستمزد شما پرداخت خواهد شد.

می‌خواهید شروع به کار کنید؟

یک حساب کاربری بسازید

بهترین مشاغل فریلنسری را پیدا کنید
رشد شغلی شما به راحتی ایجاد یک حساب کاربری رایگان و یافتن کار (پروژه) متناسب با مهارت‌های شما است.

پیدا کردن کار (پروژه)

تماشای دمو روش کار

پارس‌کدرز

پارس‌کُدرز

پارس‌کُدرز

پروژه رو ثبت کنید و پیشنهاد دریافت کنید

شروع به ارسال پیشنهاد کنید

پارس‌کدرز چگونه کار می‌کند؟

پارس‌کدرز خریداران یا کارفرمایان را به مجری‌ها /فریلنسرهای خبره‌ای متصل می‌کند که برای انجام پروژه آماده هستند.