از پارسکدرز بیشترین بهره را ببرید و رویای کاری خود را زندگی کنید.
یک سال پیش منتشر شده
تعداد بازدید: 126
کد پروژه: 460735
شرح پروژه
بخش تشخیص و تصحیح غلط املایی در یک داده متنی ورودی
در این بخش، هدف این است تا از طریق بارگذاری یک فایل حاوی غلط املایی، سیستم پیادهسازی شده قادر باشد تا کلمات حاوی غلط املایی را تشخیص و در خروجی به همراه شکل صحیح املایی آن نمایش دهد. داده مورد نیاز برای پیادهسازی این بخش در پوشه (“Dataset\Spelling Dataset\test”) موجود است. برای پیادهسازی این بخش، از مطالب ارائه شده در این درس (مدل احتمالی Noisy Channel) استفاده شود.
نکات:
· برای پیادهسازی مدل احتمالی Noisy channel، نیازی به محاسبه Confusion Matrix نیست. مقادیر عددی Confusion Matrix برای اعمال Edit چهارگانه Insert و Delete و Substitution و Transposition از پیش محاسبه شدهاند و در پوشه (“Dataset\Spelling Dataset\test\Confusion Matrix”) در اختیار شما قرار داده شدهاند.
· دقت داشته باشید که برای پیادهسازی سیستم تشخیص و تصحیح غلط املایی از چهار مؤلفه اساسی باید استفاده شود:
· Language Models
· Noisy Channel Model
· Error Confusion Matrix
· Damerau-Levenshtein Edit Distance
· دیکشنری و مجموعه داده لازم برای محاسبه احتمال کلمات یا P(W) در پوشه (“Dataset\Spelling Dataset\test\Dictionary”) قرار دارد.
· کدهای لازم برای محاسبه Damerau-Levenshtein Edit Distance را میتوانید از منابع موجود در سطح اینترنت نیز تهیه کنید.
· به غیر از کد لازم برای محاسبه Edit Distance، از کدهای موجود در سطح اینترنت برای پیادهسازی این بخش به هیج وجه نباید استفاده شود.
بخش دستهبندی دادههای متنی
در این بخش هدف این است تا یک سیستم دستهبندی متن با استفاده از روش بیز ساده (Naïve Bayes) پیادهسازی شود. در این بخش، مجموعهای متشکل از اسناد متنی در اختیار شما قرار داده شدهاند که در پنج کلاس مختلف دستهبندی شدهاند. همچنین، دادههای لازم برای آموزش مدل بیز ساده (یادگیری پارامترهای احتمالی) و تست این مدل در اختیار شما قرار داده شدهاند. این دادهها، در پوشه (“Dataset\Classification-Train And Test”) قرار دارند. برای پیادهسازی این بخش لازم است ابتدا:
1. دیکشنری کلمات موجود در اسناد متنی این مجموعه داده را بسازید (برای ساختن دیکشنری از دادههای آموزش استفاده کنید).
2. احتمالات کلاسها یا P(C) را محاسبه کنید (فقط از دادههای آموزش برای محاسبه این احتمالات استفاده کنید).
3. احتمالات شرطی هر کدام از کلمات به شرط کلاسها (P(W|C)) را محاسبه کنید.
4. از رابطه قانون بیز برای دستهبندی اسناد موجود در مجموعه تست (test) در یکی از کلاسهای پنجگانه استفاده کنید.
***همه فایل های Dataset مورد نیاز فرستاده می شوند.
این پروژه شامل 1 فایل مهم است، لطفا قبل از ارسال پیشنهاد حتما نسبت به بررسی این فایل اقدام فرمایید.
مهارت ها و تخصص های مورد نیاز
بودجه
300,000 تومان تا 750,000 تومان
مهلت برای انجام
14روز
وضعیت مناقصه
بسته
درباره کارفرما
عضویت یک سال پیش
قادر به انجام این پروژه هستید؟
مهلت ارسال پیشنهاد قیمت برای این پروژه تمام شده است
به رایگان یک حساب کاربری بسازید
مهارتها و تخصصهای خود را ثبت کنید، رزومه و نمونهکارهای خود را نشان دهید و سوابق کاری خود را شرح دهید.
به شیوهای که دوست دارید کار کنید
برای پروژههای دلخواه در زمان دلخواه پیشنهاد قیمت خود را ثبت کنید و به فرصتهای شغلی منحصر به فرد دسترسی پیدا کنید.
با اطمینان دستمزد دریافت کنید
از زمان شروع کار تا انتهای کار به امنیت مالی شما کمک خواهیم کرد. وجه پروژه را از ابتدای کار به امانت در سایت نگه خواهیم داشت تا تضمین شودکه بعد از تحویل کار دستمزد شما پرداخت خواهد شد.
میخواهید شروع به کار کنید؟
یک حساب کاربری بسازید
بهترین مشاغل فریلنسری را پیدا کنید
رشد شغلی شما به راحتی ایجاد یک حساب کاربری رایگان و یافتن کار (پروژه) متناسب با مهارتهای شما
است.
پیدا کردن کار (پروژه)
تماشای دمو روش کار