فرایند تصمیمگیری مارکوف (MDP) و Value Iteration
توضیحات
در آخرین جلسه (جلسه بیست ودوم) درس هوش مصنوعی استاد انصاری با عنوان «فرایند تصمیمگیری مارکوف (MDP) و Value Iteration»، مفاهیم مربوط به انجام تصمیمگیریهای پیچیده تدریس میشود. سه مطلب مهم در این جلسه مورد بحث و بررسی قرار میگیرند: 1) فرایند تصمیمگیری مارکوف (MDP) 2) الگوریتم Value Iteration. در فصل سوم درس درباره نحوه حل مسائل جستجو و در فصل پنجم به مسائلی که در آنها با عاملهای دیگر مواجه هستیم، پرداخته شد. در این جلسه به مسائلی پرداخته خواهدشد که در محیطهای غیرقطعی تعریف میشوند و به مسائل تصمیمگیری ترتیبی معروف هستند که در آنها سودمندی عامل به دنبالهای از تصمیمها بستگی دارد. در بخش اول این فصل این مسائل به طور دقیق تعریف شده و سپس الگوریتمهایی برای حل آنها معرفی خواهد گردید. ابتدا مسائل تصمیم گیری ترتیبی و مدل مارکوف (Markov Model) و فرایند تصمیم گیری مارکوف (MDP Markov decision Process) با چند مثال متعدد معرفی میشوند. سپس رسم درخت جستجو و بعد از آن حل مسائل MDP با چندین مثال مورد بحث و بررسی دقیق قرار میگیرند. در انتها الگوریتم Value Iteration با یک مثال شرح داده خواهد شد و بعد از آن یک تست مطرح و حل تشریحی آن ارائه خواهد شد.