Browse Wiki & Semantic Web

Jump to: navigation, search
Http://dbpedia.org/resource/Markov decision process
  This page has no properties.
hide properties that link here 
  No properties link to this page.
 
http://dbpedia.org/resource/Markov_decision_process
http://dbpedia.org/ontology/abstract マルコフ決定過程(マルコフけっていかてい、英: Markov decision prマルコフ決定過程(マルコフけっていかてい、英: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。MDP は少なくとも1950年代には知られていたが、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する。MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。。MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。 , Bei dem Markow-Entscheidungsproblem (MEP, Bei dem Markow-Entscheidungsproblem (MEP, auch Markow-Entscheidungsprozess oder MDP für Markov decision process) handelt es sich um ein nach dem russischen Mathematiker Andrei Andrejewitsch Markow benanntes Modell von Entscheidungsproblemen, bei denen der Nutzen eines Agenten von einer Folge von Entscheidungen abhängig ist. Bei den Zustandsübergängen gilt dabei die Markow-Annahme, d. h. die Wahrscheinlichkeit einen Zustand von Zustand aus zu erreichen, ist nur von abhängig und nicht von Vorgängern von .on abhängig und nicht von Vorgängern von . , En théorie de la décision et de la théorieEn théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de avec son livre de 1960, Dynamic Programming and Markov Processes. Ils sont utilisés dans de nombreuses disciplines, notamment la robotique, l'automatisation, l'économie et l'industrie manufacturière. Un processus de décision markovien est un processus de contrôle stochastique discret. À chaque étape, le processus est dans un certain état et l'agent choisit une action . La probabilité que le processus arrive à l'état est déterminée par l'action choisie. Plus précisément, elle est décrite par la fonction de transition d'états . Donc, l'état dépend de l'état actuel et de l'action sélectionnée par le décideur. Cependant, pour un et un , le prochain état est indépendant des actions et états précédents. On dit alors que le processus satisfait la propriété de Markov. Quand le processus passe de l'état à l'état avec l'action , l'agent gagne une récompense . Les MDPs sont une extension des chaînes de Markov. La différence est l'addition des actions choisies par l'agent et des récompenses gagnées par l'agent. S'il n'y a qu'une seule action à tirer dans chaque état et que les récompenses sont égales, le processus de décision markovien est une chaîne de Markov.cision markovien est une chaîne de Markov. , Ма́рковські проце́си вирі́шування (МПВ, анМа́рковські проце́си вирі́шування (МПВ, англ. Markov decision process, MDP) забезпечують математичну систему для моделювання ухвалення рішень у ситуаціях, в яких наслідки є частково випадковими, а частково контрольованими ухвалювачем рішення. МПВ є корисними для дослідження широкого спектра задач оптимізації, розв'язуваних динамічним програмуванням та навчанням з підкріпленням. МПВ були відомі щонайменше з 1950-х років (пор.). Основна маса досліджень марковських процесів вирішування стала результатом книги , опублікованої 1960 року, «Динамічне програмування та марковські процеси» (англ. Dynamic Programming and Markov Processes). Їх застосовують у широкій області дисциплін, включно з робототехнікою, автоматизованим керуванням, економікою та виробництвом. Якщо точніше, то марковський процес вирішування є стохастичним процесом керування . На кожному кроці часу процес перебуває в якомусь стані , і ухвалювач рішення може обрати будь-яку дію , доступну в стані . Процес реагує на наступному кроці часу випадковим переходом до нового стану і наданням ухвалювачеві рішення відповідної винагороди (англ. reward) . Ймовірність переходу процесу до його нового стану знаходиться під впливом обраної дії. Конкретно, вона задається функцією переходу стану . Таким чином, наступний стан залежить від поточного стану та від дії ухвалювача рішення . Але для заданих та він є умовно незалежним від усіх попередніх станів та дій; іншими словами, переходи станів процесу МПВ задовольняють марковську властивість. Марковські процеси вирішування є розширенням марковських ланцюгів; різниця полягає в доданні дій (що дає вибір) та винагород (що дає мотивацію). І навпаки, якщо для кожного стану існує лише одна дія (наприклад, «чекати») та всі винагороди є однаковими (наприклад, «нуль»), то марковський процес вирішування зводиться до марковського ланцюга.шування зводиться до марковського ланцюга. , In mathematics, a Markov decision process In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for studying optimization problems solved via dynamic programming. MDPs were known at least as early as the 1950s; a core body of research on Markov decision processes resulted from Ronald Howard's 1960 book, Dynamic Programming and Markov Processes. They are used in many disciplines, including robotics, automatic control, economics and manufacturing. The name of MDPs comes from the Russian mathematician Andrey Markov as they are an extension of Markov chains. At each time step, the process is in some state , and the decision maker may choose any action that is available in state . The process responds at the next time step by randomly moving into a new state , and giving the decision maker a corresponding reward . The probability that the process moves into its new state is influenced by the chosen action. Specifically, it is given by the state transition function . Thus, the next state depends on the current state and the decision maker's action . But given and , it is conditionally independent of all previous states and actions; in other words, the state transitions of an MDP satisfy the Markov property. Markov decision processes are an extension of Markov chains; the difference is the addition of actions (allowing choice) and rewards (giving motivation). Conversely, if only one action exists for each state (e.g. "wait") and all rewards are the same (e.g. "zero"), a Markov decision process reduces to a Markov chain.ecision process reduces to a Markov chain. , I processi decisionali di Markov (MDP), daI processi decisionali di Markov (MDP), dal nome del matematico Andrej Andreevič Markov (1856-1922), forniscono un framework matematico per la modellizzazione del processo decisionale in situazioni in cui i risultati sono in parte casuale e in parte sotto il . Gli MDP sono utili per lo studio di una vasta gamma di problemi di ottimizzazione, risolti con la programmazione dinamica e l'apprendimento per rinforzo. Gli MDP sono noti fin dal 1950. Essi sono utilizzati in una vasta area di discipline in cui il processo di presa di decisione avviene in un intorno dinamico, tra cui la robotica, l'automazione, l'economia, e la produzione industriale. Più precisamente, un processo decisionale di Markov è un processo di controllo stocastico a tempo discreto. Se gli spazi degli stati e delle azioni sono finiti, allora il problema è chiamato MDP finito. Gli MDP finiti sono particolarmente importanti per la teoria dell'apprendimento per rinforzo (reinforcement learning).nto per rinforzo (reinforcement learning). , 在數學中,馬可夫決策過程(英語:Markov decision process,MD在數學中,馬可夫決策過程(英語:Markov decision process,MDP)是隨機控製過程。 它提供了一個數學框架,用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知; 一個對馬可夫決策過程的核心研究是於1960年出版的《動態規劃和馬可夫過程》。 它們被用於許多領域,包括機器人學,自動化,經濟學和製造業。 MDP的名稱來自俄羅斯數學家安德雷·馬可夫,因為它們是馬可夫鏈的推廣。 在每個時間步驟中,隨機過程都處於某種狀態,決策者可以選擇在狀態下可用的動作。 該隨機過程在下一時間步驟會隨機進入新狀態,並給予決策者相應的回饋。 隨機過程進入新狀態的機率受所選操作影響。 具體來說,它是由狀態轉換函數給出的。 因此,下一個狀態取決於當前狀態和決策者的動作。 但是給定和,它條件獨立於所有先前的狀態和動作; 換句話說,MDP的狀態轉換滿足马尔可夫性质。 马尔可夫决策过程是马尔可夫链的推广,不同之处在于添加了行动(允许选择)和奖励(给予动机)。反過來說,如果每个状态只存在一个操作和所有的奖励都是一样的,一个马尔可夫决策过程可以归结为一个马尔可夫链。只存在一个操作和所有的奖励都是一样的,一个马尔可夫决策过程可以归结为一个马尔可夫链。 , عملية ماركوف (بالإنجليزية: Markov decisionعملية ماركوف (بالإنجليزية: Markov decision process)‏ هو نموذج مؤشر عشوائى stochastic يحتوي على خاصية ماركوف. ويمكن استخدامه في تصميم نموذج لنظام عشوائي الذي يتغير وفقا لقاعدة التحول الذي يعتمد فقط على الحالة الراهنة current state. تستخدم عمليات ماركوف في كثير من المجالات منها: تعلم الآلة (وخاصة التعلم المعزز) والتعرف على الأنماط وتشخيص الأمراض وقرارات العلاج الطبي بشكل عام حيث أنه يعتبر استخدامه ضروري في حاله اتخاذ قرار يتضمن خطر مع مرور الوقت مثل زراعة الكبد والكلي. بشكل خاص، يحتاج مؤشر المعلمة الدولة الفضاء والوقت النظام على أن تكون محددة. ويوجد حالات مختلفة من عمليات ماركوف لمستويات مختلفة من الحالات عموما وللزمن المتقطع مقابل الزمن المتواصل.عموما وللزمن المتقطع مقابل الزمن المتواصل. , Марковский процесс принятия решений (англ.Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Слово марковский в названии отражает выполнение марковского свойства для таких процессов. Такой процесс служит математической основой для моделирования последовательного принятия решений в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используется во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство. Подход обучения с подкреплениями, основанный на данной модели используется например в AlphaZero. модели используется например в AlphaZero. , Markovovy rozhodovací procesy jsou pojmenoMarkovovy rozhodovací procesy jsou pojmenovány po ruském matematikovi Andreji Markovovi. Poskytují matematický rámec pro modelování rozhodování v situacích, kdy jsou výsledky zčásti náhodné a zčásti pod kontrolou uživatele. Markovovy rozhodovací procesy se využívají pro studium mnoha typů optimalizačních problémů, řešených prostřednictvím dynamického programování a zpětnovazebního učení. Markovovy rozhodovací procesy jsou známy od 50. let 20. století (viz Bellman 1957). Mnoho výzkumu v této oblasti bylo učiněno na základě knihy Dynamické programování a Markovovy procesy z roku 1960. Dnes jsou využívány v různých oblastech včetně robotiky, , ekonomie a průmyslové výroby. Přesněji řečeno je Markovův rozhodovací proces diskrétní, stochastický a proces. V každém časovém okamžiku je proces v určitém stavu a uživatel může vybrat jakoukoli akci , která je dostupná ve stavu . Proces na tuto akci v následujícím časovém okamžiku reaguje náhodným přesunutím do nového stavu a dává uživateli odpovídající užitek . Pravděpodobnost, že proces vybere jako nový stav, je ovlivněna vybranou akcí. Pravděpodobnost je určena funkcí přechodu stavu . Takže následující stav závisí na současném stavu a na uživatelově akci . Dané a jsou však podmíněně závislé na všech předchozích stavech a akcích. Jinými slovy má přechod stavu Markovova rozhodovacího procesu Markovovu vlastnost. Markovovy rozhodovací procesy jsou rozšířením Markovových řetězců; rozdíl je v přidání akcí (umožňují výběr) a užitků (motivace). Pokud by existovala pouze jedna akce, nebo pokud by byla daná uskutečnitelná akce stejná pro všechny stavy, Markovův rozhodovací proces by se zredukoval na Markovův řetězec.oces by se zredukoval na Markovův řetězec. , 마르코프 결정 과정(MDP, Markov Decision Process)는 마르코프 결정 과정(MDP, Markov Decision Process)는 의사결정 과정을 모델링하는 수학적인 틀을 제공한다. 이 때 의사결정의 결과는 의사결정자의 결정에도 좌우되지만, 어느 정도 임의적으로 주어진다. 마르코프 결정 과정은 동적 계획법과 강화 학습 등의 방법으로 푸는 넓은 범위의 최적화 문제에 유용한 도구로 활용되며, 로봇 공학, , 경제학, 제조업 등의 영역에서 폭넓게 사용되고 있다. 마르코프 결정 과정은 적어도 1950년대에 처음 고안되었으며, 마르코프 결정 과정에 대한 가장 핵심적인 연구는 1960년에 출판된 의 책 《동적 계획법과 마르코프 과정》(Dynamic Programming and Markov Processes)이다. 더 정확히는, 마르코프 결정 과정은 확률 제어 과정(discrete time stochastic control process)이다. 어떤 시점에, 마르코프 결정 과정은 어떤 상태 에 존재한다. 의사결정자는 해당 상태 에서 어떤 행동 를 취할 수 있으며, 다음 시점에서 마르코프 결정 과정은 확률적으로 새로운 상태 로 전이한다. 이 때 의사결정자는 상태 전이에 해당하는 보상 을 받는다. 기존의 상태 에서 새로운 상태 로 전이하는 확률은 의사결정자의 행동에 영향을 받는다. 즉, 전이 확률 함수는 와 같이 주어진다. 따라서, 다음 상태 는 현재 상태 와 의사결정자의 행동 에만 영향을 받으며 이전의 모든 상태와는 확률적으로 독립적이므로, 마르코프 결정 과정의 상태 전이는 을 만족한다. 마르코프 결정 과정은 마르코프 연쇄의 확장된 형태로 볼 수 있다. 마르코프 연쇄와의 차이점은 의사결정자의 선택이 개입된 행동이 존재한다는 것과, 의사결정자에게 동기를 부여하는 보상이 존재한다는 점이다. 바꾸어 말하면, 각 상태에서 오직 한 가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다.든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다.
http://dbpedia.org/ontology/thumbnail http://commons.wikimedia.org/wiki/Special:FilePath/Markov_Decision_Process.svg?width=300 +
http://dbpedia.org/ontology/wikiPageExternalLink https://netfiles.uiuc.edu/meyn/www/spm_files/CTCN/CTCN.html%7Carchive-url=https:/web.archive.org/web/20100619011046/https:/netfiles.uiuc.edu/meyn/www/spm_files/CTCN/CTCN.html%7Carchive-date=19 + , https://netfiles.uiuc.edu/meyn/www/spm_files/book.html%7Carchive-url=https:/web.archive.org/web/20121218173202/https:/netfiles.uiuc.edu/meyn/www/spm_files/book.html%7Carchive-date=18 + , http://ncatlab.org/nlab/show/Giry%2Bmonad + , http://incompleteideas.net/sutton/book/the-book-2nd.html + , http://www.deeplearningitalia.com/wp-content/uploads/2018/03/Introduction-to-Stochastic-Dynamic-Programming-Ross.pdf + , http://www.eecs.umich.edu/~baveja/ + , http://www.eecs.umich.edu/~baveja/Papers/Thesis.ps.gz + , https://books.google.com/books%3Fid=WibF8iVHaiMC%7Cisbn=9780470864289 + , https://www.springer.com/mathematics/applications/book/978-3-642-02546-4%7Ctitle=Continuous-Time + , https://www.springer.com/mathematics/applications/book/978-3-642-02546-4 + , https://books.google.com/books%3Fid=TpwKCAAAQBAJ%7Cisbn=9781461508052 +
http://dbpedia.org/ontology/wikiPageID 1125883
http://dbpedia.org/ontology/wikiPageLength 30887
http://dbpedia.org/ontology/wikiPageRevisionID 1124829194
http://dbpedia.org/ontology/wikiPageWikiLink http://dbpedia.org/resource/Mabinogion_sheep_problem + , http://dbpedia.org/resource/Q-learning + , http://dbpedia.org/resource/Generative_model + , http://dbpedia.org/resource/Motion_planning + , http://dbpedia.org/resource/Function_approximation + , http://dbpedia.org/resource/Kleisli_category + , http://dbpedia.org/resource/Decision_making + , http://dbpedia.org/resource/Partially_observable_Markov_decision_process + , http://dbpedia.org/resource/Category_theory + , http://dbpedia.org/resource/File:Markov_Decision_Process.svg + , http://dbpedia.org/resource/Hamilton%E2%80%93Jacobi%E2%80%93Bellman_equation + , http://dbpedia.org/resource/Reinforcement_learning + , http://dbpedia.org/resource/Monte_Carlo_tree_search + , http://dbpedia.org/resource/Machine_learning + , http://dbpedia.org/resource/Recursive_economics + , http://dbpedia.org/resource/Population_process + , http://dbpedia.org/resource/Lloyd_Shapley + , http://dbpedia.org/resource/Stochastic_games + , http://dbpedia.org/resource/Optimization_problem + , http://dbpedia.org/resource/Optimal_control_theory + , http://dbpedia.org/resource/State_transition_function + , http://dbpedia.org/resource/Ordinary_differential_equation + , http://dbpedia.org/resource/Probability + , http://dbpedia.org/resource/Bellman_equation + , http://dbpedia.org/resource/Free_monoid + , http://dbpedia.org/resource/Quantum_finite_automata + , http://dbpedia.org/resource/Ronald_A._Howard + , http://dbpedia.org/resource/Kumpati_S._Narendra + , http://dbpedia.org/resource/Ergodicity + , http://dbpedia.org/resource/Category:Dynamic_programming + , http://dbpedia.org/resource/Value_function + , http://dbpedia.org/resource/Andrey_Markov + , http://dbpedia.org/resource/Odds_algorithm + , http://dbpedia.org/resource/Tuple + , http://dbpedia.org/resource/Automatic_control + , http://dbpedia.org/resource/Markov_process + , http://dbpedia.org/resource/Robotics + , http://dbpedia.org/resource/Manufacturing + , http://dbpedia.org/resource/Algorithms + , http://dbpedia.org/resource/Dynamic_programming + , http://dbpedia.org/resource/Finite_state_automata + , http://dbpedia.org/resource/Discrete-time + , http://dbpedia.org/resource/Relaxation_%28iterative_method%29 + , http://dbpedia.org/resource/Markov_chain + , http://dbpedia.org/resource/Set_%28mathematics%29 + , http://dbpedia.org/resource/Economics + , http://dbpedia.org/resource/Stochastic + , http://dbpedia.org/resource/Markov_property + , http://dbpedia.org/resource/Randomness + , http://dbpedia.org/resource/Probabilistic_automata + , http://dbpedia.org/resource/Queueing_system + , http://dbpedia.org/resource/Category:Optimal_decisions + , http://dbpedia.org/resource/Category:Markov_processes + , http://dbpedia.org/resource/Continuous_time + , http://dbpedia.org/resource/Pseudocode + , http://dbpedia.org/resource/Policy + , http://dbpedia.org/resource/Backward_induction + , http://dbpedia.org/resource/Computable_function + , http://dbpedia.org/resource/Regression_analysis + , http://dbpedia.org/resource/Set_of_real_numbers + , http://dbpedia.org/resource/Linear_programming + , http://dbpedia.org/resource/Stochastic_game + , http://dbpedia.org/resource/Optimal_control + , http://dbpedia.org/resource/Category:Stochastic_control +
http://dbpedia.org/property/date July 2018
http://dbpedia.org/property/reason The derivation of the substituion is needed
http://dbpedia.org/property/wikiPageUsesTemplate http://dbpedia.org/resource/Template:Clarify + , http://dbpedia.org/resource/Template:Mvar + , http://dbpedia.org/resource/Template:Cite_book + , http://dbpedia.org/resource/Template:Main + , http://dbpedia.org/resource/Template:Explain + , http://dbpedia.org/resource/Template:Cite_web + , http://dbpedia.org/resource/Template:Harv + , http://dbpedia.org/resource/Template:Div_col + , http://dbpedia.org/resource/Template:Div_col_end + , http://dbpedia.org/resource/Template:Citation_needed + , http://dbpedia.org/resource/Template:What + , http://dbpedia.org/resource/Template:Reflist + , http://dbpedia.org/resource/Template:Sfn + , http://dbpedia.org/resource/Template:Harvnb +
http://purl.org/dc/terms/subject http://dbpedia.org/resource/Category:Optimal_decisions + , http://dbpedia.org/resource/Category:Stochastic_control + , http://dbpedia.org/resource/Category:Markov_processes + , http://dbpedia.org/resource/Category:Dynamic_programming +
http://www.w3.org/ns/prov#wasDerivedFrom http://en.wikipedia.org/wiki/Markov_decision_process?oldid=1124829194&ns=0 +
http://xmlns.com/foaf/0.1/depiction http://commons.wikimedia.org/wiki/Special:FilePath/Markov_Decision_Process.svg +
http://xmlns.com/foaf/0.1/isPrimaryTopicOf http://en.wikipedia.org/wiki/Markov_decision_process +
owl:sameAs http://dbpedia.org/resource/Markov_decision_process + , http://is.dbpedia.org/resource/Markov_%C3%A1kvar%C3%B0anaferli + , http://www.wikidata.org/entity/Q176789 + , http://rdf.freebase.com/ns/m.048gl8 + , http://it.dbpedia.org/resource/Processo_decisionale_di_Markov + , http://ko.dbpedia.org/resource/%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84_%EA%B2%B0%EC%A0%95_%EA%B3%BC%EC%A0%95 + , http://vi.dbpedia.org/resource/Qu%C3%A1_tr%C3%ACnh_quy%E1%BA%BFt_%C4%91%E1%BB%8Bnh_Markov + , http://uk.dbpedia.org/resource/%D0%9C%D0%B0%D1%80%D0%BA%D0%BE%D0%B2%D1%81%D1%8C%D0%BA%D0%B8%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81_%D0%B2%D0%B8%D1%80%D1%96%D1%88%D1%83%D0%B2%D0%B0%D0%BD%D0%BD%D1%8F + , http://cs.dbpedia.org/resource/Markov%C5%AFv_rozhodovac%C3%AD_proces + , http://fa.dbpedia.org/resource/%D9%81%D8%B1%D8%A7%DB%8C%D9%86%D8%AF%D9%87%D8%A7%DB%8C_%D8%AA%D8%B5%D9%85%DB%8C%D9%85%E2%80%8C%DA%AF%DB%8C%D8%B1%DB%8C_%D9%85%D8%A7%D8%B1%DA%A9%D9%88%D9%81 + , http://yago-knowledge.org/resource/Markov_decision_process + , http://de.dbpedia.org/resource/Markow-Entscheidungsproblem + , http://fr.dbpedia.org/resource/Processus_de_d%C3%A9cision_markovien + , http://ja.dbpedia.org/resource/%E3%83%9E%E3%83%AB%E3%82%B3%E3%83%95%E6%B1%BA%E5%AE%9A%E9%81%8E%E7%A8%8B + , http://zh.dbpedia.org/resource/%E9%A6%AC%E5%8F%AF%E5%A4%AB%E6%B1%BA%E7%AD%96%E9%81%8E%E7%A8%8B + , http://ar.dbpedia.org/resource/%D9%82%D8%B1%D8%A7%D8%B1%D8%A7%D8%AA_%D8%B9%D9%85%D9%84%D9%8A%D8%A9_%D9%85%D8%A7%D8%B1%D9%83%D9%88%D9%81 + , http://ru.dbpedia.org/resource/%D0%9C%D0%B0%D1%80%D0%BA%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81_%D0%BF%D1%80%D0%B8%D0%BD%D1%8F%D1%82%D0%B8%D1%8F_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 + , https://global.dbpedia.org/id/iN44 + , http://he.dbpedia.org/resource/%D7%AA%D7%94%D7%9C%D7%99%D7%9A_%D7%94%D7%97%D7%9C%D7%98%D7%94_%D7%9E%D7%A8%D7%A7%D7%95%D7%91%D7%99 + , http://simple.dbpedia.org/resource/Markov_decision_process + , http://tr.dbpedia.org/resource/Markov_karar_s%C3%BCreci +
rdf:type http://dbpedia.org/class/yago/Abstraction100002137 + , http://dbpedia.org/class/yago/Act100030358 + , http://dbpedia.org/class/yago/Activity100407535 + , http://dbpedia.org/class/yago/Event100029378 + , http://dbpedia.org/class/yago/Idea105833840 + , http://dbpedia.org/class/yago/Content105809192 + , http://dbpedia.org/class/yago/Choice100161243 + , http://dbpedia.org/class/yago/Decision100162632 + , http://dbpedia.org/class/yago/WikicatOptimalDecisions + , http://dbpedia.org/class/yago/Concept105835747 + , http://dbpedia.org/class/yago/Cognition100023271 + , http://dbpedia.org/class/yago/PsychologicalFeature100023100 + , http://dbpedia.org/class/yago/Hypothesis105888929 + , http://dbpedia.org/class/yago/Model105890249 + , http://dbpedia.org/class/yago/WikicatStochasticProcesses + , http://dbpedia.org/class/yago/StochasticProcess113561896 + , http://dbpedia.org/class/yago/YagoPermanentlyLocatedEntity + , http://dbpedia.org/class/yago/Procedure101023820 + , http://dbpedia.org/class/yago/Action100037396 + , http://dbpedia.org/class/yago/WikicatMarkovProcesses +
rdfs:comment In mathematics, a Markov decision process In mathematics, a Markov decision process (MDP) is a discrete-time stochastic control process. It provides a mathematical framework for modeling decision making in situations where outcomes are partly random and partly under the control of a decision maker. MDPs are useful for studying optimization problems solved via dynamic programming. MDPs were known at least as early as the 1950s; a core body of research on Markov decision processes resulted from Ronald Howard's 1960 book, Dynamic Programming and Markov Processes. They are used in many disciplines, including robotics, automatic control, economics and manufacturing. The name of MDPs comes from the Russian mathematician Andrey Markov as they are an extension of Markov chains.as they are an extension of Markov chains. , Markovovy rozhodovací procesy jsou pojmenoMarkovovy rozhodovací procesy jsou pojmenovány po ruském matematikovi Andreji Markovovi. Poskytují matematický rámec pro modelování rozhodování v situacích, kdy jsou výsledky zčásti náhodné a zčásti pod kontrolou uživatele. Markovovy rozhodovací procesy se využívají pro studium mnoha typů optimalizačních problémů, řešených prostřednictvím dynamického programování a zpětnovazebního učení. Markovovy rozhodovací procesy jsou známy od 50. let 20. století (viz Bellman 1957). Mnoho výzkumu v této oblasti bylo učiněno na základě knihy Dynamické programování a Markovovy procesy z roku 1960. Dnes jsou využívány v různých oblastech včetně robotiky, , ekonomie a průmyslové výroby. robotiky, , ekonomie a průmyslové výroby. , Bei dem Markow-Entscheidungsproblem (MEP, Bei dem Markow-Entscheidungsproblem (MEP, auch Markow-Entscheidungsprozess oder MDP für Markov decision process) handelt es sich um ein nach dem russischen Mathematiker Andrei Andrejewitsch Markow benanntes Modell von Entscheidungsproblemen, bei denen der Nutzen eines Agenten von einer Folge von Entscheidungen abhängig ist. Bei den Zustandsübergängen gilt dabei die Markow-Annahme, d. h. die Wahrscheinlichkeit einen Zustand von Zustand aus zu erreichen, ist nur von abhängig und nicht von Vorgängern von .on abhängig und nicht von Vorgängern von . , マルコフ決定過程(マルコフけっていかてい、英: Markov decision prマルコフ決定過程(マルコフけっていかてい、英: Markov decision process; MDP)は、状態遷移が確率的に生じる動的システム(確率システム)の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。MDP は少なくとも1950年代には知られていたが、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する。MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。。MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。 , 마르코프 결정 과정(MDP, Markov Decision Process)는 마르코프 결정 과정(MDP, Markov Decision Process)는 의사결정 과정을 모델링하는 수학적인 틀을 제공한다. 이 때 의사결정의 결과는 의사결정자의 결정에도 좌우되지만, 어느 정도 임의적으로 주어진다. 마르코프 결정 과정은 동적 계획법과 강화 학습 등의 방법으로 푸는 넓은 범위의 최적화 문제에 유용한 도구로 활용되며, 로봇 공학, , 경제학, 제조업 등의 영역에서 폭넓게 사용되고 있다. 마르코프 결정 과정은 적어도 1950년대에 처음 고안되었으며, 마르코프 결정 과정에 대한 가장 핵심적인 연구는 1960년에 출판된 의 책 《동적 계획법과 마르코프 과정》(Dynamic Programming and Markov Processes)이다. 마르코프 결정 과정은 마르코프 연쇄의 확장된 형태로 볼 수 있다. 마르코프 연쇄와의 차이점은 의사결정자의 선택이 개입된 행동이 존재한다는 것과, 의사결정자에게 동기를 부여하는 보상이 존재한다는 점이다. 바꾸어 말하면, 각 상태에서 오직 한 가지 행동만이 가능하며 모든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다.든 전이에 대한 보상이 같은 마르코프 결정 과정은 마르코프 연쇄와 동일하다. , I processi decisionali di Markov (MDP), daI processi decisionali di Markov (MDP), dal nome del matematico Andrej Andreevič Markov (1856-1922), forniscono un framework matematico per la modellizzazione del processo decisionale in situazioni in cui i risultati sono in parte casuale e in parte sotto il . Gli MDP sono utili per lo studio di una vasta gamma di problemi di ottimizzazione, risolti con la programmazione dinamica e l'apprendimento per rinforzo. Gli MDP sono noti fin dal 1950. Essi sono utilizzati in una vasta area di discipline in cui il processo di presa di decisione avviene in un intorno dinamico, tra cui la robotica, l'automazione, l'economia, e la produzione industriale., l'economia, e la produzione industriale. , عملية ماركوف (بالإنجليزية: Markov decisionعملية ماركوف (بالإنجليزية: Markov decision process)‏ هو نموذج مؤشر عشوائى stochastic يحتوي على خاصية ماركوف. ويمكن استخدامه في تصميم نموذج لنظام عشوائي الذي يتغير وفقا لقاعدة التحول الذي يعتمد فقط على الحالة الراهنة current state. تستخدم عمليات ماركوف في كثير من المجالات منها: تعلم الآلة (وخاصة التعلم المعزز) والتعرف على الأنماط وتشخيص الأمراض وقرارات العلاج الطبي بشكل عام حيث أنه يعتبر استخدامه ضروري في حاله اتخاذ قرار يتضمن خطر مع مرور الوقت مثل زراعة الكبد والكلي. بشكل خاص، يحتاج مؤشر المعلمة الدولة الفضاء والوقت النظام على أن تكون محددة. ويوجد حالات مختلفة من عمليات ماركوف لمستويات مختلفة من الحالات عموما وللزمن المتقطع مقابل الزمن المتواصل.عموما وللزمن المتقطع مقابل الزمن المتواصل. , 在數學中,馬可夫決策過程(英語:Markov decision process,MD在數學中,馬可夫決策過程(英語:Markov decision process,MDP)是隨機控製過程。 它提供了一個數學框架,用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知; 一個對馬可夫決策過程的核心研究是於1960年出版的《動態規劃和馬可夫過程》。 它們被用於許多領域,包括機器人學,自動化,經濟學和製造業。 MDP的名稱來自俄羅斯數學家安德雷·馬可夫,因為它們是馬可夫鏈的推廣。 在每個時間步驟中,隨機過程都處於某種狀態,決策者可以選擇在狀態下可用的動作。 該隨機過程在下一時間步驟會隨機進入新狀態,並給予決策者相應的回饋。 隨機過程進入新狀態的機率受所選操作影響。 具體來說,它是由狀態轉換函數給出的。 因此,下一個狀態取決於當前狀態和決策者的動作。 但是給定和,它條件獨立於所有先前的狀態和動作; 換句話說,MDP的狀態轉換滿足马尔可夫性质。 马尔可夫决策过程是马尔可夫链的推广,不同之处在于添加了行动(允许选择)和奖励(给予动机)。反過來說,如果每个状态只存在一个操作和所有的奖励都是一样的,一个马尔可夫决策过程可以归结为一个马尔可夫链。只存在一个操作和所有的奖励都是一样的,一个马尔可夫决策过程可以归结为一个马尔可夫链。 , Марковский процесс принятия решений (англ.Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Слово марковский в названии отражает выполнение марковского свойства для таких процессов. Такой процесс служит математической основой для моделирования последовательного принятия решений в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используется во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство. Подход обучения с подкреплениями, основанный на данной модели используется например в AlphaZero. модели используется например в AlphaZero. , En théorie de la décision et de la théorieEn théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de avec son livre de 1960, Dynamic Programming and Markov Processes. Ils sont utilisés dans de nombreuses disciplines, notamment la robotique, l'automatisation, l'économie et l'industrie manufacturière. l'économie et l'industrie manufacturière. , Ма́рковські проце́си вирі́шування (МПВ, анМа́рковські проце́си вирі́шування (МПВ, англ. Markov decision process, MDP) забезпечують математичну систему для моделювання ухвалення рішень у ситуаціях, в яких наслідки є частково випадковими, а частково контрольованими ухвалювачем рішення. МПВ є корисними для дослідження широкого спектра задач оптимізації, розв'язуваних динамічним програмуванням та навчанням з підкріпленням. МПВ були відомі щонайменше з 1950-х років (пор.). Основна маса досліджень марковських процесів вирішування стала результатом книги , опублікованої 1960 року, «Динамічне програмування та марковські процеси» (англ. Dynamic Programming and Markov Processes). Їх застосовують у широкій області дисциплін, включно з робототехнікою, автоматизованим керуванням, економікою та виробництвом.им керуванням, економікою та виробництвом.
rdfs:label Processo decisionale di Markov , قرارات عملية ماركوف , Markovův rozhodovací proces , 馬可夫決策過程 , 마르코프 결정 과정 , Processus de décision markovien , Markov decision process , Марковський процес вирішування , マルコフ決定過程 , Markow-Entscheidungsproblem , Марковский процесс принятия решений
hide properties that link here 
http://dbpedia.org/resource/Cyrus_Derman + , http://dbpedia.org/resource/Michael_Katehakis + http://dbpedia.org/ontology/knownFor
http://dbpedia.org/resource/MDP + http://dbpedia.org/ontology/wikiPageDisambiguates
http://dbpedia.org/resource/Markov_Decision_Process + , http://dbpedia.org/resource/Markov_decision_processes + , http://dbpedia.org/resource/Algorithms_for_solving_Markov_decision_processes + , http://dbpedia.org/resource/Methods_for_solving_Markov_decision_processes + , http://dbpedia.org/resource/Markov_Decision_Processes + , http://dbpedia.org/resource/Markov_decision_problems + , http://dbpedia.org/resource/Policy_iteration + , http://dbpedia.org/resource/Value_iteration + http://dbpedia.org/ontology/wikiPageRedirects
http://dbpedia.org/resource/Markov_chain + , http://dbpedia.org/resource/Markov_Decision_Process + , http://dbpedia.org/resource/Directed_information + , http://dbpedia.org/resource/Collaborative_filtering + , http://dbpedia.org/resource/Gijsbert_de_Leve + , http://dbpedia.org/resource/Graph_isomorphism_problem + , http://dbpedia.org/resource/Automated_planning_and_scheduling + , http://dbpedia.org/resource/List_of_statistics_articles + , http://dbpedia.org/resource/Gittins_index + , http://dbpedia.org/resource/Bulk_queue + , http://dbpedia.org/resource/Catalog_of_articles_in_probability_theory + , http://dbpedia.org/resource/Decentralized_partially_observable_Markov_decision_process + , http://dbpedia.org/resource/Multiscale_decision-making + , http://dbpedia.org/resource/Weighted_automaton + , http://dbpedia.org/resource/Quantum_finite_automaton + , http://dbpedia.org/resource/Richard_Weber_%28mathematician%29 + , http://dbpedia.org/resource/Discrete_Poisson_equation + , http://dbpedia.org/resource/List_of_algorithms + , http://dbpedia.org/resource/Temporal_difference_learning + , http://dbpedia.org/resource/State%E2%80%93action%E2%80%93reward%E2%80%93state%E2%80%93action + , http://dbpedia.org/resource/Q-learning + , http://dbpedia.org/resource/Mark_E._Lewis_%28engineer%29 + , http://dbpedia.org/resource/Olog + , http://dbpedia.org/resource/Apprenticeship_learning + , http://dbpedia.org/resource/Recursive_economics + , http://dbpedia.org/resource/Game_theory + , http://dbpedia.org/resource/Artificial_neural_network + , http://dbpedia.org/resource/Machine_learning + , http://dbpedia.org/resource/Thomas_Dean_%28computer_scientist%29 + , http://dbpedia.org/resource/Eugene_A._Feinberg + , http://dbpedia.org/resource/Optimal_stopping + , http://dbpedia.org/resource/Markov_model + , http://dbpedia.org/resource/Markov_property + , http://dbpedia.org/resource/List_of_numerical_analysis_topics + , http://dbpedia.org/resource/Glossary_of_artificial_intelligence + , http://dbpedia.org/resource/Dynamic_programming + , http://dbpedia.org/resource/Secretary_problem + , http://dbpedia.org/resource/Baum%E2%80%93Welch_algorithm + , http://dbpedia.org/resource/Cyrus_Derman + , http://dbpedia.org/resource/Michael_Katehakis + , http://dbpedia.org/resource/Stochastic_game + , http://dbpedia.org/resource/Multi-armed_bandit + , http://dbpedia.org/resource/Reinforcement_learning + , http://dbpedia.org/resource/PRISM_model_checker + , http://dbpedia.org/resource/Dynamic_discrete_choice + , http://dbpedia.org/resource/Stochastic_dynamic_programming + , http://dbpedia.org/resource/Learning_automaton + , http://dbpedia.org/resource/Drift_plus_penalty + , http://dbpedia.org/resource/Model-free_%28reinforcement_learning%29 + , http://dbpedia.org/resource/Ronald_A._Howard + , http://dbpedia.org/resource/Bellman_equation + , http://dbpedia.org/resource/Transition_%28computer_science%29 + , http://dbpedia.org/resource/Optimistic_knowledge_gradient + , http://dbpedia.org/resource/Artificial_intelligence + , http://dbpedia.org/resource/Outline_of_artificial_intelligence + , http://dbpedia.org/resource/Markov_decision_processes + , http://dbpedia.org/resource/Zadeh%27s_rule + , http://dbpedia.org/resource/Algorithms_for_solving_Markov_decision_processes + , http://dbpedia.org/resource/Methods_for_solving_Markov_decision_processes + , http://dbpedia.org/resource/Markov_Decision_Processes + , http://dbpedia.org/resource/Markov_decision_problems + , http://dbpedia.org/resource/Cryptoeconomics + , http://dbpedia.org/resource/Multi-agent_reinforcement_learning + , http://dbpedia.org/resource/Thompson_sampling + , http://dbpedia.org/resource/Intrinsic_motivation_%28artificial_intelligence%29 + , http://dbpedia.org/resource/Deep_reinforcement_learning + , http://dbpedia.org/resource/Policy_iteration + , http://dbpedia.org/resource/Value_iteration + , http://dbpedia.org/resource/Partially_observable_Markov_decision_process + , http://dbpedia.org/resource/Planning_Domain_Definition_Language + , http://dbpedia.org/resource/Oliver_Friedmann + , http://dbpedia.org/resource/Andrey_Markov + , http://dbpedia.org/resource/Dialog_manager + , http://dbpedia.org/resource/Monte_Carlo_POMDP + , http://dbpedia.org/resource/Online_optimization + , http://dbpedia.org/resource/Shlomo_Zilberstein + , http://dbpedia.org/resource/Proto-value_function + , http://dbpedia.org/resource/MDP + , http://dbpedia.org/resource/Diffusion_wavelets + , http://dbpedia.org/resource/Markov_reward_model + , http://dbpedia.org/resource/Ionescu-Tulcea_theorem + http://dbpedia.org/ontology/wikiPageWikiLink
http://dbpedia.org/resource/Cyrus_Derman + , http://dbpedia.org/resource/Michael_Katehakis + http://dbpedia.org/property/knownFor
http://en.wikipedia.org/wiki/Markov_decision_process + http://xmlns.com/foaf/0.1/primaryTopic
http://dbpedia.org/resource/Markov_decision_process + owl:sameAs
http://dbpedia.org/resource/Bellman_equation + rdfs:seeAlso
 

 

Enter the name of the page to start semantic browsing from.