Browse Wiki & Semantic Web

Jump to: navigation, search
Http://dbpedia.org/resource/Q-learning
  This page has no properties.
hide properties that link here 
  No properties link to this page.
 
http://dbpedia.org/resource/Q-learning
http://dbpedia.org/ontology/abstract Q 러닝(Q-learning)은 모델 없이 학습하는 강화 학습 기법 가운데 Q 러닝(Q-learning)은 모델 없이 학습하는 강화 학습 기법 가운데 하나이다. Q 러닝은 주어진 유한 마르코프 결정 과정의 최적의 정책을 찾기 위해 사용할 수 있다. Q 러닝은 주어진 상태에서 주어진 행동을 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q 함수를 학습함으로써 최적의 정책을 학습한다. 정책이란 주어진 상태에서 어떤 행동을 수행할지 나타내는 규칙이다. Q 함수를 학습하고나면 각 상태에서 최고의 Q를 주는 행동을 수행함으로써 최적의 정책을 유도할 수 있다. Q 러닝의 장점 중 하나는 주어진 환경의 모델 없이도 수행하는 행동의 기대값을 비교할 수 있다는 점이다. 뿐만 아니라 Q 러닝은 전이가 확률적으로 일어나거나 보상이 확률적으로 주어지는 환경에서도 별다른 변형 없이 적용될 수 있다. Q 러닝은 임의의 유한 MDP에 대해서 현재 상태에서 최대의 보상을 획득하는 최적의 정책을 학습할 수 있다는 사실이 증명되어 있다.대의 보상을 획득하는 최적의 정책을 학습할 수 있다는 사실이 증명되어 있다. , Q-learning es una técnica de aprendizaje pQ-learning es una técnica de aprendizaje por refuerzo utilizada en aprendizaje automático. El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias. No requiere un modelo del entorno y puede manejar problemas con transiciones estocásticas y recompensas sin requerir adaptaciones. Para cualquier finito (PDMF) (finite Markov decision process en inglés), Q-learning encuentra una política óptima en el sentido de que maximiza el valor esperado de la recompensa total sobre todos los pasos sucesivos, empezando desde el estado actual.​ Q-learning puede identificar una norma de acción-selección óptima para cualquier PDMF, dado un tiempo de exploración infinito y una norma parcialmente aleatoria​ "Q" nombra la función que devuelve la recompensa que proporciona el refuerzo y representa la "calidad" de una acción tomada en un estado dado.​" de una acción tomada en un estado dado.​ , Q-навча́ння (англ. Q-learning) — це алгориQ-навча́ння (англ. Q-learning) — це алгоритм безмодельного навчання з підкріпленням. Метою Q-навчання є навчитися стратегії, яка каже агентові, до якої дії вдаватися за яких обставин. Воно не вимагає моделі середовища (звідси уточнення «безмодельного»), і може розв'язувати задачі зі стохастичними переходами та винагородами, не вимагаючи пристосувань. Для будь-якого скінченного марковського процесу вирішування (СМПВ, англ. finite Markov decision process, FMDP) Q-навчання знаходить стратегію, яка є оптимальною в тому сенсі, що вона максимізує очікуване значення повної винагороди над будь-якими та усіма послідовними кроками, починаючи з поточного стану. Q-навчання може визначати оптимальну стратегію обирання дій для довільного СМПВ за умови нескінченного часу на розвідування та частково випадкової стратегії. Символом Q позначають функцію, яка повертає винагороду, що використовують для забезпечення підкріплення, і про яку можливо сказати, що вона відповідає «якості» (англ. Quality) дії, обраної в поточному стані.. Quality) дії, обраної в поточному стані. , Q-learning è uno dei più conosciuti algoriQ-learning è uno dei più conosciuti algoritmi di apprendimento per rinforzo. Fa parte della famiglia di algoritmi adottati nelle tecniche delle differenze temporali, relative ai casi di modelli a informazione incompleta. Uno dei suoi maggiori punti di rilievo consiste nell'abilità di comparare l'utilità aspettata delle azioni disponibili senza richiedere un modello dell'ambiente.senza richiedere un modello dell'ambiente. , Q-Lernen ist eine Form des temporalen Differenzlernens. Als solche ist es eine modellfreie Methode des bestärkenden Lernens. Da sie zur optimalen Wertefunktion konvergiert, ist sie eine der verbreitetsten Algorithmen. , Q-学习是强化学习的一种方法。Q-学习就是要記錄下学习過的策略,因而告诉智能体什么情况下采取什么行动會有最大的獎勵值。Q-学习不需要对环境进行建模,即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。 对于任何有限的馬可夫決策過程(FMDP),Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略。,在给定一个部分随机的策略和无限的探索时间,Q-学习可以给出一个最佳的动作选择策略。 「Q」这个字母在强化学习中表示一个动作的期望奖励。 , Q-learning is a model-free reinforcement lQ-learning is a model-free reinforcement learning algorithm to learn the value of an action in a particular state. It does not require a model of the environment (hence "model-free"), and it can handle problems with stochastic transitions and rewards without requiring adaptations. For any finite Markov decision process (FMDP), Q-learning finds an optimal policy in the sense of maximizing the expected value of the total reward over any and all successive steps, starting from the current state. Q-learning can identify an optimal action-selection policy for any given FMDP, given infinite exploration time and a partly-random policy. "Q" refers to the function that the algorithm computes – the expected rewards for an action taken in a given state.ards for an action taken in a given state. , Q-обучение (Q-learning) — метод, применяемQ-обучение (Q-learning) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений.иде марковского процесса принятия решений. , Q学習(Qがくしゅう、英: Q-learning)は、機械学習分野における強化学習の一種である。 , En intelligence artificielle, plus préciséEn intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est une technique d'apprentissage par renforcement. Cette technique ne nécessite aucun modèle initial de l'environnement. La lettre 'Q' désigne la fonction qui mesure la qualité d'une action exécutée dans un état donné du système. C'est un algorithme off-policy.u système. C'est un algorithme off-policy.
http://dbpedia.org/ontology/thumbnail http://commons.wikimedia.org/wiki/Special:FilePath/Q-Learning_Matrix_Initialized_and_After_Training.png?width=300 +
http://dbpedia.org/ontology/wikiPageExternalLink https://web.archive.org/web/20050806080008/http:/www.cs.ualberta.ca/~sutton/book/the-book.html + , http://www.research.ibm.com/infoecon/paps/html/ijcai99_qnn/node4.html + , http://www.cs.rhul.ac.uk/~chrisw/thesis.html + , http://sourceforge.net/projects/piqle/ + , https://web.archive.org/web/20081202105235/http:/www.cs.ualberta.ca/~sutton/book/ebook/node65.html + , http://portal.acm.org/citation.cfm%3Fid=1143955 + , http://ccl.northwestern.edu/netlogo/models/community/Reinforcement%20Learning%20Maze +
http://dbpedia.org/ontology/wikiPageID 1281850
http://dbpedia.org/ontology/wikiPageLength 26478
http://dbpedia.org/ontology/wikiPageRevisionID 1122657267
http://dbpedia.org/ontology/wikiPageWikiLink http://dbpedia.org/resource/Discretization + , http://dbpedia.org/resource/Function_approximation + , http://dbpedia.org/resource/Convolutional_neural_network + , http://dbpedia.org/resource/Temporal_difference_learning + , http://dbpedia.org/resource/Fuzzy_rule + , http://dbpedia.org/resource/Category:Machine_learning_algorithms + , http://dbpedia.org/resource/Deep_learning + , http://dbpedia.org/resource/Pseudocode + , http://dbpedia.org/resource/Curse_of_dimensionality + , http://dbpedia.org/resource/Markov_decision_process + , http://dbpedia.org/resource/Convolution + , http://dbpedia.org/resource/Reinforcement_learning + , http://dbpedia.org/resource/Expected_value + , http://dbpedia.org/resource/Angular_velocity + , http://dbpedia.org/resource/Probably_approximately_correct_learning + , http://dbpedia.org/resource/Model-free_%28reinforcement_learning%29 + , http://dbpedia.org/resource/Google_DeepMind + , http://dbpedia.org/resource/Bellman_equation + , http://dbpedia.org/resource/Learning_rate + , http://dbpedia.org/resource/State%E2%80%93action%E2%80%93reward%E2%80%93state%E2%80%93action + , http://dbpedia.org/resource/Intelligent_agent + , http://dbpedia.org/resource/Deterministic_system + , http://dbpedia.org/resource/Action_selection + , http://dbpedia.org/resource/File:Q-Learning_Matrix_Initialized_and_After_Training.png + , http://dbpedia.org/resource/Stochastic_systems + , http://dbpedia.org/resource/Chris_Watkins + , http://dbpedia.org/resource/Category:Reinforcement_learning + , http://dbpedia.org/resource/Off-policy + , http://dbpedia.org/resource/Backpropagation + , http://dbpedia.org/resource/Atari_2600 + , http://dbpedia.org/resource/Artificial_neural_network + , http://dbpedia.org/resource/Peter_Dayan + , http://dbpedia.org/resource/Game_theory + , http://dbpedia.org/resource/Prisoner%27s_dilemma +
http://dbpedia.org/property/wikiPageUsesTemplate http://dbpedia.org/resource/Template:= + , http://dbpedia.org/resource/Template:Clarify + , http://dbpedia.org/resource/Template:Main + , http://dbpedia.org/resource/Template:Mvar + , http://dbpedia.org/resource/Template:Differentiable_computing + , http://dbpedia.org/resource/Template:Short_description + , http://dbpedia.org/resource/Template:Reflist + , http://dbpedia.org/resource/Template:Tmath + , http://dbpedia.org/resource/Template:Machine_learning +
http://purl.org/dc/terms/subject http://dbpedia.org/resource/Category:Reinforcement_learning + , http://dbpedia.org/resource/Category:Machine_learning_algorithms +
http://purl.org/linguistics/gold/hypernym http://dbpedia.org/resource/Reinforcement +
http://www.w3.org/ns/prov#wasDerivedFrom http://en.wikipedia.org/wiki/Q-learning?oldid=1122657267&ns=0 +
http://xmlns.com/foaf/0.1/depiction http://commons.wikimedia.org/wiki/Special:FilePath/Q-Learning_Matrix_Initialized_and_After_Training.png +
http://xmlns.com/foaf/0.1/isPrimaryTopicOf http://en.wikipedia.org/wiki/Q-learning +
owl:sameAs http://es.dbpedia.org/resource/Q-learning + , http://dbpedia.org/resource/Q-learning + , http://sr.dbpedia.org/resource/Q-%D1%83%D1%87e%D1%9A%D0%B5 + , http://fr.dbpedia.org/resource/Q-learning + , http://rdf.freebase.com/ns/m.04pvn7 + , http://www.wikidata.org/entity/Q2664563 + , http://vi.dbpedia.org/resource/Q-learning_%28h%E1%BB%8Dc_t%C4%83ng_c%C6%B0%E1%BB%9Dng%29 + , http://de.dbpedia.org/resource/Q-Lernen + , http://uk.dbpedia.org/resource/Q-%D0%BD%D0%B0%D0%B2%D1%87%D0%B0%D0%BD%D0%BD%D1%8F + , http://ja.dbpedia.org/resource/Q%E5%AD%A6%E7%BF%92 + , http://fa.dbpedia.org/resource/%DA%A9%DB%8C%D9%88-%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C + , http://zh.dbpedia.org/resource/Q%E5%AD%A6%E4%B9%A0 + , http://ru.dbpedia.org/resource/Q-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5 + , https://global.dbpedia.org/id/2WA1K + , http://it.dbpedia.org/resource/Q-learning + , http://he.dbpedia.org/resource/Q-learning + , http://no.dbpedia.org/resource/Q-l%C3%A6ring + , http://ko.dbpedia.org/resource/Q_%EB%9F%AC%EB%8B%9D + , http://ro.dbpedia.org/resource/Q-learning +
rdf:type http://dbpedia.org/ontology/AnatomicalStructure +
rdfs:comment Q-обучение (Q-learning) — метод, применяемQ-обучение (Q-learning) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений.иде марковского процесса принятия решений. , Q-Lernen ist eine Form des temporalen Differenzlernens. Als solche ist es eine modellfreie Methode des bestärkenden Lernens. Da sie zur optimalen Wertefunktion konvergiert, ist sie eine der verbreitetsten Algorithmen. , Q-навча́ння (англ. Q-learning) — це алгориQ-навча́ння (англ. Q-learning) — це алгоритм безмодельного навчання з підкріпленням. Метою Q-навчання є навчитися стратегії, яка каже агентові, до якої дії вдаватися за яких обставин. Воно не вимагає моделі середовища (звідси уточнення «безмодельного»), і може розв'язувати задачі зі стохастичними переходами та винагородами, не вимагаючи пристосувань.а винагородами, не вимагаючи пристосувань. , Q-learning es una técnica de aprendizaje pQ-learning es una técnica de aprendizaje por refuerzo utilizada en aprendizaje automático. El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias. No requiere un modelo del entorno y puede manejar problemas con transiciones estocásticas y recompensas sin requerir adaptaciones.s y recompensas sin requerir adaptaciones. , Q-learning è uno dei più conosciuti algoriQ-learning è uno dei più conosciuti algoritmi di apprendimento per rinforzo. Fa parte della famiglia di algoritmi adottati nelle tecniche delle differenze temporali, relative ai casi di modelli a informazione incompleta. Uno dei suoi maggiori punti di rilievo consiste nell'abilità di comparare l'utilità aspettata delle azioni disponibili senza richiedere un modello dell'ambiente.senza richiedere un modello dell'ambiente. , Q学習(Qがくしゅう、英: Q-learning)は、機械学習分野における強化学習の一種である。 , Q-学习是强化学习的一种方法。Q-学习就是要記錄下学习過的策略,因而告诉智能体什么情况下采取什么行动會有最大的獎勵值。Q-学习不需要对环境进行建模,即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。 对于任何有限的馬可夫決策過程(FMDP),Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略。,在给定一个部分随机的策略和无限的探索时间,Q-学习可以给出一个最佳的动作选择策略。 「Q」这个字母在强化学习中表示一个动作的期望奖励。 , Q-learning is a model-free reinforcement lQ-learning is a model-free reinforcement learning algorithm to learn the value of an action in a particular state. It does not require a model of the environment (hence "model-free"), and it can handle problems with stochastic transitions and rewards without requiring adaptations.and rewards without requiring adaptations. , En intelligence artificielle, plus préciséEn intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est une technique d'apprentissage par renforcement. Cette technique ne nécessite aucun modèle initial de l'environnement. La lettre 'Q' désigne la fonction qui mesure la qualité d'une action exécutée dans un état donné du système. C'est un algorithme off-policy.u système. C'est un algorithme off-policy. , Q 러닝(Q-learning)은 모델 없이 학습하는 강화 학습 기법 가운데 Q 러닝(Q-learning)은 모델 없이 학습하는 강화 학습 기법 가운데 하나이다. Q 러닝은 주어진 유한 마르코프 결정 과정의 최적의 정책을 찾기 위해 사용할 수 있다. Q 러닝은 주어진 상태에서 주어진 행동을 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q 함수를 학습함으로써 최적의 정책을 학습한다. 정책이란 주어진 상태에서 어떤 행동을 수행할지 나타내는 규칙이다. Q 함수를 학습하고나면 각 상태에서 최고의 Q를 주는 행동을 수행함으로써 최적의 정책을 유도할 수 있다. Q 러닝의 장점 중 하나는 주어진 환경의 모델 없이도 수행하는 행동의 기대값을 비교할 수 있다는 점이다. 뿐만 아니라 Q 러닝은 전이가 확률적으로 일어나거나 보상이 확률적으로 주어지는 환경에서도 별다른 변형 없이 적용될 수 있다. Q 러닝은 임의의 유한 MDP에 대해서 현재 상태에서 최대의 보상을 획득하는 최적의 정책을 학습할 수 있다는 사실이 증명되어 있다.대의 보상을 획득하는 최적의 정책을 학습할 수 있다는 사실이 증명되어 있다.
rdfs:label Q学习 , Q 러닝 , Q-learning , Q-обучение , Q-навчання , Q学習 , Q-Lernen
hide properties that link here 
http://dbpedia.org/resource/John_Tsitsiklis + , http://dbpedia.org/resource/Peter_Dayan + http://dbpedia.org/ontology/knownFor
http://dbpedia.org/resource/Q_learning + , http://dbpedia.org/resource/Q-Learning + http://dbpedia.org/ontology/wikiPageRedirects
http://dbpedia.org/resource/Convolutional_neural_network + , http://dbpedia.org/resource/Rumelhart_Prize + , http://dbpedia.org/resource/State%E2%80%93action%E2%80%93reward%E2%80%93state%E2%80%93action + , http://dbpedia.org/resource/John_Tsitsiklis + , http://dbpedia.org/resource/Outline_of_machine_learning + , http://dbpedia.org/resource/Deep_reinforcement_learning + , http://dbpedia.org/resource/Machine_learning_in_video_games + , http://dbpedia.org/resource/Learning_classifier_system + , http://dbpedia.org/resource/Timeline_of_machine_learning + , http://dbpedia.org/resource/Peter_Dayan + , http://dbpedia.org/resource/Reinforcement_learning + , http://dbpedia.org/resource/Model-free_%28reinforcement_learning%29 + , http://dbpedia.org/resource/Q_learning + , http://dbpedia.org/resource/Adaptive_bitrate_streaming + , http://dbpedia.org/resource/Agent-based_computational_economics + , http://dbpedia.org/resource/Markov_decision_process + , http://dbpedia.org/resource/Mountain_car_problem + , http://dbpedia.org/resource/List_of_algorithms + , http://dbpedia.org/resource/Temporal_difference_learning + , http://dbpedia.org/resource/DeepMind + , http://dbpedia.org/resource/Cognitive_architecture + , http://dbpedia.org/resource/Q-Learning + , http://dbpedia.org/resource/Deep_Q-learning + http://dbpedia.org/ontology/wikiPageWikiLink
http://dbpedia.org/resource/Peter_Dayan + http://dbpedia.org/property/knownFor
http://en.wikipedia.org/wiki/Q-learning + http://xmlns.com/foaf/0.1/primaryTopic
http://dbpedia.org/resource/Q-learning + owl:sameAs
 

 

Enter the name of the page to start semantic browsing from.