Browse Wiki & Semantic Web

Http://dbpedia.org/resource/Vanishing gradient problem

	This page has no properties.

hide properties that link here

	No properties link to this page.

http://dbpedia.org/resource/Vanishing_gradient_problem

http://dbpedia.org/ontology/abstract	기울기 소멸 문제(vanishing gradient problem)는 신경망 … 기울기 소멸 문제(vanishing gradient problem)는 신경망의 활성함수의 도함수 값이 계속 곱해지다 보면 가중치에 따른 결과값의 기울기가 0이 되어 버려서, 경사 하강법을 이용할 수 없게 되는 문제이다. 문제는 경우에 따라 기울기가 너무 작아져서 가중치가 값을 바꾸는 것을 효과적으로 막게 된다는 것이다. 최악의 경우 아예 신경망의 훈련이 멈춰버릴 수 있다. ReLU처럼 활성함수를 개선하는 방법, 층을 건너뛴 연결을 하는 ResNet, 배치 정규화(batch normalization) 등의 해법이 나왔다. 오차 역전파를 통해 연구자들은 지도 심층 인공신경망을 처음부터 훈련할 수 있게 되었으나, 초기에는 거의 성공을 거두지 못했다. (Sepp Hochreiter)는 이런 실패의 이유를 1991년 공식적으로 "기울기 소멸 문제"로 확인하였다. 이는 다층 순방향 신경망뿐 아니라, 순환 신경망에도 영향을 미쳤다. 한편 기울기 소멸 문제와 반대로 기울기값이 계속 증폭될 경우 기울기 폭발 문제(exploding gradient problem)가 발생한다.기 폭발 문제(exploding gradient problem)가 발생한다. , Il problema della scomparsa del gradiente … Il problema della scomparsa del gradiente (in lingua inglese vanishing gradient problem) è un fenomeno che crea difficoltà nell'addestramento delle reti neurali profonde tramite retropropagazione dell'errore mediante discesa stocastica del gradiente. In tale metodo, ogni parametro del modello riceve a ogni iterazione un aggiornamento proporzionale alla derivata parziale della funzione di costo rispetto al parametro stesso. Una delle principali cause è la presenza di funzioni di attivazione non lineari classiche, come la tangente iperbolica o la funzione logistica, che hanno gradiente a valori nell'intervallo . Poiché nell'algoritmo di retropropagazione i gradienti ai vari livelli vengono moltiplicati tramite la regola della catena, il prodotto di numeri in decresce esponenzialmente rispetto alla profondità della rete. Quando invece il gradiente delle funzioni di attivazione può assumere valori elevati, un problema analogo che può manifestarsi è quello dell'esplosione del gradiente. La retropropagazione dell'errore permise di addestrare le reti neurali tramite apprendimento supervisionato, ma i primi tentativi ebbero limitato successo e nel 1991, nella sua tesi di laurea, Sepp Hochreiter attribuì questa difficoltà al problema da lui chiamato "scomparsa del gradiente", che affligge sia le reti neurali feed-forward profonde che quelle ricorsive, che dal punto di vista dell'apprendimento sono equivalenti a reti profonde in quanto vengono "srotolate" rispetto alla direzione temporale con un livello per ogni intervallo di tempo.n un livello per ogni intervallo di tempo. , 勾配消失問題（こうばいしょうしつもんだい、英: vanishing gradient … 勾配消失問題（こうばいしょうしつもんだい、英: vanishing gradient problem）は、機械学習において、勾配ベースの学習手法と誤差逆伝播法を利用してニューラルネットワークを学習する際に、誤差逆伝播に必要な勾配が非常に小さくなり、学習が制御できなくなる問題である。この問題を解決するために、リカレントニューラルネットワークではLSTMと呼ばれる構造が導入されたり、深層のネットワークではと呼ばれる構造が導入される。また、活性化関数の勾配が非常に大きな値をとり、発散してしまうこともある。このような問題は、勾配爆発問題（こうばいばくはつもんだい、英: exploding gradient problem）と呼ばれる。つもんだい、英: exploding gradient problem）と呼ばれる。 , En aprendizaje de máquinas, el problema de … En aprendizaje de máquinas, el problema de desvanecimiento de gradiente es una dificultad encontrada para entrenar redes neuronales artificiales mediante métodos de aprendizaje basados en descenso estocástico de gradientes y de retropropagación. En tales métodos, cada uno de los pesos de la red neuronal recibe una actualización proporcional a la derivada parcial de la función de error con respecto al peso actual en cada iteración de entrenamiento. El problema es que, en algunos casos, el gradiente se irá desvaneciendo a valores muy pequeños, impidiendo eficazmente el peso de cambiar su valor. En el caso peor, esto puede impedir que la red neuronal continúe su entrenamiento. Como ejemplo de la causa del problema, funciones de activación tradicionales como la función de la tangente hiperbólica tienen gradientes en la gama (0, 1), y la retropropagación computa gradientes por la regla de la cadena. Esto tiene el efecto de multiplicar n de estos números pequeños para computar gradientes de las "capas" de frente en una red de n capas, significando que el gradiente (señal de error) disminuye exponencialmente con n mientras las capas de frente se entrenan muy despacio. La retropropagación permitió a los investigadores entrenar redes neuronales supervisadas profundas desde un inicio con muy poco éxito. La tesis de diploma de 1991 de Hochreiter identificó formalmente la razón de este fracaso en el "problema de desvanecimiento de gradiente", lo cual no sólo afectará a las redes prealimentadas de muchas capas, sino también a las redes recurrentes. Estas últimas se entrenan por desdoblamiento en redes neuronales prealimentadas muy profundas, donde se crea una capa nueva cada vez que se da un paso en la secuencia de entrada por la red. Cuando se usan funciones de activación cuyas derivadas pueden tomar valores más grandes, uno de los riesgos es encontrar el denominado problema de gradiente explosivo.enominado problema de gradiente explosivo. , 梯度消失问题（Vanishing gradient problem）是一种机器学习中 … 梯度消失问题（Vanishing gradient problem）是一种机器学习中的难题，出現在以梯度下降法和反向传播训练人工神經網路的時候。在每次訓練的迭代中，神经网路权重的更新值与误差函数的偏導數成比例，然而在某些情况下，梯度值会几乎消失，使得权重无法得到有效更新，甚至神經網路可能完全无法继续训练。舉個例子來說明問題起因，一個传统的激勵函数如双曲正切函数，其梯度值在 (-1, 1)范围内，反向传播以链式法则来计算梯度。這樣做的效果，相当于在n層網路中，将n个這些小数字相乘來計算“前端”層的梯度，这就使梯度（误差信号）随着n呈指數遞減，导致前端層的訓練非常緩慢。反向傳播使研究人員從頭開始訓練監督式深度人工神經網路，最初收效甚微。 1991年賽普·霍克賴特（Hochreiter）的畢業論文正式確認了“梯度消失問題”失敗的原因。梯度消失問題不僅影響多層前饋網絡，還影響。循環網路是通過將前饋網路深度展開來訓練，在網路處理的輸入序列的每個時間步驟中，都會產生一個新的層。當所使用的激勵函數之導數可以取較大值時，則可能會遇到相關的梯度爆炸問題（exploding gradient problem）。能會遇到相關的梯度爆炸問題（exploding gradient problem）。 , In machine learning, the vanishing gradien … In machine learning, the vanishing gradient problem is encountered when training artificial neural networks with gradient-based learning methods and backpropagation. In such methods, during each iteration of training each of the neural network's weights receives an update proportional to the partial derivative of the error function with respect to the current weight. The problem is that in some cases, the gradient will be vanishingly small, effectively preventing the weight from changing its value. In the worst case, this may completely stop the neural network from further training. As one example of the problem cause, traditional activation functions such as the hyperbolic tangent function have gradients in the range (0,1], and backpropagation computes gradients by the chain rule. This has the effect of multiplying n of these small numbers to compute gradients of the early layers in an n-layer network, meaning that the gradient (error signal) decreases exponentially with n while the early layers train very slowly. Back-propagation allowed researchers to train supervised deep artificial neural networks from scratch, initially with little success. Hochreiter's diplom thesis of 1991 formally identified the reason for this failure in the "vanishing gradient problem", which not only affects many-layered feedforward networks, but also recurrent networks. The latter are trained by unfolding them into very deep feedforward networks, where a new layer is created for each time step of an input sequence processed by the network. (The combination of unfolding and backpropagation is termed backpropagation through time.) When activation functions are used whose derivatives can take on larger values, one risks encountering the related exploding gradient problem.ng the related exploding gradient problem. , В машинному навчанні пробле́ма зника́ння г … В машинному навчанні пробле́ма зника́ння градіє́нту (англ. vanishing gradient problem) виникає при тренуванні штучних нейронних мереж методами навчання на основі градієнту та зворотного поширення. В таких методах кожен з вагових коефіцієнтів нейронної мережі отримує уточнення пропорційно до частинної похідної функції похибки по відношенню до поточної ваги на кожній ітерації тренування. Проблема полягає в тім, що в деяких випадках градієнт буде зникомо малим, тим самим перешкоджаючи вазі змінювати своє значення. В найгіршому випадку це може повністю зупинити нейронну мережу від подальшого натреновування. Як один із прикладів причини цієї проблеми, традиційні передавальні функції, такі як гіперболічний тангенс, мають градієнти в проміжку (0, 1), а зворотне поширення обчислює градієнти за ланцюговим правилом. Це має ефект перемножування n цих малих чисел для обчислення градієнтів перших шарів в n-шаровій мережі, а це означає, що градієнт (сигнал похибки) експоненційно спадає з n, і перші шари тренуються дуже повільно. Зворотне поширення дозволило дослідникам тренувати керовані глибинні нейронні мережі з нуля, спочатку з невеликим успіхом. праця 1991 року формально ідентифікувала причину цієї невдачі в «проблемі зникання градієнту», яка впливає не лише на багатошарові мережі прямого поширення, а й на рекурентні мережі. Останні тренуються розгортанням їх у дуже глибокі мережі прямого поширення, в яких для кожного моменту часу вхідної послідовності, оброблюваної мережею, створюється новий шар. (Таке поєднання розгортання зі зворотним поширенням називають зворотним поширенням у часі.) Коли застосовують такі передавальні функції, похідні яких можуть набувати великих значень, виникає ризик зіткнутися з пов'язаною пробле́мою ви́буху градіє́нту (англ. exploding gradient problem).іє́нту (англ. exploding gradient problem).
http://dbpedia.org/ontology/thumbnail	http://commons.wikimedia.org/wiki/Special:FilePath/One-neuron_recurrent_network_bifurcation_diagram.png?width=300 +
http://dbpedia.org/ontology/wikiPageID	43502368
http://dbpedia.org/ontology/wikiPageLength	25542
http://dbpedia.org/ontology/wikiPageRevisionID	1119053971
http://dbpedia.org/ontology/wikiPageWikiLink	http://dbpedia.org/resource/Backpropagation_through_time + , http://dbpedia.org/resource/Sigmoid_function + , http://dbpedia.org/resource/Xeon + , http://dbpedia.org/resource/Lower_bound + , http://dbpedia.org/resource/Activation_function + , http://dbpedia.org/resource/Operator_norm + , http://dbpedia.org/resource/Differential_form + , http://dbpedia.org/resource/Partial_derivative + , http://dbpedia.org/resource/Restricted_Boltzmann_machine + , http://dbpedia.org/resource/General-purpose_computing_on_graphics_processing_units + , http://dbpedia.org/resource/Log_likelihood + , http://dbpedia.org/resource/Chain_rule + , http://dbpedia.org/resource/Rprop + , http://dbpedia.org/resource/Deep_belief_network + , http://dbpedia.org/resource/Diplom + , http://dbpedia.org/resource/Residual_neural_network + , http://dbpedia.org/resource/Category:Artificial_neural_networks + , http://dbpedia.org/resource/Generative_model + , http://dbpedia.org/resource/Batch_normalization + , http://dbpedia.org/resource/Latent_variable + , http://dbpedia.org/resource/Handwriting_recognition + , http://dbpedia.org/resource/Recurrent_neural_network + , http://dbpedia.org/resource/Supervised_learning + , http://dbpedia.org/resource/Rectifier_%28neural_networks%29 + , http://dbpedia.org/resource/Backpropagation + , http://dbpedia.org/resource/Hyperbolic_tangent + , http://dbpedia.org/resource/Sepp_Hochreiter + , http://dbpedia.org/resource/Genetic_algorithm + , http://dbpedia.org/resource/Spectral_radius + , http://dbpedia.org/resource/File:One-neuron_recurrent_network_bifurcation_diagram.png + , http://dbpedia.org/resource/J%C3%BCrgen_Schmidhuber + , http://dbpedia.org/resource/Neural_Abstraction_Pyramid + , http://dbpedia.org/resource/ICDAR + , http://dbpedia.org/resource/Random_guess + , http://dbpedia.org/resource/Long_short-term_memory + , http://dbpedia.org/resource/Stochastic_gradient_descent + , http://dbpedia.org/resource/Feature_detection_%28nervous_system%29 + , http://dbpedia.org/resource/Unsupervised_learning + , http://dbpedia.org/resource/Category:Machine_learning + , http://dbpedia.org/resource/ReLU + , http://dbpedia.org/resource/Feedforward_neural_network + , http://dbpedia.org/resource/Autonomous_system_%28mathematics%29 + , http://dbpedia.org/resource/Deep_learning + , http://dbpedia.org/resource/Artificial_neural_network + , http://dbpedia.org/resource/Machine_learning +
http://dbpedia.org/property/content	content
http://dbpedia.org/property/name	attractor , not quite work , let it be L , sigmoid activation function
http://dbpedia.org/property/note	Consider and , with and . Then has spectral radius , and , which might go to infinity or zero depending on choice of . , Any activation function works, as long as it is differentiable with bounded derivative. , A more general loss function could depend on the entire sequence of outputs, as for which the problem is the same, just with more complex notations. , This is because at , the two stable attractors are , and the unstable attractor is .
http://dbpedia.org/property/text	text
http://dbpedia.org/property/wikiPageUsesTemplate	http://dbpedia.org/resource/Template:Use_dmy_dates + , http://dbpedia.org/resource/Template:Short_description + , http://dbpedia.org/resource/Template:Mvar + , http://dbpedia.org/resource/Template:More_science_citations_needed + , http://dbpedia.org/resource/Template:Unreliable_sources + , http://dbpedia.org/resource/Template:Notelist + , http://dbpedia.org/resource/Template:Multiple_issues + , http://dbpedia.org/resource/Template:Main + , http://dbpedia.org/resource/Template:Machine_learning_bar + , http://dbpedia.org/resource/Template:Citation_needed + , http://dbpedia.org/resource/Template:Open-closed + , http://dbpedia.org/resource/Template:NoteTag + , http://dbpedia.org/resource/Template:NumBlk + , http://dbpedia.org/resource/Template:EquationNote + , http://dbpedia.org/resource/Template:EquationRef + , http://dbpedia.org/resource/Template:Reflist + , http://dbpedia.org/resource/Template:Toclimit +
http://purl.org/dc/terms/subject	http://dbpedia.org/resource/Category:Machine_learning + , http://dbpedia.org/resource/Category:Artificial_neural_networks +
http://purl.org/linguistics/gold/hypernym	http://dbpedia.org/resource/Difficulty +
http://www.w3.org/ns/prov#wasDerivedFrom	http://en.wikipedia.org/wiki/Vanishing_gradient_problem?oldid=1119053971&ns=0 +
http://xmlns.com/foaf/0.1/depiction	http://commons.wikimedia.org/wiki/Special:FilePath/One-neuron_recurrent_network_bifurcation_diagram.png +
http://xmlns.com/foaf/0.1/isPrimaryTopicOf	http://en.wikipedia.org/wiki/Vanishing_gradient_problem +
owl:sameAs	http://es.dbpedia.org/resource/Problema_de_desvanecimiento_de_gradiente + , http://dbpedia.org/resource/Vanishing_gradient_problem + , http://yago-knowledge.org/resource/Vanishing_gradient_problem + , http://rdf.freebase.com/ns/m.011lfk_8 + , http://www.wikidata.org/entity/Q18358230 + , http://zh.dbpedia.org/resource/%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1%E9%97%AE%E9%A2%98 + , http://uk.dbpedia.org/resource/%D0%9F%D1%80%D0%BE%D0%B1%D0%BB%D0%B5%D0%BC%D0%B0_%D0%B7%D0%BD%D0%B8%D0%BA%D0%B0%D0%BD%D0%BD%D1%8F_%D0%B3%D1%80%D0%B0%D0%B4%D1%96%D1%94%D0%BD%D1%82%D1%83 + , https://global.dbpedia.org/id/n6ZD + , http://it.dbpedia.org/resource/Problema_della_scomparsa_del_gradiente + , http://ja.dbpedia.org/resource/%E5%8B%BE%E9%85%8D%E6%B6%88%E5%A4%B1%E5%95%8F%E9%A1%8C + , http://ko.dbpedia.org/resource/%EA%B8%B0%EC%9A%B8%EA%B8%B0_%EC%86%8C%EB%A9%B8_%EB%AC%B8%EC%A0%9C +
rdf:type	http://dbpedia.org/ontology/Disease +
rdfs:comment	勾配消失問題（こうばいしょうしつもんだい、英: vanishing gradient … 勾配消失問題（こうばいしょうしつもんだい、英: vanishing gradient problem）は、機械学習において、勾配ベースの学習手法と誤差逆伝播法を利用してニューラルネットワークを学習する際に、誤差逆伝播に必要な勾配が非常に小さくなり、学習が制御できなくなる問題である。この問題を解決するために、リカレントニューラルネットワークではLSTMと呼ばれる構造が導入されたり、深層のネットワークではと呼ばれる構造が導入される。また、活性化関数の勾配が非常に大きな値をとり、発散してしまうこともある。このような問題は、勾配爆発問題（こうばいばくはつもんだい、英: exploding gradient problem）と呼ばれる。つもんだい、英: exploding gradient problem）と呼ばれる。 , В машинному навчанні пробле́ма зника́ння г … В машинному навчанні пробле́ма зника́ння градіє́нту (англ. vanishing gradient problem) виникає при тренуванні штучних нейронних мереж методами навчання на основі градієнту та зворотного поширення. В таких методах кожен з вагових коефіцієнтів нейронної мережі отримує уточнення пропорційно до частинної похідної функції похибки по відношенню до поточної ваги на кожній ітерації тренування. Проблема полягає в тім, що в деяких випадках градієнт буде зникомо малим, тим самим перешкоджаючи вазі змінювати своє значення. В найгіршому випадку це може повністю зупинити нейронну мережу від подальшого натреновування. Як один із прикладів причини цієї проблеми, традиційні передавальні функції, такі як гіперболічний тангенс, мають градієнти в проміжку (0, 1), а зворотне поширення обчислює градієнти за ланоротне поширення обчислює градієнти за лан , 기울기 소멸 문제(vanishing gradient problem)는 신경망 … 기울기 소멸 문제(vanishing gradient problem)는 신경망의 활성함수의 도함수 값이 계속 곱해지다 보면 가중치에 따른 결과값의 기울기가 0이 되어 버려서, 경사 하강법을 이용할 수 없게 되는 문제이다. 문제는 경우에 따라 기울기가 너무 작아져서 가중치가 값을 바꾸는 것을 효과적으로 막게 된다는 것이다. 최악의 경우 아예 신경망의 훈련이 멈춰버릴 수 있다. ReLU처럼 활성함수를 개선하는 방법, 층을 건너뛴 연결을 하는 ResNet, 배치 정규화(batch normalization) 등의 해법이 나왔다. 오차 역전파를 통해 연구자들은 지도 심층 인공신경망을 처음부터 훈련할 수 있게 되었으나, 초기에는 거의 성공을 거두지 못했다. (Sepp Hochreiter)는 이런 실패의 이유를 1991년 공식적으로 "기울기 소멸 문제"로 확인하였다. 이는 다층 순방향 신경망뿐 아니라, 순환 신경망에도 영향을 미쳤다. 한편 기울기 소멸 문제와 반대로 기울기값이 계속 증폭될 경우 기울기 폭발 문제(exploding gradient problem)가 발생한다.기 폭발 문제(exploding gradient problem)가 발생한다. , Il problema della scomparsa del gradiente … Il problema della scomparsa del gradiente (in lingua inglese vanishing gradient problem) è un fenomeno che crea difficoltà nell'addestramento delle reti neurali profonde tramite retropropagazione dell'errore mediante discesa stocastica del gradiente. In tale metodo, ogni parametro del modello riceve a ogni iterazione un aggiornamento proporzionale alla derivata parziale della funzione di costo rispetto al parametro stesso. Una delle principali cause è la presenza di funzioni di attivazione non lineari classiche, come la tangente iperbolica o la funzione logistica, che hanno gradiente a valori nell'intervallo . Poiché nell'algoritmo di retropropagazione i gradienti ai vari livelli vengono moltiplicati tramite la regola della catena, il prodotto di numeri in decresce esponenzialmente rispe numeri in decresce esponenzialmente rispe , In machine learning, the vanishing gradien … In machine learning, the vanishing gradient problem is encountered when training artificial neural networks with gradient-based learning methods and backpropagation. In such methods, during each iteration of training each of the neural network's weights receives an update proportional to the partial derivative of the error function with respect to the current weight. The problem is that in some cases, the gradient will be vanishingly small, effectively preventing the weight from changing its value. In the worst case, this may completely stop the neural network from further training. As one example of the problem cause, traditional activation functions such as the hyperbolic tangent function have gradients in the range (0,1], and backpropagation computes gradients by the chain rule. This haputes gradients by the chain rule. This ha , 梯度消失问题（Vanishing gradient problem）是一种机器学习中 … 梯度消失问题（Vanishing gradient problem）是一种机器学习中的难题，出現在以梯度下降法和反向传播训练人工神經網路的時候。在每次訓練的迭代中，神经网路权重的更新值与误差函数的偏導數成比例，然而在某些情况下，梯度值会几乎消失，使得权重无法得到有效更新，甚至神經網路可能完全无法继续训练。舉個例子來說明問題起因，一個传统的激勵函数如双曲正切函数，其梯度值在 (-1, 1)范围内，反向传播以链式法则来计算梯度。這樣做的效果，相当于在n層網路中，将n个這些小数字相乘來計算“前端”層的梯度，这就使梯度（误差信号）随着n呈指數遞減，导致前端層的訓練非常緩慢。反向傳播使研究人員從頭開始訓練監督式深度人工神經網路，最初收效甚微。 1991年賽普·霍克賴特（Hochreiter）的畢業論文正式確認了“梯度消失問題”失敗的原因。梯度消失問題不僅影響多層前饋網絡，還影響。循環網路是通過將前饋網路深度展開來訓練，在網路處理的輸入序列的每個時間步驟中，都會產生一個新的層。當所使用的激勵函數之導數可以取較大值時，則可能會遇到相關的梯度爆炸問題（exploding gradient problem）。能會遇到相關的梯度爆炸問題（exploding gradient problem）。 , En aprendizaje de máquinas, el problema de … En aprendizaje de máquinas, el problema de desvanecimiento de gradiente es una dificultad encontrada para entrenar redes neuronales artificiales mediante métodos de aprendizaje basados en descenso estocástico de gradientes y de retropropagación. En tales métodos, cada uno de los pesos de la red neuronal recibe una actualización proporcional a la derivada parcial de la función de error con respecto al peso actual en cada iteración de entrenamiento.actual en cada iteración de entrenamiento.
rdfs:label	Vanishing gradient problem , Problema della scomparsa del gradiente , 勾配消失問題 , Проблема зникання градієнту , 梯度消失问题 , Problema de desvanecimiento de gradiente , 기울기 소멸 문제

hide properties that link here

http://dbpedia.org/resource/Vanishing_gradient + , http://dbpedia.org/resource/Exploding_gradient_problem +	http://dbpedia.org/ontology/wikiPageRedirects
http://dbpedia.org/resource/Types_of_artificial_neural_networks + , http://dbpedia.org/resource/Sepp_Hochreiter + , http://dbpedia.org/resource/Generative_adversarial_network + , http://dbpedia.org/resource/History_of_artificial_intelligence + , http://dbpedia.org/resource/Deep_learning + , http://dbpedia.org/resource/Recurrent_neural_network + , http://dbpedia.org/resource/Residual_neural_network + , http://dbpedia.org/resource/History_of_artificial_neural_networks + , http://dbpedia.org/resource/Wasserstein_metric + , http://dbpedia.org/resource/Transformer_%28machine_learning_model%29 + , http://dbpedia.org/resource/Multilayer_perceptron + , http://dbpedia.org/resource/GPT-2 + , http://dbpedia.org/resource/Rectifier_%28neural_networks%29 + , http://dbpedia.org/resource/Paraphrasing_%28computational_linguistics%29 + , http://dbpedia.org/resource/Artificial_neural_network + , http://dbpedia.org/resource/Feedforward_neural_network + , http://dbpedia.org/resource/Speech_recognition + , http://dbpedia.org/resource/Graph_neural_network + , http://dbpedia.org/resource/Batch_normalization + , http://dbpedia.org/resource/Machine_learning_in_video_games + , http://dbpedia.org/resource/Highway_network + , http://dbpedia.org/resource/Vanishing_gradient + , http://dbpedia.org/resource/Exploding_gradient_problem + , http://dbpedia.org/resource/Artificial_intelligence + , http://dbpedia.org/resource/Long_short-term_memory + , http://dbpedia.org/resource/Swish_function +	http://dbpedia.org/ontology/wikiPageWikiLink
http://en.wikipedia.org/wiki/Vanishing_gradient_problem +	http://xmlns.com/foaf/0.1/primaryTopic
http://dbpedia.org/resource/Vanishing_gradient_problem +	owl:sameAs

Browse Wiki & Semantic Web

Navigation menu

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

Tools