Catalogue en ligne Bibliothèque de l'Ecole Nationale Polytechnique

Les Inscriptions et les Réinscriptions à la Bibliothèque sont Ouvertes du 24/09/2024 au 30/11/2024

Nouvelle recherche Modifier la recherche Historique

Nos Abonnements

Ressources Électroniques

Détail de l'auteur

Auteur Zhao, Qianchuan

Documents disponibles écrits par cet auteur (1)

Ajouter le résultat dans votre panier Faire une suggestion Affiner la recherche

Incremental value iteration for time-aggregated markov-decision processes / Sun, Tao in IEEE transactions on automatic control, Vol. 52 N°11 (Novembre 2007)

Public

ISBD

[article]
inIEEE transactions on automatic control > Vol. 52 N°11 (Novembre 2007) . - 2177-2182 p.
Titre : Incremental value iteration for time-aggregated markov-decision processes
Titre original : Itération par accroissement de valeur pour des procédés temps-agrégés de markovien-décision
Type de document : texte imprimé
Auteurs : Sun, Tao, Auteur ; Zhao, Qianchuan, Auteur ; Luh, Peter B., Auteur
Année de publication : 2008
Article en page(s) : 2177-2182 p.
Note générale : Automatique
Langues : Anglais (eng)
Mots-clés : Fractional cost Markov-decision processes (MDPs) Policy iteration Time aggregation Value Coût partiel Processus de décision Markov Agrégation temps Itération valeur
Index. décimale : 629.8
Résumé : A value iteration algorithm for time-aggregated Markov-decision processes (MDPs) is developed to solve problems with large state spaces. The algorithm is based on a novel approach which solves a time aggregated MDP by incrementally solving a set of standard MDPs. Therefore, the algorithm converges under the same assumption as standard value iteration. Such assumption is much weaker than that required by the existing time aggregated value iteration algorithm. The algorithms developed in this paper are also applicable to MDPs with fractional costs.

Un algorithme d'itération de valeur pour des procédés temps-agrégés de Markovien-décision (MDPs) est développé pour résoudre des problèmes avec les grands espaces d'état. L'algorithme est basé sur une approche originale qui résout un MDP agrégé par temps en résolvant incrémentalement un ensemble de MDPs standard. Par conséquent, l'algorithme converge dans la même prétention que l'itération standard de valeur. Une telle prétention est beaucoup plus faible que cela exigée par l'algorithme d'itération de valeur agrégé par temps existant. Les algorithmes se sont développés en ce document s'appliquent également à MDPs avec des coûts partiels.
DEWEY : 629.8
ISSN : 0018-9286
RAMEAU : Markov, Processus de
En ligne : santao99@mails.tsinghua.edu.cn, zhaoqc@tsinghua.edu.cn, Peter.Luh@uconn.edu

[article] Incremental value iteration for time-aggregated markov-decision processes = Itération par accroissement de valeur pour des procédés temps-agrégés de markovien-décision [texte imprimé] / Sun, Tao, Auteur ; Zhao, Qianchuan, Auteur ; Luh, Peter B., Auteur . - 2008 . - 2177-2182 p.
Automatique
Langues : Anglais (eng)
in IEEE transactions on automatic control > Vol. 52 N°11 (Novembre 2007) . - 2177-2182 p.
Mots-clés : Fractional cost Markov-decision processes (MDPs) Policy iteration Time aggregation Value Coût partiel Processus de décision Markov Agrégation temps Itération valeur
Index. décimale : 629.8
Résumé : A value iteration algorithm for time-aggregated Markov-decision processes (MDPs) is developed to solve problems with large state spaces. The algorithm is based on a novel approach which solves a time aggregated MDP by incrementally solving a set of standard MDPs. Therefore, the algorithm converges under the same assumption as standard value iteration. Such assumption is much weaker than that required by the existing time aggregated value iteration algorithm. The algorithms developed in this paper are also applicable to MDPs with fractional costs.

Un algorithme d'itération de valeur pour des procédés temps-agrégés de Markovien-décision (MDPs) est développé pour résoudre des problèmes avec les grands espaces d'état. L'algorithme est basé sur une approche originale qui résout un MDP agrégé par temps en résolvant incrémentalement un ensemble de MDPs standard. Par conséquent, l'algorithme converge dans la même prétention que l'itération standard de valeur. Une telle prétention est beaucoup plus faible que cela exigée par l'algorithme d'itération de valeur agrégé par temps existant. Les algorithmes se sont développés en ce document s'appliquent également à MDPs avec des coûts partiels.
DEWEY : 629.8
ISSN : 0018-9286
RAMEAU : Markov, Processus de
En ligne : santao99@mails.tsinghua.edu.cn, zhaoqc@tsinghua.edu.cn, Peter.Luh@uconn.edu

Exemplaires

Code-barres Cote Support Localisation Section Disponibilité
aucun exemplaire

Les Inscriptions et les Réinscriptions à la Bibliothèque sont Ouvertes du 24/09/2024 au 30/11/2024

Nos Abonnements

Ressources Électroniques

Détail de l'auteur

Auteur Zhao, Qianchuan

Documents disponibles écrits par cet auteur (1)

Exemplaires

Bibliothèque de l'Ecole Nationale Polytechnique

Accueil

Sélection de la langue

Se connecter

Adresse

Météo