The original version of this story appeared in Quanta Magazine. If you want to solve a tricky problem, it often helps to get organized. You might, for example, break the problem into pieces and tackle ...
「ある状態の価値は、そのときの報酬 + 次の状態の価値」 で表せる、という考え方 状態の価値を「再帰的」に定義する 👉 ポイントは「未来の価値を、今の価値の式に含める」というところです。 ベルマン方程式は「状態の価値を、報酬+次の状態の ...