机器学习之Q-learning

q-learning算法是一个普及的强化学习中的无监督学习的算法

它的公式为

Q(s,a)=R(s,a)+r*Max(Q(s~,a~))

具体是什么意思呢?

假如说吧,你在一个只有五个房间的密室里,密室里没有灯,你只能看到自己的房间号和选择去左面的房间还是右面的房间,在第五个房间,你会得到积分100的奖励。

那么Q-learning就是在算你在每个房间选择左或右的虚拟积分奖励,什么意思呢?

比如说,你正在写作业,你的妈妈出去了,不在家,那么,我们就要决定偷偷看电视或继续写作业。比如说,你两次都选择看电视,你妈妈回来了,看到你没写作业,就吵了你一顿,这就是一个不好的结局,那么,在第二次选择电视和作业时,你会选择作业,你得到了妈妈的奖励,从此以后,你就一直写作业,也就一直有奖励了,这就是Q-learning的机器学习,你通过教训和奖励,得到了经验,然后去选择自己认为合适的一项,这就是Q-learning算法。

发表评论

电子邮件地址不会被公开。 必填项已用*标注