书名:受益终身的思考模型(套装8册)(简单、持久、有效、让人终身受益的思考模型,解释复杂人类人性和行为的极简思维工具,精准解决学习工作生活的所有难题)
作者:罗伯特·西奥迪尼 & B.J.福格 & 丹尼尔·丹尼特 & 侯世达 & 桑德尔 & 塞缪尔·阿贝斯曼 & 斯科特·佩奇 & 丹尼尔·韦格纳 & 库尔特·格雷 & 本杰明·伯根
格式:EPUB
路径:点击打开
出版:天津科学技术出版社
作者分类:罗伯特·西奥迪尼 & B.J.福格 & 丹尼尔·丹尼特 & 侯世达 & 桑德尔 & 塞缪尔·阿贝斯曼 & 斯科特·佩奇 & 丹尼尔·韦格纳 & 库尔特·格雷 & 本杰明·伯根
Title sort:受益终身的思考模型(套装8册)(简单、持久、有效、让人终身受益的思考模型,解释复杂人类人性和行为的极简思维工具,精准解决学习工作生活的所有难题)
日期:22 4月 2022
uuid:cf1bb012-e7a5-4b9f-bf5b-7a3f0343dcad
id:574
出版日期:12月 2021
修改日期:22 4月 2022
大小:39.91MB
语言:中文
马尔可夫决策模型的解决方案由每个状态下采取的行动构成。之前讨论过的短视最优反应行为,在每个状态下都选择能够最大化奖励的行为。在现在这个例子中,这种选择对应于无聊时上网、精神充实时学习。
但是,这种短视的解决方案会导致学生陷入无聊状态。一旦发生了这种情况,他们就会选择上网,并在所有剩余时间内一直保持无聊状态。因此,他们的长期平均回报等于6。而总是选择学习的解决方案则会在他们75%的时间里处于充实状态,只在25%的时间里处于无聊状态,从而得到的长期平均回报为7。这个解决方案产生了更高的平均回报,因为他们更多地处于充实的精神状态。
正如这个例子所表明的,将一个决策问题表达为一个马尔可夫决策模型,可以告诉我们更好的行动是什么。通过考虑行动对状态的影响,我们会做出更明智的选择。晚睡与早起和锻炼相比,会产生一个更高的直接回报,购买昂贵的咖啡比自己动手制作咖啡产生更高的回报。然而,从长远来看,我们可能会更乐于坚持锻炼和节省咖啡钱。那么,我们需要一个模型吗?不一定。相反,我们也许只需要时时记起《圣经·箴言》21:17就可以了:“爱宴乐的,必致穷乏;好酒爱膏油的,必不富足。”这可能是对的;但是我们同时可能记得《圣经·传道书》8:15所说的:“我颂赞喜乐,因为世人在天日之下再好不过的,就是吃喝欢乐。”是的,我们总能找到一对相反的谚语。通过将我们的选择嵌入马尔可夫决策模型中,可以使用逻辑来确定在给定的情境下,哪些常识性的建议真的有用。