列车一定会去往下一站。那么舞台呢?我们呢?
还是得把学的东西记下来,呃不然过段时间就忘了
- 动作价值函数Qπ是按照策略π下,环境s做出a动作后的收益期望。
- 最优动作函数Q⋆是所有策略中取最优的收益期望。这个东西显然可以给动作打分。
- 折扣回报率γ是为了让策略更早获得更大的回报设置的参数,每次都让回报乘一个γ的t次方
用于维护一种光标线性移动,而且插入和删除都是发生在光标左右的数据结构
顾名思义,对顶栈就是两个栈,一个维护光标左边的内容,一个维护光标右边的内容,光标的移动就是把一边的弹出来塞到另外一边就行,添加和删除操作也很简单了,就是对栈进行相应操作就行。
整蛊咯整蛊咯
没啥p用
集合的基数:有限集(不同元素个数),无限集(等势,双射函数?)
可数集/不可数集:和自然数一一对应
没什么好说的
图的定义:三元组,点集、边集、边到两个端点集合的函数
子图、真子图、生成子图:生成子图有全部点集
略
整蛊
摆了,但是没有完全摆
CF103495H
给定长1e5的字符串,你可以翻转其中一段连续子段,问能产生的字典序最小的字符串是啥
据说可以用SA写,我是没啥思路,题解是hash,就这样补了