wi(l)d-screen baroque

列车一定会去往下一站。那么舞台呢?我们呢?


Super Star Spectacle

列车一定会去往下一站,而舞台少女,将会前往下个舞台。


近期总结-离散情况下的SAC

之前花了点时间研究离散动作空间下的SAC算法,把学到的一些东西总结一下。。

Read more
重参数化与Gumbel-SoftmaxRead more
CQL-保守Q学习

记录一下读论文的情况喵

引入

[参数] (S,A,T,r,γ)(\mathcal{S,A},T,r,\gamma)

动作、状态空间,T(ss,a)T(\mathbf{s'|s,a})转移,r(s,a)r(\mathbf{s,a})回报,πβ(as)\pi_\beta(\mathbf{a|s})数据集行为策略,D\mathcal{D}数据集,dπβ(s)d^{\pi_\beta}(\mathbf{s})折扣边缘状态分布

D\mathcal{D}dπβ(s)πβ(as)d^{\pi_\beta}(\mathbf{s})\pi_\beta(\mathbf{a|s})中抽样

一个基本的迭代方式如下

Q^k+1argminQEs,a,sD[(r(s,a)+γEaπ^k(as)[Q^k(s,a)]Q(s,a)))2]\hat{Q}^{k+1} \leftarrow \arg \min _{Q} \mathbb{E}_{\mathbf{s}, \mathbf{a},\mathbf{s'} \sim \mathcal{D}}\left[\left(r(\mathbf{s}, \mathbf{a})+\gamma{\mathbb{E}}_{\mathbf{a}'\sim\hat\pi^k(\mathbf{a'|s'})} [\hat{Q}^{k}(\mathbf{s'}, \mathbf{a'})]-Q(\mathbf{s,a}))\right)^2 \right]\\

π^k+1argmaxπEsD,aπk((as))[Q^k+1(s,a)]\hat \pi^{k+1}\leftarrow \arg \max _{\pi} \mathbb{E}_{\mathbf{s}\sim \mathcal{D},\mathbf{a}\sim\pi^k(\mathbf(a|s))}[\hat Q^{k+1}(\mathbf{s,a})]

[问题] 对状态-动作对采样不充分导致sample error

Read more
价值学习

还是得把学的东西记下来,呃不然过段时间就忘了

价值学习

DQN

  • 动作价值函数Qπ是按照策略π下,环境s做出a动作后的收益期望。
  • 最优动作函数Q⋆是所有策略中取最优的收益期望。这个东西显然可以给动作打分
  • 折扣回报率γ是为了让策略更早获得更大的回报设置的参数,每次都让回报乘一个γ的t次方
Read more
对顶栈

对顶栈

用于维护一种光标线性移动,而且插入和删除都是发生在光标左右的数据结构

顾名思义,对顶栈就是两个栈,一个维护光标左边的内容,一个维护光标右边的内容,光标的移动就是把一边的弹出来塞到另外一边就行,添加和删除操作也很简单了,就是对栈进行相应操作就行。

Problem - 4699 (hdu.edu.cn)


c++ primer 读书笔记(1)

包含以下内容:

  • 异常
  • IO流
  • 泛型
Read more
速通形式语言与自动机

整蛊咯整蛊咯

基础知识

没啥p用

集合

集合的基数:有限集(不同元素个数),无限集(等势,双射函数?)

可数集/不可数集:和自然数一一对应

逻辑

没什么好说的

图的定义:三元组(V,E,ψ)(V,E,\psi),点集、边集、边到两个端点集合的函数

子图、真子图、生成子图:生成子图有全部点集

证明技术

整蛊

Read more
JAVA快速入门(1)

引言

为了应付大作业,特地速成一哈JVAV

省略了一堆东西

估计过几天会继续写后篇,到时候再看吧。

内容包括

  • 语法快速入门(这玩意和cpp大部分很像所以没咋写)
  • 面向对象基础
  • 杂项
  • 一些核心类
Read more