wi(l)d-screen baroque

列车一定会去往下一站。那么舞台呢?我们呢?


Super Star Spectacle

列车一定会去往下一站,而舞台少女,将会前往下个舞台。


Git大学习

玩了玩这个: https://learngitbranching.js.org

分支:

  • git branch <branchname>创建新分支
  • git checkout <branchname>切换到新分支
  • git checkout -b <branchname>创建并切换
  • git branch -f <branchname1> <提交>让分支名1强制指向提交

合并

  • git merge <branchname>把分支合并到当前分支

  • git rebase <branchname>把当前分支分叉的地方复制到目标分支上,建议别用

树上移动:

  • git checkout <提交的哈希值>让HEAD指向某个具体的提交

  • git checkout <提交>^相对引用,引用到提交的上个节点

  • <提交>~<num>引用到上num个节点

  • HEAD,指向某个提交后,用HEAD作为当前节点名的引用

Read more
论文阅读笔记2024.4.12

A CSI Prediction Scheme for Satellite-Terrestrial Networks

本文分析了CSI随仰角改变的变化趋势。使用GRU进行时序预测,GRU性能与LSTM类似,且计算性能开销低于LSTM

问题:无附加信息的情况下预测CSI

物联网设备CSI预测问题:

  • 在无附加信息(地面设备位置和低地轨道星历表等)的情况下预测CSI

  • 对计算复杂度存在限制

  • 低地轨道的上升方和下降方的仰角和相对位置具有不同的时间相关性。低地轨道上升侧和下降侧的CSI具有不同的时间相关性

Relatedworks:

  • 基于参数的方法:
    • 参数模型[1],至少1999年就有。15年有适用于MIMO[2]。将预测问题简化为参数估计问题。然而在卫星场景参数失效快
    • 统计方法,自回归模型
  • 无参数方法:
    • LSTM,工作[3]CSI差值作为输入进行预测
    • ESN[4],开销相较于RNN更低。该工作考虑莱斯信道,不适用于NLoS
Read more
近期总结-离散情况下的SAC

之前花了点时间研究离散动作空间下的SAC算法,把学到的一些东西总结一下。。

Read more
重参数化与Gumbel-SoftmaxRead more
CQL-保守Q学习

记录一下读论文的情况喵

引入

[参数] (S,A,T,r,γ)(\mathcal{S,A},T,r,\gamma)

动作、状态空间,T(ss,a)T(\mathbf{s'|s,a})转移,r(s,a)r(\mathbf{s,a})回报,πβ(as)\pi_\beta(\mathbf{a|s})数据集行为策略,D\mathcal{D}数据集,dπβ(s)d^{\pi_\beta}(\mathbf{s})折扣边缘状态分布

D\mathcal{D}dπβ(s)πβ(as)d^{\pi_\beta}(\mathbf{s})\pi_\beta(\mathbf{a|s})中抽样

一个基本的迭代方式如下

Q^k+1argminQEs,a,sD[(r(s,a)+γEaπ^k(as)[Q^k(s,a)]Q(s,a)))2]\hat{Q}^{k+1} \leftarrow \arg \min _{Q} \mathbb{E}_{\mathbf{s}, \mathbf{a},\mathbf{s'} \sim \mathcal{D}}\left[\left(r(\mathbf{s}, \mathbf{a})+\gamma{\mathbb{E}}_{\mathbf{a}'\sim\hat\pi^k(\mathbf{a'|s'})} [\hat{Q}^{k}(\mathbf{s'}, \mathbf{a'})]-Q(\mathbf{s,a}))\right)^2 \right]\\

π^k+1argmaxπEsD,aπk((as))[Q^k+1(s,a)]\hat \pi^{k+1}\leftarrow \arg \max _{\pi} \mathbb{E}_{\mathbf{s}\sim \mathcal{D},\mathbf{a}\sim\pi^k(\mathbf(a|s))}[\hat Q^{k+1}(\mathbf{s,a})]

[问题] 对状态-动作对采样不充分导致sample error

Read more
价值学习

还是得把学的东西记下来,呃不然过段时间就忘了

价值学习

DQN

  • 动作价值函数Qπ是按照策略π下,环境s做出a动作后的收益期望。
  • 最优动作函数Q⋆是所有策略中取最优的收益期望。这个东西显然可以给动作打分
  • 折扣回报率γ是为了让策略更早获得更大的回报设置的参数,每次都让回报乘一个γ的t次方
Read more
对顶栈

对顶栈

用于维护一种光标线性移动,而且插入和删除都是发生在光标左右的数据结构

顾名思义,对顶栈就是两个栈,一个维护光标左边的内容,一个维护光标右边的内容,光标的移动就是把一边的弹出来塞到另外一边就行,添加和删除操作也很简单了,就是对栈进行相应操作就行。

Problem - 4699 (hdu.edu.cn)


c++ primer 读书笔记(1)

包含以下内容:

  • 异常
  • IO流
  • 泛型
Read more