[toc]第一章 导论强化学习就是学习做什么能使得到的数值话的收益信息最大化。试错和延时收益是强化学习的最大特征。强化学习系统有四个核心要素: 策略,收益...
对于一个DPer来说,数据的预处理是一件充满恶意的事情,正确的数据读取方式可以让程序跑得飞起,而且对于一些特殊的模型,多输入多输出的模型,则更为棘手。很多...
最近入手了nuc8i5bek,配置相当的不错,i5 8259u+8g内存+256 m2硬盘。主机加上内存和硬盘大概三千大洋。生命不息,折腾不止,一直想搞黑...
回顾上次讲到volatile这个关键字,主要作用是保证变量的可见性,通过添加内存屏障,来确保进程对变量的修改可以马上被其他进程看到。但是保证可见性并不能保...
在并发的情况下,很多在单线程下不是问题的问题都会成为致命问题,而且会出现一些奇奇怪怪的结果,如程序运行不正确,死锁,重复创建等等问题,这需要我们对并发模型...