今天从知乎的链接进入直播,感觉讲了不少实用的东西,适合我这种主要想将深度学习用于研究业务的机械博士僧。
阮博士的直播学习笔记
下面是很粗糙的笔记整理!
Network Structure
经验:
- 宽度为1000以内
- 金字塔形状
- 样本/参数为5–30之间
- 高瘦比矮胖形状好,层数高的话学习到的东西更多,分布式学习
- 激活函数采用非线性函数。
Activation Function
经验:
sigmoid函数在层数深的时候会陷入困境,主要用于RNN,LSTM
在FFNN中用ReLU函数代替
Tanh用于语音识别场景
Loss Function
经验:
计算True Labe与计算得到的Labe之间的差别
两种计算的loss function选择方式分类数据、序列数据
分类数据的loss function需要采用log函数放大误差,如果用square函数则误差变小
职业生涯
深度学习书籍(Yoshua Bengio):
国人翻译
原版书籍