深度学习用到的数学主要有概率与统计、线性代数和微积分,还有少量信息论和凸优化的内容。 下面详细介绍各部分和推荐相应学习资料,推荐的课件已经下载好了,但是推荐的书籍还要自己找资源(不能公开分享盗版书籍)。
大多数深度学习模型都是概率模型,训练参数的过程就是调整概率模型参数的过程。学习和设计深度学习模型的过程中贯穿了各种统计学知识,因此概率和统计非常重要。
想快速上手可以看斯坦福大学的课件 Review of Probability Theory。系统学习推荐教材 统计学完全教程(All of statistics),作者是CMU的统计和数据科学教授,这本书主要是为计算机科学的学生而写。
深度学习的参数大多可以用矩阵表示,深度学习用到的线性代数主要是矩阵乘法和矩阵微分。
课件推荐斯坦福大学的Linear Algebra Review and Reference。教材推荐《线性代数应该这样学》,这本教材没有从行列式讲起,也没有一开始就让读者陷入繁琐的矩阵计算中,而是把线性代数的思想和概念由浅入深地慢慢呈现在读者面前。MatrixMultPractice 是矩阵计算的练习题,The Matrix Cookbook 可以当做手册和工具书用。
教材推荐James Stewart的 Calculus,Calculus Notes 是我从书上抄的笔记。不要看同济大学的 《高等代数》 了。
信息熵这个概念经常出现,跟概率密不可分,比如交叉熵、相对熵和最大熵。
看完南京大学的课件 Information Theory and Decision Tree 就够了。
这块内容不懂也没事,但是想更上一层楼一定要懂。它是研究的的最小化一个函数,比如SVM的推导。
推荐斯坦福大学的课件 Convex Optimization Overview。