整理了一些深度学习的理论相关内容,持续更新。
-
Recent advances in deep learning theory 总结了目前深度学习理论研究的六个方向的一些结果,概述型,没做深入探讨(2021)。
-
1.1 complexity and capacity-basedapproaches for analyzing the generalizability of deep learning;
-
1.2 stochastic differential equations andtheir dynamic systems for modelling stochastic gradient descent and its variants, which characterizethe optimization and generalization of deep learning, partially inspired by Bayesian inference;
-
1.3 thegeometrical structures of the loss landscape that drives the trajectories of the dynamic systems;
-
1.4 theroles of over-parameterization of deep neural networks from both positive and negative perspectives;
-
1.5 theoretical foundations of several special structures in network architectures;
-
1.6 the increasinglyintensive concerns in ethics and security and their relationships with generalizability
-
-
Theory of Deep LearningTTIC,西北大学等组织的一系列课程和讲座,基础课程涉及DL的基础(符号化,简化后的数学问题和结论),信息论和学习,统计和计算,信息论,统计学习和强化学习(2020)。
-
MathsDL-spring19,MathDL系列,18,19,20年均有。
-
3.1 Geometry of Data
- Euclidean Geometry: transportation metrics, CNNs , scattering.
- Non-Euclidean Geometry: Graph Neural Networks.
- Unsupervised Learning under Geometric Priors (Implicit vs explicit models, microcanonical, transportation metrics).
- Applications and Open Problems: adversarial examples, graph inference, inverse problems.
-
3.2 Geometry of Optimization and Generalization
- Stochastic Optimization (Robbins & Munro, Convergence of SGD)
- Stochastic Differential Equations (Fokker-Plank, Gradient Flow, Langevin + + Dynamics, links with SGD; open problems) Dynamics of Neural Network Optimization (Mean Field Models using Optimal Transport, Kernel Methods)
- Landscape of Deep Learning Optimization (Tensor/Matrix factorization, Deep Nets; open problems).
- Generalization in Deep Learning.
-
3.3 Open qustions on Reinforcement Learning
-
-
IFT 6169: Theoretical principles for deep learning(2022 Winter),大多内容较为基础,传统。
- 4.1 拟定课题
- Generalization: theoretical analysis and practical bounds
- Information theory and its applications in ML (information bottleneck, lower bounds etc.)
- Generative models beyond the pretty pictures: a tool for traversing the data manifold, projections, completion, substitutions etc.
- Taming adversarial objectives: Wasserstein GANs, regularization approaches and + controlling the dynamics
- The expressive power of deep networks (deep information propagation, mean-field analysis of random networks etc.)
- 4.1 拟定课题
- Partial Differential Equations is All You Need for Generating Neural Architectures -- A Theory for Physical Artificial Intelligence Systems 将统计物理的反应扩散方程,量子力学中的薛定谔方程,傍轴光学中的亥姆霍兹方程统一整合到神经网络偏微分方程中(NPDE),利用有限元方法找到数值解,从离散过程中,构造了多层感知,卷积网络,和循环网络,并提供了优化方法L-BFGS等,主要是建立了经典物理模型和经典神经网络的联系(2021)。
- NN Approximation Theory
- 6.0 Universal approximation theoremNN逼近从这里开始(1991)
- 6.1 Cybenko’s Theorem and the capabilityof a neural networkas function approximator一二维shallow神经网络的可视化证明(2019)
- 6.2 Depth Separation for Neural Networks 三层神经网络的表示能力比两层有优越性的简化证明 (2017)
- 6.3 赵拓等三篇(2019)
- 6.4 Neural Networks with Small Weights and Depth-Separation Barriers Gal Vardi等证明了对某些类型的神经网络, 用k层的多项式规模网络需要任意weight, 但用3k+3层的多项式规模网络只需要多项式大小的 weight(2020)。
- 6.5 Universality of Deep Convolutional Neural Networks卷积网络的通用逼近能力,及其核心要素,Ding-Xuan Zhou(2018),20年发表。
-
SGD
-
offconvex几个学术工作者维护的AI博客。
- 8.1 beyondNTK 什么时候NN强于NTK?
- 8.2 instahide 如何在不泄露数据的情况下优化模型?
- 8.3 implicit regularization in DL explained by norms?
- Optima transmission
- 9.1 深度学习的几何学解释(2020)
-
Theory of Deep Learning(draft)Rong Ge 等(2019)。
-
Spectral Learning on Matrices and TensorsMajid Janzamin等(2020)
-
Deep Learning Architectures A Mathematical Approach(2020),你可以libgen获取,内容如其名字,大概包含:工业问题,DL基础(激活,结构,优化等),函数逼近,万有逼近,RELU等逼近新研究,函数表示,以及两大方向,信息角度,几何角度等相关知识,实际场景中的卷积,池化,循环,生成,随机网络等具体实用内容的数学化,另外附录集合论,测度论,概率论,泛函,实分析等基础知识。
-
The Principles of Deep Learning Theory(2021)Daniel A. Roberts and Sho Yaida(mit),Beginning from a first-principles component-level picture of networks,本书解释了如何通过求解层到层迭代方程和非线性学习动力学来确定训练网络输出的准确描述。一个主要的结果是网络的预测是由近高斯分布描述的,网络的深度与宽度的纵横比控制着与无限宽度高斯描述的偏差。本书解释了这些有效深度网络如何从训练中学习非平凡的表示,并更广泛地分析非线性模型的表示学习机制。从近内核方法的角度来看,发现这些模型的预测对底层学习算法的依赖可以用一种简单而通用的方式来表达。为了获得这些结果,作者开发了表示组流(RG 流)的概念来表征信号通过网络的传播。通过将网络调整到临界状态,他们为梯度爆炸和消失问题提供了一个实用的解决方案。作者进一步解释了 RG 流如何导致近乎普遍的行为,从而可以将由不同激活函数构建的网络做类别划分。Altogether, they show that the depth-to-width ratio governs the effective model complexity of the ensemble of trained networks。利用信息理论,作者估计了模型性能最好的最佳深宽比,并证明了残差连接能将深度推向任意深度。利用以上理论工具,就可以更加细致的研究架构的归纳偏差,超参数,优化。原作者的视频说明(2021.12.1)
-
Physics-based Deep Learning(2021)N. Thuerey, P. Holl,etc.github resources深度学习与物理学的联系。比如基于物理的损失函数,可微流体模拟,逆问题的求解,Navier-Stokes方程的前向模拟,Controlling Burgers’ Equation和强化学习的关系等。
- Foundations of Deep Learning(2019),西蒙研究中心会议。
- Deep Learning Theory 4(2021, ICML)Claire Monteleoni主持...,深度学习理论会议4,包含论文和视频。
- Deep Learning Theory 5 (2021,ICML)MaYi主持...,深度学习理论会议5,包含论文和视频。
- Robust Learning with Jacobian Regularization(2019)Judy Hoffman...,
- Predicting Generalization using GANs(2022.6),用GAN来评估泛化性.
- Implicit Regularization in Tensor Factorization: Can Tensor Rank Shed Light on Generalization in Deep Learning?(2021.7)Tensor Rank 能否揭示深度学习中的泛化?
- 如何通过Meta Learning实现域泛化Domain Generalization(2022.4),Domain Generalization CVPR2022博文参考.
- Theoretical issues in deep networks 表明指数型损失函数中存在隐式的正则化,其优化的结果和一般损失函数优化结果一致,优化收敛结果和梯度流的迹有关,目前还不能证明哪个结果最优(2020)。
- The Dawning of a New Erain Applied MathematicsWeinan E关于在DL的新处境下结合历史的工作范式给出的指导性总结(2021)。
- Mathematics of deep learning from Newton Institute。
- DEEP NETWORKS FROM THE PRINCIPLE OF RATE REDUCTION,白盒神经网络。
- redunet_paper白盒神经网络代码。
- Theory of Deep Convolutional Neural Networks:Downsampling下采样的数学分析Ding-Xuan Zhou(2020)
- Theory of deep convolutional neural networks II: Spherical analysis还有III:radial functions 逼近,(2020)。不过这些工作到底如何,只是用数学转换了一下,理论上没做过多贡献,或者和实际结合没难么紧密,还不得而知。
- The Modern Mathematics of Deep Learning(2021)主要是deep laerning的数学分析描述,涉及的问题包括:超参数网络的通用能力,深度在深度模型中的核心作用,深度学习对维度灾难的克服,优化在非凸优化问题的成功,学习的表示特征的数学分析,为何深度模型在物理问题上有超常表现,模型架构中的哪些因素以何种方式影响不同任务的学习中的不同方面。
- Topos and Stacks of Deep Neural Networks(2021)每一个已知的深度神经网络(DNN)对应于一个典型的 Grothendieck 的 topos 中的一个对象; 它的学习动态对应于这个 topos 中的一个态射流。层中的不变性结构(如 CNNs 或 LSTMs)与Giraud's stacks相对应。这种不变性被认为是泛化性质的原因,即从约束条件下的学习数据进行推断。纤维代表前语义类别(Culioli,Thom) ,其上人工语言的定义,内部逻辑,直觉主义,经典或线性(Girard)。网络的语义功能是用这种语言表达理论的能力,用于回答输入数据输出中的问题。语义信息的量和空间的定义与香农熵的同源解释相类似。他们推广了 Carnap 和 Bar-Hillel (1952)所发现的度量。令人惊讶的是,上述语义结构被分类为几何纤维对象在一个封闭的Quillen模型范畴,然后他们引起同时局部不变的 dnn 和他们的语义功能。Intentional type theories (Martin-Loef)组织这些对象和它们之间的纤维化。信息内容和交换由 Grothendieck's derivators分析。
- Visualizing the Emergence of Intermediate Visual Patterns in DNNs(2021,NIPS)文章设计了一种神经网络中层特征的可视化方法,使得能 (1)更直观地分析神经网络中层特征的表达能力,并且展示中层特征表达能力的时空涌现; (2)量化神经网络中层知识点,从而定量地分析神经网络中层特征的质量; (3)为一些深度学习技术(如对抗攻击、知识蒸馏)提供新见解。
- 神经网络的博弈交互解释性(知乎)。上交大张拳石团队研究论文整理而得,作为博弈交互解释性的体系框架(不怎么稳固)。
- Advancing mathematics by guiding human intuition with AI(2021,nature)机器学习和数学家工作的一个有机结合,主要利用机器学习分析众多特征和目标变量的主要相关因子,加强数学家的直觉,该论文得到了两个漂亮的定理,一个拓扑,一个表示论。可参考回答。
- 🔥A New Perspective of Entropy(2022) 通过莱布尼兹微分法则(Leibniz rule)将信息熵,抽象代数,拓扑学联系起来。该文章是一个零基础可阅读的综述,具体参考Entropy as a Topological Operad Derivation (2021.7,Tai-Danae Bradley.)
- minerva(2022)google提出的解题模型,在公共高等数学等考试中比人类平均分高.测试地址.
- 🔥An automatic theorem proving project菲尔兹获得者数学家高尔斯关于自动证明数学定理的项目进展How can it be feasible to find proofs?(2022, W.T. Gowers).
- GRAND: Graph Neural Diffusion (2021)该网站包含了一些相似论文资料,项目地址graph-neural-pde,其优化版本 GRAND++.(2022).有博文介绍图神经网络的困境,用微分几何和代数拓扑解决仅供参考.
- Weinan È-A Mathematical Perspective on Machine Learning(2022.icm),room1最后一排,鄂维南在icm的演讲视频.
DeepModeling鄂维南等组织,一种新的研究范式,将DL建模渗透到科研中,这里会开源很多对新或旧问题的DL建模方案.其github地址.空了看情况解析某些工作.
The Future of Mathematics? (2019) Kevin Buzzard就lean的一场讲座,评论区有对应讲义资料。
数学形式主义的兴起(2022.7)Kevin Buzzard教授在2022本届国际数学家大会一小时报告演讲中提供了一些信息和思考见解。讲述了数学形式主义与人工智能、机器学习和开源社区的共同努力,用计算机做奥数题、检查数学证明过程是否有误、甚至自动发现和形式化证明数学定理,在理论和实践中又会碰撞出什么火花,又会如何囿于哥德尔不完全定理。其开源系统mathlib使用lean语言?实现了超过80000个定理的证明,近百万行代码,涉及代数、分析、范畴论、组合数学、几何、数论、拓扑学等形式化。做了很多较高级别的证明工作,2020.12的液体张量实验,2021年Baanen、Dahmen、Narayanan 和 Nuccio 在Lean中形式化了戴德金Dedekind域和相应类群。他们还形式化了整体域的类群是有限的这一证明。2022 年:de Frutos Fernández 在Lean中形式化了整体域上的adeles和ideles。她证明了idele类群与ideal理想类群之间的关系。有很多,参考前文。其项目文档社区leanprover-community。