[论文解读] Can stable and accurate neural networks be computed? - On the barriers of deep learning and Smale's 18th problem.
本文通过证明,尽管理论上存在稳定且精确的神经网络,但对于某些条件良好的科学计算问题,任何算法(确定性或随机性)都无法可靠地计算这些网络,从而解决了深度学习中的一个根本性悖论。本文提出了FIRENET,一种可证明稳定的架构,仅需O(|log(ε)|)层即可实现对反问题的ε-精度解。
Deep learning (DL) has had unprecedented success and is now entering scientific computing with full force. However, current DL methods typically suffer from instability, even when universal approximation properties guarantee the existence of stable neural networks (NNs). We address this paradox by demonstrating basic well-conditioned problems in scientific computing where one can prove the existence of NNs with great approximation qualities, however, there does not exist any algorithm, even randomised, that can train (or compute) such a NN. For any positive integers $K > 2$ and $L$, there are cases where simultaneously: (a) no randomised training algorithm can compute a NN correct to $K$ digits with probability greater than $1/2$, (b) there exists a deterministic training algorithm that computes a NN with $K-1$ correct digits, but any such (even randomised) algorithm needs arbitrarily many training data, (c) there exists a deterministic training algorithm that computes a NN with $K-2$ correct digits using no more than $L$ training samples. These results imply a classification theory describing conditions under which (stable) NNs with a given accuracy can be computed by an algorithm. We begin this theory by establishing sufficient conditions for the existence of algorithms that compute stable NNs in inverse problems. We introduce Fast Iterative REstarted NETworks (FIRENETs), which we both prove and numerically verify are stable. Moreover, we prove that only $\mathcal{O}(|\log(\epsilon)|)$ layers are needed for an $\epsilon$-accurate solution to the inverse problem.
研究动机与目标
- 解决理论上存在稳定且精确的神经网络,但在实践中无法被任何算法可靠计算的悖论。
- 建立可算法化计算给定精度下稳定神经网络的理论条件。
- 为反问题中稳定神经网络的可计算性建立分类理论。
- 设计并证明一种新型神经网络架构FIRENET在反问题中的稳定性。
- 量化保证神经网络计算中精度所需的最少训练样本数和网络深度。
提出的方法
- 证明对于任意K > 2和L,均存在某些问题,使得任何随机算法都无法以大于1/2的概率计算出正确到K位小数的神经网络。
- 表明确定性算法可计算出K−1位小数精度的神经网络,但仅在使用任意多训练样本时成立。
- 证明K−2位小数精度的神经网络可使用最多L个训练样本,通过确定性算法实现。
- 提出快速迭代重启网络(FIRENETs),一种受迭代阈值方法启发的新架构。
- 证明FIRENET可仅用O(|log(ε)|)层实现对反问题的ε-精度解。
- 结合理论分析与数值验证,确认FIRENET的稳定性和收敛性。
实验结果
研究问题
- RQ1对于某些条件良好的科学计算问题,是否存在任何算法(包括随机算法)能够计算出稳定且精确的神经网络?
- RQ2在反问题中,能够计算稳定神经网络的算法存在的充要条件是什么?
- RQ3为保证神经网络计算中的给定精度,需要多少训练样本?
- RQ4能否设计一种神经网络架构,使其深度随所需精度对数增长,以解决反问题?
- RQ5深度学习中的根本性障碍在多大程度上源于尽管理论上存在稳定网络,但其计算本身不可能?
主要发现
- 存在某些条件良好的反问题,使得对于任意K > 2,任何随机算法都无法以大于1/2的概率计算出正确到K位小数的神经网络。
- 在相同问题下,确定性算法可计算出K−1位小数精度的神经网络,但仅在使用任意多训练样本时成立。
- K−2位小数精度的神经网络可通过确定性算法使用最多L个训练样本计算,且与问题规模无关。
- FIRENET被证明是稳定的,并且仅用O(|log(ε)|)层即可实现对反问题的ε-精度解。
- 数值实验验证了FIRENET的理论稳定性与收敛性。
- 本文建立了反问题中稳定神经网络可计算性的基础分类理论。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。