从流形的观点分析神经网络

从流形的观点分析神经网络

无意中看到一本用数学分析神经网络的书,里面用各种数学工具来分析神经网络(如数学分析、线性代数、流形、信息论、概率论、优化等),书的信息如下:

Ovidiu Calin, Deep Learning Architectures - A Mathematical Approach, Springer, 2020.

我看了用流形解释神经网络那一章的前面几页,觉得写的还不错,记录一下。
考虑一个神经元,输入是 x ∈ R n \textbf{x}\in \mathbb{R}^n xRn,输出是 y = σ ( w T x + b ) ∈ R y=\sigma(w^T\textbf{x}+b )\in \mathbb{R} y=σ(wTx+b)R。不妨取 σ \sigma σ 是 logistic function。则集合
S = { σ ( w T x + b ) ; w ∈ R n , b ∈ R } S=\{\sigma(w^T\textbf{x}+b );w\in\mathbb{R}^n,b\in \mathbb{R} \} S={σ(wTx+b);wRn,bR}
是一个 n + 1 n+1 n+1 维的流形。它可以看成是 R n \mathbb{R}^n Rn上全体连续函数空间(其维数是无穷维)的一个子流形。事实上,计算得
∂ y ∂ b = σ ′ ( w T x + b ) = y ( 1 − y ) ∂ y ∂ w j = σ ′ ( w T x + b ) x j = y ( 1 − y ) x j \frac{\partial{y}}{\partial{b}}=\sigma'(w^T\textbf{x}+b )=y(1-y) \\ \frac{\partial{y}}{\partial{w_j}}=\sigma'(w^T\textbf{x}+b )x_j=y(1-y)x_j by=σ(wTx+b)=y(1y)wjy=σ(wTx+b)xj=y(1y)xj
我们说明 { ∂ y ∂ b , ∂ y ∂ w j } \{\frac{\partial{y}}{\partial{b}},\frac{\partial{y}}{\partial{w_j}}\} {by,wjy}线性无关。若 α 0 ∂ y ∂ b + ∑ i = 1 n α i ∂ y ∂ w i = 0 \alpha_0\frac{\partial{y}}{\partial{b}}+\sum_{i=1}^{n}\alpha_i\frac{\partial{y}}{\partial{w_i}}=0 α0by+i=1nαiwiy=0,则代入得 α 0 y ( 1 − y ) + ∑ i = 1 n α i y ( 1 − y ) x j = 0 \alpha_0y(1-y) +\sum_{i=1}^{n}\alpha_iy(1-y) x_j=0 α0y(1y)+i=1nαiy(1y)xj=0,由 y ( 1 − y ) ≠ 0 y(1-y)\neq0 y(1y)=0 知道 α 0 + ∑ i = 1 n α i x j = 0 \alpha_0 +\sum_{i=1}^{n}\alpha_i x_j=0 α0+i=1nαixj=0。再由 x j x_j xj任意性即得结论。从而Jacobian矩阵 J y J_y Jy满秩(为 n + 1 n+1 n+1)。
接下来,训练神经网络的过程实际上是拟合一个函数 z = z ( x ) z=z(\textbf{x}) z=z(x)。如果 z z z在流形 S S S上,那么存在 w ∗ ∈ R n , b ∗ ∈ R w^*\in\mathbb{R}^n,b^*\in \mathbb{R} wRn,bR使得 z = y ∗ = y ( w ∗ , b ∗ ) z=y^*=y(w^*,b^*) z=y=y(w,b)。然而,更一般的情况是 z ∉ S z\notin S z/S,这意味着需要找 w ∗ ∈ R n , b ∗ ∈ R w^*\in\mathbb{R}^n,b^*\in \mathbb{R} wRn,bR使得
( w ∗ , b ∗ ) = a r g m i n w , b d i s t ( z , S ) (w^*,b^*)=\mathop{argmin}\limits_{w,b} dist(z,S) (w,b)=w,bargmindist(z,S)
给定初值 ( w 0 , b 0 ) (w_0,b_0) (w0,b0),一个学习算法会产生一个序列 ( w n , b n ) n (w_n,b_n)_n (wn,bn)n,期望它收敛到 ( w ∗ , b ∗ ) (w^*,b^*) (w,b)。按作者原话:If the parameters update is made continuously (implied by an infinitesimal learning rate), then we obtain a curve c ( t ) = ( w ( t ) , b ( t ) ) c(t) = (w(t),b(t)) c(t)=(w(t),b(t)) joining ( w 0 , b 0 ) (w_0,b_0) (w0,b0) and ( w ∗ , b ∗ ) (w^*,b^*) (w,b). This can be lifted to the curve γ ( t ) = y ∘ c ( t ) γ(t) = y \circ c(t) γ(t)=yc(t) on the manifold S S S. The fastest learning algorithm corresponds to the “shortest” curve between y ( w 0 , b 0 ) y(w_0,b_0) y(w0,b0) and y ( w ∗ , b ∗ ) y(w^*,b^*) y(w,b). The attribute “shortest” depends on the intrinsic geometry of the manifold S S S, and this topic will be discussed in the next section. 这样这个优化问题就可以和后面的黎曼度量、测地线等概念建立关联了。
对一般的神经网络,如果我们增大神经元的个数,则对应的参数也相应增多, S S S的维数也增加。记 M = C ( [ 0 , 1 ] ) M=C([0,1]) M=C([0,1]),我们知道对于任意固定的 ϵ > 0 \epsilon>0 ϵ>0,以及任意的 f ∈ M f\in M fM,总有一个足够高维数的 S S S使得 d i s t ( f , S ) < ϵ dist(f,S)<\epsilon dist(f,S)<ϵ,其中
d i s t ( f , S ) = i n f s ∈ S m a x x ∈ [ 0 , 1 ] ∣ f ( x ) − s ( x ) ∣ dist(f,S)=\mathop{inf}\limits_{s\in S}\mathop{max}\limits_{x\in [0,1]}|f(x)-s(x)| dist(f,S)=sSinfx[0,1]maxf(x)s(x)
然而实际问题中神经元个数是受限的,如何处理也是作者讨论的话题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/574644.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

软考-论文写作-论架构风格论文

题目 素材 框架 一、 摘要 2020年12月,我参加了某省政协委员履职系统的开发。该系统为政协机关人员线上开展各项工作以及委员完成各项履职提供了全方位的软件支撑。我在该项目重担任系统架构师一职,负责履职系统的架构设计。本文结合实践,以委员履职系统为例,主要讨论软件…

使用FunASR处理语音识别

FunASR是阿里的一个语音识别工具&#xff0c;比SpeechRecognition功能多安装也很简单&#xff1b; 官方介绍&#xff1a;FunASR是一个基础语音识别工具包&#xff0c;提供多种功能&#xff0c;包括语音识别&#xff08;ASR&#xff09;、语音端点检测&#xff08;VAD&#xff…

verilog中比较器的代码用法

在 verilog 中以大于“>”&#xff0c;等于””&#xff0c;小于”<”&#xff0c;大于等于”>”&#xff0c;小于等于”<”&#xff0c;不等于”!”表示&#xff0c;以大于举例&#xff0c;如 c a > b ;表示如果 a 大于 b&#xff0c;那么 c 的值就为 1&#x…

网盘——文件重命名

文件重命名具体步骤如下&#xff1a; 目录 1、具体步骤 2、代码实现 2.1、添加重命名文件的槽函数 2.2、关联重命名文件夹信号槽 2.3、添加重命名文件的协议 2.4、添加槽函数定义 2.5、服务器 2.6、添加重命名文件的case 2.7、客户端接收回复 3、测试 3.1、点击重命…

【AIGC调研系列】Bunny-Llama-3-8B-V与其他多模态大模型相比的优劣

Bunny-Llama-3-8B-V作为基于Llama-3的多模态大模型&#xff0c;其优势主要体现在以下几个方面&#xff1a; 性能超越其他模型&#xff1a;根据我搜索到的资料&#xff0c;Bunny-Llama-3-8B-V在多个主流Benchmark上表现良好&#xff0c;超越了LLaVA-7B、LLaVA-13B、Mini-Gemini…

汽车企业安全上网解决方案

需求背景 成立于1866年的某老牌汽车服务独立运营商&#xff0c;目前已经是全球最大的独立汽车服务网络之一&#xff0c;拥有95年的历史&#xff0c;在全球150多个国家拥有17,000多个维修站&#xff0c;始终致力于为每一位车主提供高品质&#xff0c;可信赖的的专业汽车保养和维…

智慧文旅:引领旅游产业智慧升级的创新模式

一、智慧文旅是什么&#xff1f; 智慧文旅是指以当地特色文化为核心&#xff0c;借助现代科技手段&#xff0c;实现旅游景区全面智慧升级的旅游模式。在智慧文旅中&#xff0c;新一代信息网络技术和装备得到充分运用&#xff0c;文化旅游基础设施得到新建和改善&#xff0c;特…

OpenCV鼠标绘制线段

鼠标绘制线段 // 鼠标回调函数 void draw_circle(int event, int x, int y, int flags, void* param) {cv::Mat* img (cv::Mat*)param;if (event cv::EVENT_LBUTTONDBLCLK){cv::circle(*img, cv::Point(x, y), 100, cv::Scalar(0, 0, 255), -1);} }// 鼠标回调函数 void dra…

牛客NC199 字符串解码【中等 递归,栈的思想 C++/Java/Go/PHP】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/4e008fd863bb4681b54fb438bb859b92 相同题目&#xff1a; https://www.lintcode.com/problem/575 思路 解法和基础计算器1&#xff0c;2,3类似,递归参考答案C struct Info {string str;int stopindex;Info(str…

react —— useState 深入

基础用法 useState Hook 提供了这两个功能&#xff1a; State 变量 在第一次重新渲染期间&#xff0c;这将具有作为参数传递的值State setter 函数 set 函数将允许将状态的值更新为不同的值&#xff0c;如果 set 函数中提供的值不同&#xff0c;则将触发重新渲染。 注意&…

【网站项目】书籍销售系统小程序

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

如何3分钟,快速开发一个新功能

背景 关于为什么做这个代码生成器&#xff0c;其实主要有两点: 参与的项目中有很多分析报表需要展示给业务部门&#xff0c;公司使用的商用产品&#xff0c;或多或少有些问题&#xff0c;这部分可能是历史选型导致的&#xff0c;这里撇开不不谈&#xff1b;项目里面也有很多C…

torch.cuda.is_avaliable()在命令行里是true,pycharm是false【省流:换Pycharm】

我的问题&#xff1a; 1、torch.cuda.is_avaliable()在命令行里是true&#xff0c;但是pycharm是false 2、pycharm选择pytorch所在的解释器&#xff0c;加载失败。 3、pytorch所在的解释器加载成功&#xff0c;但是里边的torch包莫名消失。 解决方法&#xff1a; 在调试了很…

SpringBoot+RabbitMQ实现MQTT协议通讯

一、简介 MQTT(消息队列遥测传输)是ISO 标准(ISO/IEC PRF 20922)下基于发布/订阅范式的消息协议。它工作在 TCP/IP协议族上&#xff0c;是为硬件性能低下的远程设备以及网络状况糟糕的情况下而设计的发布/订阅型消息协议&#xff0c;为此&#xff0c;它需要一个消息中间件 。此…

数据结构之堆

片头 嗨! 小伙伴们,上一篇中,我们学习了队列相关知识,今天我们来学习堆这种数据结构,准备好了吗? 我们开始咯 ! 一、堆 1.1 堆的概念 堆&#xff08;Heap&#xff09;是一种特殊的树,如果将一个集合中的所有元素按照完全二叉树的顺序存储方式存储在一个一维数组中,并满足一定…

物联网:从电信物联开发平台AIoT获取物联设备上报数据示例

设备接入到电信AIoT物联平台后&#xff0c;可以在平台上查询到设备上报的数据。 下面就以接入的NBIOT物联远传水表为例。 在产品中选择指定设备&#xff0c;在数据查看中可以看到此设备上报的数据。 示例中这组数据是base64位加密的&#xff0c;获取后还需要转换解密。 而我…

Oceanbase体验之(一)运维管理工具OCP部署(社区版4.2.2)

资源规划建议 ocp主机1台 内存:64G CPU1:2C及以上 硬盘大于500G observer服务器3台 内存32G CPU&#xff1a;4C以上 硬盘大于1T 建议存储硬盘与操作系统硬盘隔开实现IO隔离 一、OBD、OCP安装包准备 [rootobserver /]# chown -R admin:admin /software/ [rootobserver /]# …

【ensp实验】Telnet 协议

目录 Telnet 协议 telnet协议特点 Telnet实验 ​编辑 不使用console口 三种认证模式的区别 Telnet 协议 Telnet 协议是 TCP/IP 协议族中的一员&#xff0c;是 Internet 远程登录服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力。在终端使用…

【Leetcode每日一题】 穷举vs暴搜vs深搜vs回溯vs剪枝_全排列 - 子集(难度⭐⭐)(65)

1. 题目解析 题目链接&#xff1a;78. 子集 这个问题的理解其实相当简单&#xff0c;只需看一下示例&#xff0c;基本就能明白其含义了。 2.算法原理 算法思路详解&#xff1a; 为了生成数组 nums 的所有子集&#xff0c;我们需要对数组中的每个元素进行“选择”或“不选择…

三星电脑文件夹误删了怎么办?恢复方案在此

在使用三星电脑的过程中&#xff0c;我们可能会不小心删除了某个重要的文件夹&#xff0c;其中可能包含了工作文件、家庭照片、视频或其他珍贵的数据。面对这种突发情况&#xff0c;不必过于焦虑。本文将为您提供几种有效的恢复方案&#xff0c;希望能帮助您找回误删的文件夹及…
最新文章