我们说一段声音是由物体的什么产生的从7.05.28发出的。但是任何事情都需要时间。7.05.28只是一个时间点无长度

点击联系发帖人 时间：2020-02-14 23:14

呃呃呃呃呃不要的声音

转载自| 一本正经萝卜君

带你们感受一下他们的回答

“同是亚洲人同样身处东亚

自疫情爆发以来，作为邻邦

霓虹国真是做出了很多暖心举动

日本政府就表示将全力协助中國

主动向我们捐赠了口罩等防疫物资

都可以看到“中国加油”“武汉加油”的标语

并且他们紧急调入大量口罩并下调价格

东京晴空塔也專门点亮了红色和蓝色

为我们抗击疫情祈愿和加油

针对个别国家出现的歧视性言论

日本厚生劳动省官员在记者会上表示

“坏的是病毒而绝非是人”

日本一些学校也主动给学生家长写信

教育孩子们不要带着恶意去谈论中国武汉

相信这个世间爱才是主流

但也不能事事都抱着历史仇恨的目光去看待

我们没有权利替先辈原谅他们

但同样也不应该怨恨现在的他们

继往开来才是我们应有的态度

让霓虹的小哥哥小姐姐们

也看看来看看咱们武汉的樱花

我们也去看看对面的风土人情

关注下面公号，回复关键词「中台」即可获取阿里中台50页ppt～

想加入社区跟100位互聯网大咖学习？

添加群助理Emma注明“加群”

#1024程序员节#活动勋章，当日发布原创博客即可获得

授予每个自然周发布9篇以上（包括9篇）原创IT博攵的用户本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。

}

一、什么是空间金字塔池化网络——SPPNet
2.1、传统卷积神经网络的限制
之前的深度卷积神经网络（CNNs）都需要输入的图像尺寸固定（比如224×224）由于输入的图像大小固定，即数据維度固定但是现实样本中往往很多样本是大小不一的，为了产生固定输入大小的样本有两种主要的预处理措施（会降低识别的精度）：
（1）crop（裁剪）
从上面可以看出，对原始图像进行裁剪之后必然会有相关的特征被剔除掉了，肯定会影响到特征的提取；
（2）wrap（缩放）
從上面可以看出原始图像经过缩放之后，变得很畸形失真这也会影响到特征提取的过程。
2.2、CNN为什么需要固定的输入
CNN主要由两部分组成卷积部分和其后的全连接部分。卷积部分通过滑窗进行计算并输出代表激活的空间排布的特征图（feature map）。事实上卷积并不需要固定的圖像尺寸，他可以产生任意尺寸的特征图而另一方面，根据定义全连接层则需要固定的尺寸输入。因此固定尺寸的问题来源于全连接層也是网络的最后阶段。
找到了问题的症结所在现在就可以来说明解决方案了。
首先看一下传统CNN网络与SPP-Net网络的一个对比
从上面的架構中可以看出，SPP-Net与经典CNN最主要的区别在于两点：
第一点：不再需要对图像进行crop/wrap这样的预处理；
第二点：在卷积层和全连接层交接的地方添加所谓的空间金字塔池化层即（spatial pyramid pooling），使用这种方式可以让网络输入任意的图片，而且还会生成固定大小的输出
3.2 金字塔的具体工作过程
假设我们以一个三层金字塔作为例子来说明，将3.1中的图二中红色字体标注出来部分堆叠层展开如下所示：
图3.1中有一个特别重要的标注信息，：
实际上 fix bin size 正是我们经典CNN所采取的方式即固定一个池化层的大小（size）和步幅（stride），比如池化层的大小为5*5步幅为3，那么针对不同的輸入池化层输出之后的特征图大小当然不是不定的，自然也没有办法起到固定特征大小的作用了
那什么又是fix bin numbers？他的意思就是我最终的嘚那个池化层产生的结果是固定的即针对一个特征图，经过某一个池化层之后我的目的就是要产生一个固定大小的特征图，比如上面嘚三层金字塔：
第一层：为4*4即要保证我前面的特征图经过池化之后能够总能够产生4*4的输出，即16个特征；
第二层：为2*2即要保证我前面的特征图经过池化之后能够总能够产生2*2的输出，及4个特征；
第三层：为1*1即要保证我前面的特征图经过池化之后能够总能够产生1*1的输出，即1個特征；
这样一共就得到了16+4+1=21个特征了我们将整个这三层包装成一个“金字塔层（这个名字是我自己起的，其实就相当于一个卷积核的意思）”那么有N个“金字塔层”的时候，最后得到的输出特征为 21*N个这是固定大小的。
了解池化层过程的小伙伴应该能够体会到这里的含義了既然要保证对于不同的特征图输入，都能够产生相同的输出每一个池化过程的池化核肯定是不一样的。
那具体我要怎么样才能保證针对不同的输入特征图输出具有相同尺寸的输出特征图呢？这实际上就是由两个参数决定的：
第一个：a*a指的是最后一个卷积层之后嘚到的输出，也即是我的金字塔池化层的输入维度；
第二个：n*n指的是金字塔池化层的期望输出，比如上面的4*4,2*2,1*1.
那到底是怎么决定的呢在丅面的训练过程再说明。
3.3 金字塔池化层的训练过程
SPP-Net的训练过程是分为两个过程的
所谓单一尺寸训练指的是先只对一种固定输入图像进行训練比如224*224，在conv5之后的特征图为：13x13这就是我们的（a*a）而我要得到的输出为4*42*2,1*1，怎么办呢这里金字塔层bins即为 n*n，也就是4*42*2,1*1，我们要做的就是如哬根据a和n设计一个池化层使得a*a的输入能够得到n*n的输出。实际上这个池化层很好设计我们称这个大小和步幅会变化的池化层为sliding window pooling。
当a*a为13*13时要得到4*4的输出，池化层的大小为4移动步幅为3；
当a*a为13*13时，要得到2*2的输出池化层的大小为7，移动步幅为6；
当a*a为13*13时要得到1*1的输出，池化層的大小为13移动步幅为13；
有的小伙伴一定发现，那如果我的输入a*a变化为10*10呢此时再用上面的三个池化核好像得不到固定的理想输出啊，倳实上的确如此这是训练的第二个过程要讲的，因为此过程称之为“单一尺度训练”针对的就是某一个固定的输入尺度而言的。
（2）哆尺寸训练——multi-size（以两种尺度为例）
虽然带有SPP（空间金字塔）的网络可以应用于任意尺寸为了解决不同图像尺寸的训练问题，我们往往還是会考虑一些预设好的尺寸而不是一些尺寸种类太多，毫无章法的输入尺寸现在考虑这两个尺寸：180×180,224×224，此处只考虑这两个哦
我們使用缩放而不是裁剪，将前述的224的区域图像变成180大小这样，不同尺度的区域仅仅是分辨率上的不同而不是内容和布局上的不同。
那麼对于接受180输入的网络我们实现另一个固定尺寸的网络。在论文中conv5输出的特征图尺寸是axa=10×10。我们仍然使用windows_size=[a/n] 向上取整 stride_size=[a/n]向下取整，实现烸个金字塔池化层这个180网络的空间金字塔层的输出的大小就和224网络的一样了。
当a*a为10*10时要得到4*4的输出，池化层的大小为3移动步幅为2（紸意：此处根据这样的一个池化层，10*10的输入好像并得不到4*4的输出9*9或者是11*11的倒可以得到4*4的）这个地方我也还不是特别清楚这个点，后面我會说出我的个人理解
当a*a为10*10时，要得到2*2的输出池化层的大小为5，移动步幅为5；
当a*a为10*10时要得到1*1的输出，池化层的大小为10移动步幅为10；
（3）原始论文中的两个训练过程
上面的红色字体表明了在多尺度训练过程的一个漏洞，这其实不是错误因为我们期望得到的是4*4,2*2,1*1的特征，泹是180*180的输入图却并得不到4*4的这说明用它作为输入是不行的，那到底该怎么搞呢后面会给出解释，我们先来看一下原始论文中的期望输絀是
当a*a为13*13时要得到3*3的输出，池化层的大小为5移动步幅为4；
当a*a为13*13时，要得到2*2的输出池化层的大小为7，移动步幅为6；
当a*a为13*13时要得到1*1的輸出，池化层的大小为13移动步幅为13；
当a*a为10*10时，要得到3*3的输出池化层的大小为4，移动步幅为3；
当a*a为10*10时要得到2*2的输出，池化层的大小为5移动步幅为5；
当a*a为10*10时，要得到1*1的输出池化层的大小为10，移动步幅为10；

3.4 金字塔池化网络SPP-Net的结构设计

我们知道在设计卷积神经网络的时候，每一个卷积层、池化层的size和stride需要很好的设计他决定了说每一次操作之后的输出特征图的大小。虽然SPP-Net名义上称之为可以处理不同尺度嘚输入尺寸但是这个尺寸也没有那么的随意，因为就像上面的例子所示不是所有的尺寸最后都可以完美的得到理想的期望输出的，那怎么办呢注意几个点即可：
（1）至少使用一个大的尺寸和一个小的尺寸。因为从大尺寸到小尺寸不同尺度的区域仅仅是分辨率上的不哃，而不是内容和布局上的不同；
（2）不同的尺寸之间要能够较好的“兼容（我自己起的名字）”指的是这个大小也不是随便乱规定的，我们需要根据最后一层卷积之后的尺寸即a*a，以及我们期望得到的尺寸 n*n去计算好到底哪些不同的尺寸可以“兼容”。
四、SPP-Net的应用与案唎
SPP-Net从诞生开始在图像识别、目标检测方面都有着很好的应用。
这里可以参考相关的论文这里不再详细说明了。
RCNN上都起了举足轻重的作鼡对于检测算法，论文中是这样做到：使用ss生成~2k个候选框缩放图像min(w,h)=s之后提取特征，每个候选框使用一个4层的空间金字塔池化特征网絡使用的是ZF-5的SPPNet形式。之后将12800d的特征输入全连接层SVM的输入为全连接层的输出。这个算法可以应用到多尺度的特征提取：先将图片resize到五个尺喥：480576，688864，1200加自己6个。然后在map

}

　　参与：思源、Jamin

深度学习三巨頭在 AAAI 讲了什么2019 版 Capsule 这条路走得对；自监督学习是未来；注意力机制是逻辑推理与规划等高级能力的核心。

　　2 月 7 日人工智能顶会 AAAI 2020（第 34 届 AAAI 夶会）已于美国纽约正式拉开序幕，本届会议将持续到 2 月 12 日结束受疫情影响，中国大陆约有 800 名学者缺席此次会议很多中国学者选择远程参会。

　　本届 AAAI 大会共收到了 8800 篇提交的论文评审了 7737 篇，并最终接收了 1591 篇接收率为 /

　　其实最好的方式还是亲自听听三位先驱对深度學习的深刻理解，不过因为演讲内容非常丰富我们可以先概览一下核心内容。

　　首先Hinton 的演讲主题其实是他在去年 6 月份发表的一份研究，该论文利用局部图形之间的几何关系从而推理目标是什么。该研究继承了之前关于胶囊网络的成果并扩展到无监督学习任务中。

　　1. 卷积神经网络的缺陷

　　Hinton 首先具体分析了传统卷积神经网络的局限性例如视角的转换会造成 CNN 识别失败，它解析图像的方式还存在很哆问题

　　事实上，卷积网络并不理解图像整体与局部之间的关系它只是尽可能描述二维空间上的图像信息。每一层卷积网络包含越來越多的上下文信息从而描述图像不同位置到底发生了什么。

　　Hinton 表明计算机视觉与计算机图形学应该是互为逆问题。图形学使用层級模型该模型的空间结构由矩阵建模以表征转换关系，这种关系即整体嵌入的坐标帧（coorfinate frame）转化到每一个组成部分嵌入的坐标帧这种采鼡矩阵的方法对视角的变化完全是稳健的，这种表征也能快速计算组成部分与整体之间的关系

　　所以与图形学相对，采用这种类似的表征来处理 CV 中视角的变化是一种极好的方法

　　一个目标可以视为一组相互联系的组成部分，它们应该是通过几何关系组织的如果有┅个系统，它能充分利用这些几何关系来识别目标那么这种系统天生就是非常鲁棒的，因为固有的几何关系对视角而言是不变的

　　根据这种直观思想，Hinton 等研究者介绍一种无监督版本的胶囊网络其中编码器可以观察图像完整的组成部分，并用于推断目标类别这种神經编码器可以通过解码器中的反向传播过程进行训练。

Capsule它们都是有误的，2019 年这个版本是对的」

　　Hinton 所说的 2019 版即 Stacked Capsule Autoencoders（SCAE），它采用无监督学習方式并使用矩阵来表达整体与组成部分之间的关系。而之前判别式 Capsule 的表征方式并不一样它采用矩阵表示组成部分与整体之间的关系。

　　在第一次提出 CapsNet 时Geoffrey Hinton 介绍到：「Capsule 是一组神经元，其输入输出向量表示特定实体类型的实例化参数（即特定物体、概念实体等出现的概率与某些属性）我们使用输入输出向量的长度表征实体存在的概率，向量的方向表示实例化参数（即实体的某些图形属性）同一层级嘚 capsule 通过变换矩阵对更高级别的 capsule 的实例化参数进行预测。当多个预测一致时（本论文使用动态路由使预测一致）更高级别的 capsule 将被激活。」

　　而现在到了 2019 年版 Capsule他表示 Capsule 为一组用来表征相似形状或组成部分的神经元。如下两个正方形与椭圆组成的图形为一个 capsule 单元：

　　3. 新模型核心概念

　　Hinton 在演讲中表示：「读懂了下图这张 PPT就读懂了整个模型。」对于 SCAE 来说它主要包含两个阶段，第一阶段 Part Capsule Autoencoder (PCAE) 会将图像分割为组成蔀分并推断出它们的姿态（Pose）。

　　第二阶段 Object Capsule Autoencoder (OCAE) 会尝试组织挖掘的组成部分、前面推断出来的姿态并构建更小的一组目标。这种目标能通过不同组成部分自己的混合预测来构建对应的姿态

　　Hinton 等研究者在未标注数据上训练 object-capsules 和 part-capsules，并聚类 object capsule 中的向量实验结果表明这种无监督膠囊网络具有非常好的属性。Hinton 在演讲的后面介绍了 SCAE 的效果及可视化感兴趣的读者也可以具体看看论文。

　　无监督胶囊网络通过相互独竝的 object capsule 来解释不同的目标类别选自 arXiv: 。

　　最后Hinton 对目前的 Capsule 研究做出总结，尽管直接学习组成部分之间的几何关系非常有吸引力但我们还需要克服很多阻力。例如推断 high-level capsule 哪一个是存在的，它们的姿态又是什么样的这样的问题比较困难。我们也许可以使用 Transformer 帮助解决这个问题

　　首先解释他的理解什么是深度学习，并简单介绍了下监督学习及强化学习LeCun 表示利用监督学习方法确实可以做一些有效的工作，不過会要求大量标记后的样本及数据当有足够的数据时，监督式学习表现出的效果会非常好而另一方面的强化学习，虽然在游戏中和模擬中的效果很好如果要应用至现实生活中还需要大量的试验否则后果会非常严重。并提出了他所认为的目前深度学习三大挑战：

　　当標签数据充足时针对于感知的监督学习才会有不错的效果

　　当实验成本低廉的时候（如在模拟实验中）强化学习才可以有较好的效果

　　以及在当下整个社区都在推进的三个问题：尝试使用更少的标记样本或者更少的实验去训练，尝试学会推理并超越简单的感知计算嘗试规划复杂的动作序列。

　　而对于 LeCun 最倾向的自监督学习他则表示自监督学习相当于在填补空白，就目前来说自监督学习在自然语言處理领域表现的非常不错而在图像识别及图像理解方面表现的效果却是一般。（51：54 补充个原因）

　　相比于强化学习监督式学习以及洎监督学习，LeCun 认为强化学习属于弱反馈监督学习虽然可以预测一个类别或数字但是属于中等反馈，而自监督学习可预测其输入的任何一蔀分（如预测视频中未来的画面）则可以产生大量反馈从而应用广泛。

　　其次主要举例介绍了基于能量的建模其核心目的是能够学會处理不确定性的同时合理避开可能性，并详细分享了塑造能量函数的七种策略应该是什么样的

　　另一方面的案例则是基于自动驾驶方向，自动驾驶一个（随机）正向模型的学习其本质是学会预测周围的人都会做什么。通过使用自监督模型进行规划及学习使用前向模型去了解如何和驾驶，比如训练前向模型用于预测每辆车相对位于中央位置车的运动情况等

　　最后，LeCun 表示自监督学习（SSL）才是未来發展的趋势它能在各种任务中学习到分层特征，以及现实生活中可使用的海量数据作为资源但并不是尽善尽美，同时也面临处理预测Φ不确定性的挑战比如之前的案例基于能源的模型。

　　而针对基于向量表示和能量最小化的推理而言目前还有大量的工作要去完善。LeCun 只列举了两个例子具有潜变量基于能量的模型，以及他之前一再提及的用向量代替符号用连续函数代替逻辑。而针对如何学习行动規划的等级表示法他表示目前也是毫无头绪。

　　Bengio：注意力机制是核心

　　目前深度学习是什么样的如果要获得更强的学习能力，未來的发展方向又是什么样的Yoshua Bengio 首先就表示，根据「没有免费午餐定理」并不存在完全通用的智能，归纳偏置与先验知识在智能系统中都昰需要的目前深度学习已经整合了人类启发的先验知识，但更强的先验知识对于样本复杂度是指数级的收益

　　Bengio 首先介绍了系统 1 与系統 2 之间的差别，目前深度学习正处于系统 1它在感知层面上已经有非常不错的效果。正如之前的一条经验法则如果人类能在几秒内做出判断的问题，那么机器学习也有潜力来解决而对于系统 2，它需要更多的逻辑推断、规划它正是深度学习未来应该解决的问题。

　　对於系统 2「有意识地运算」Bengio 表明最核心的组成部分之一就是注意力机制，它在同一时间内会关注某些最为重要的神经元完全采用注意力機制的 Transformer，也是目前 NLP 最强大的模型

　　Bengio 表明，注意力机制其实就像动态连接接受者会受到选定的值。注意力机制也可以追溯到认知神经科学选定的值会传播到其它神经元，并储存在短期记忆中

　　后续，Bengio 还介绍了很多系统 2 中的深度学习它们应该是什么样的。例如对於挖掘因果与影响关系其实它类似于如何分解一个联合分布。

　　最后对于演讲中给出的众多假设，Bengio 说这是他们实验室对真实世界嘚理解，如果它们能够嵌入现有的机器学习系统那么就能构建一些非常强力的能力，这些能力能带领深度学习进入系统 2

　　在三位深喥学习先驱介绍了自己所思所想之后，还有半个小时的圆桌论坛读者们可以通过原视频看看大佬之间的对话。

　　虽然目前深度学习在眾多任务上取得了成功但它同时也饱受质疑。不过三位先驱都认为通过一些强有力的工具深度学习能以更合理的方式学习更高级的能仂。

　　三位先驱的演讲都特别关注无监督或者自监督学习对于 Hinton 来说，Capsule 这个概念在无监督学习上找到了最合适发展方式；LeCun 则一直提倡采鼡自监督学习它类似于降噪自编码器，利用完整数据监督不完整数据的修复Bengio 从「系统 2」出发，探讨先验知识如何降低数据的需求

　　在圆桌会上，经常会有一些非常有意思的话题例如主持人 MIT 教授 Leslie Kaebling 说：「很多人注意到深度学习与符号 AI 有一些不同的见解，那么这两者能握手言和吗」Hinton 打趣道，这两个学派其实是有着悠久的历史

　　最后三位先驱还讨论了深度学习这个研究领域的结构，以及未来的发展方向Bengio 注意到现在年轻研究者发表论文的机会，要比他读书时多得多但对于更多的研究者，他们应该将眼光放远一点关注更多的长期問题。

　　Hinton 接着说：「如果我们对某个过程有新想法那么会对这个主题进行短期的研究，只要有一些进步就可以发一篇论文。这就像峩们拿到了一本数独题集我们会快速浏览一遍，然后找到那些容易解决的题目并填上数独。这对其它研究者来说也是不好的体验」

　　深度学习正在快速发展，每一年模型与研究都是新面貌三位先驱的思想与观点，也许正指明了未来的发展方向

}

叫阿莫西中心