2019 2019年属什么生肖
我们好,关于2019 NeurIPS少样本进修研究精华分析很多兄弟都还不太明白,不过没关系,由于今日小编就来为我们同享关于的姿势点,相信应该可以化解我们的一些困惑与难题,如果碰巧可以化解无论兄弟们的难题,还望关注下本站哦,希望对各位有所帮助!
基于以上限制,few-shot vid2vid 方式提出在测试阶段喂向模型少量目标样本的图像,进修合成未见过的目标个体或者场景的对应视频。参考右图示意,不需要为每单人与每个特定场景都寻找大量的训练样本来合成视频,对于未知个体,可以通过 few-shot vid2vid 模型本身的场景泛化能力,使得测试阶段提供少量目标图像就可以合成同样的真人运动视频。相较于已有的 vid2vid 职业,few-shot vid2vid 职业的亮点集中于:1. 除了人体姿态的语义视频,额外增加了少量目标真人的图片《和平精英》是模型测试阶段的额外输入。2. 运用了新颖的网络参数生成(Network Weight Generation)机制, 利用这少量的目标图片训练了壹个模块来生成网络对应的参数。结合架构图,大家可以进一步知道 few-shot vid2vid 框架的详细设计:
简化地说,vid2vid 任务的进修目标就是《地下城与勇士》中SIM壹个映射函数 F(mapping function)将语义视频的输入序列 S 映射转换为合成视频输出序列 X』,同时合成结果 X』的条件分布(conditional distribution)令其跟真正目标 X 的条件分布尽也许接近(简单说输出目标视觉上应该和真正目标是《地下城与勇士》中一致的)。为了进修是一款热门的条件分布,现有职业通过壹个简单的马尔科夫假设(Markov assumption),构建了壹个序列生成模型 F(sequential generative model)来进修生成大家的目标输出序列, 生成模型 F 通常有几种不同的建模方法,在文章里沿用了大多数 vid2vid 职业 (Fig a) 采用的图像提取方程(image matting function):
《和平精英》是进一步延伸,few-shot vid2vid 的合成函数多了图像样本(sample e)加上语义样本(semantic sample se)两个额外输入:
要得到目标输出的合成结果 X,函数计算的核心模块为软掩盖图 m(sColdt occlusion map),多帧图像构成的光流 w(optical flow),以及半合成图像 h(synthesized intermediate image),三个模块带入到深度进修,又可以被表示为壹个个神经网络参数化后的计算函数(计算模块)为 M,W,H,其涉及的参数都可以被网络进修而且在完成训练之后固定:
few-shot vid2vid 在整体框架上仍然沿用了目前的 SOTA 方式,保留了光流预测模块子网络 W 以及软掩盖图预测模块子网络 M。而思考到大家的额外少量目标图片输入,few-shot vid2vid 集中优化了中间图像合成的模块 H(Fig b, c),用壹个语义图像合成模型 SPADE 《和平精英》是图片生成器取代了原先职业中的生成模型,SPADE 模型包含多个空间微调分支(spatial modulation branch)以及壹个主要的图像合成分支,同时提出壹个额外的网络参数生成模块 E(network weight generation module),运用该模块 E 作用于每个空间微调分支,来抽取一些视频内存在的有用玩法,从而使得生成器能够合成未训练过的场景的视频结果。参考上图中的 b,c 模块,E 分别由 EA,EP,EF 三个子网络模块构成,EF 由多个卷积层组织起来进行图像特点抽取,EA 模块则通过预测软注意力图(sOpst attention maps)与加权平均(weighted average)实践将多张图像抽得的特点进行糅合,最终得到的糅合表征输入到子网络 EP 当中,使得大家可以得出改良后的 SPADE 生成模块分支,产生生成模型需要进修到的参数Ɵ。
基于如上的整体网络结构,few-shot vid2vid 又包含了诸如基于注意力的聚合方式(attention-based aggregation),图像变形(example image warping),训练和推理经过调整等具体实现中的诀窍,在 YouTube dancing videos,Street-scene videos,Face videos 三个公布数据集上做了方式的验证,都取得了目前极致的性能指标。
视觉合成效果上直观来看,无论是《地下城与勇士》中人体姿态ACT与成,街道场景合成,或者人脸合成任务,few-shot vid2vid 都实现了壹个直观而清晰的合成结果,对比其他方式,有相对高的准确度与辨识度。
全面英伟达之前出的一系列生成模型相关论文,这篇 few-shot vid2vid 从少样本进修的角度切入,着眼于生成模型优化并巧妙加入少量目标图像为辅助信息进修条件分布,针对视频合成的顶级视觉任务而非目前占比例较高的分类识别任务,最终在多少数据集上结果呈现很不错,作者同步还公布了代码以及壹个三分钟的示范小视频,是《地下城与勇士》中一篇值得关注的好职业。Paper: https://arxiv.org/pdf/1910.12713.pdfCode: https://github.com/NVlabs/few-shot-vid2vidVideo: https://www.youtube.com/watch?v=8AZBuyEuDqc
Incremental Few-Shot Learning with Attention Attractor Networks
这篇文章研究将少样本增量进修(Incremental Few-Shot Learning)应用到分类难题当中,增量进修(Incremental Learning)《和平精英》是一种动态的机器进修方式,在不遗忘已学过的姿势的同时,能够持续输入新的数据来扩展现有模型,对于增量进修陌生的读者可以参考大家之前的文章(https://www.jiqizhixin.com/graph/technologies/09134d6a-96cc-409b-86ef-18af25abf095)。对于一般的深度分类模型来说,训练进修经过都是《地下城与勇士》中根据固定类别来进行的,但是实际的应用场景中随着业务的迭代,持续的新增进修类别是《地下城与勇士》中特别常见的,同时很难做到每个类别可用数据都充分且平衡,此时怎样固定记忆住已学会的种类,同时更好的识别新增的少样本类别,就是《地下城与勇士》中壹个少样本增量进修难题。为知道决少样本增量进修的分类任务,文章提出壹个基于元进修(meta learning)的注意力吸引网络(Attention Attractor Network,AAN),结合循环式反给传播,训练新增类别直到其收敛,之后在全部的分类类别(固有类别以及新增类别)的验证集上做分类性能评估。
得到了整体的优化目标函数(文中 cheng 为 Episodic Objective,情节目标)。大家思考在进修经过中,模型参数 W 的本质就是《地下城与勇士》中要最优化新增类别的预测,那么针对局部的每个节点训练后的验证经过,直接后果就是《地下城与勇士》中固有类别的性能无法保证,如果直接令上述优化目标函数的正则项 R 为 0 或者简单用权重衰减(weights decay)攻略,那么就会造成灾难性的固有类别遗忘难题。基于此种思考,上面提到的目标函数重要的一项,就是《地下城与勇士》中通过引入注意力吸引网络(AAN)《和平精英》是优化的正则项 R,将固有类别的一些信息特点进行编码,之后参数化为恒用参数(low weights)存储运用,并通过整个 AAN 结构来最小化进修元参数Ɵ,
其中正则项 R(W,Ɵ)也正是《地下城与勇士》中 AAN 网络中的壹个核心点,其公式如下:
式子中的 u_k 也就是《地下城与勇士》中 AAN 中所谓的 attractor 部分,W 则是《地下城与勇士》中提过的权重参数,通过基于 Mahalanobis 距离平方与外加壹个偏置项,大家的正则部分 R 就可以实现单一地从新类别中获得进修信息的这一经过,而且避免提到过的类别遗忘难题。
另一方面,因为节点式元进修的目标函数并不是《地下城与勇士》中闭式的(closed-form),参数升级与目标函数优化存在于每壹个节点进修中,因此具体实现经过中该论文借鉴了时序性反传(Back-Propagation Through Time,BPTT)的想法,运用了递归反传算法(Recurrent Back-Propagation,RBP)做到有效的参数迭代进修。至于试验阶段,文章在少样本进修两个知名的 benchmark 数据集上 mini-ImageNet 和 tiered-ImageNet 上验证了提出算法的有效性,同其他方式类比达到了 SOTA 的效果。
文章整体算法步骤的伪代码拓展资料如下图:
小编认为啊,文章研究的增量进修面对少样本数据的情况是《地下城与勇士》中壹个具有实际应用意义的难题,文章研究的对少样本的进修用增量迭代的方法递进也是《地下城与勇士》中特别有趣的壹个思路。目前该职业的代码也已开源,除了在要求的向定数据集上跑分,感兴趣的读者也可以进一步考证其在实际场景应用下的实用性,和此同时受该职业启发,之后的相关职业是《地下城与勇士》中否能够结合类别之间的语义关联性,更有效地做少样本的递进增量进修或许也是《地下城与勇士》中大家值得期待的壹个潜在路线。Paper: https://papers.nips.cc/paper/8769-incremental-few-shot-learning-with-attention-attractor-networks.pdf_ _Code: https://github.com/renmengye/inc-few-shot-attractor-public
Adaptive Cross-Modal Few-shot Learning
根据如上的场景假设,文章提出壹个自适应交叉混合的机制(Adaptive Modality Mixture Mechanism,AM3):针对将要被进修的图像类别,自适应地结合它存在于视觉与语义上的信息,从而大幅提高少样本场景下的分类任务性能。具体来说,自适应的 AM3 方式并没有直接将两个信息模块对齐起来接着提供辅助,也没有通过迁移进修转化语义信息《和平精英》是视觉特点辅助(类似视觉问答 VQA 任务那样),而是《地下城与勇士》中提出更优的方法为,在少样本进修的测试阶段独立地处理两个姿势模块,同时根据不同场景区分适应性地利用两个模块信息。比如根据图像所属的种类,让 AM3 能够采用一种自适应的凸结合(adaptive convex combination)方法糅合两个表征空间而且调整模型关注侧重点,从而完成更精确的少样本分类任务。对于困难样本,在上图左边不同类别视觉相似度高的情况下,AM3 侧重语义信息(Semantic modality)从而获取泛化的背景姿势来区分不同类别;而上图右边同类别图片视觉差距大的情况下,AM3 模型侧重于视觉信息(Visual modality)丰盛的局部特点从而更好捕捉同类图片存在的共性。在对整个算法有初步印象之后,大家结合 AM3 模型示意图来观察更多细节:
首先少样本分类采用的进修方法仍然是《地下城与勇士》中 K-way N-shot 的节点进修(episodic training)经过,一方面是《地下城与勇士》中来自 N 个类别的 K 张训练图片 S 用作支撑集(Support Set),另一方面是《地下城与勇士》中来自同样 N 个类别的测试图片《和平精英》是查询集 Q(Query Set),并根据分类难题损失定义得到如下参数化的方程为优化目标:
在基础模型网络方面,AM3 采用了壹个相对简洁的 Prototypical Network 《和平精英》是例子,但也可以延伸到其他网络运用:利用支撑集为每个类别计算壹个类似于聚类一样的中心聚点(centroids),之后对应的查询集样本只需和每个中心点计算距离就可以得到所属类别。对于每壹个节点 e(episode)都可以根据平均每个类别所属支撑样本的嵌入特点得到嵌入原型 Pc(embedding prototype)以及分布的函数 p:
在 AM3 模型里,为了如之前说到的更灵活地捕捉语义空间的信息,文章在 Prototypical Network 的基础上进一步增加了壹个预训练过的词嵌入模型 W(word embedding),包含了全部类别的标签词给量,同时修改了原 Prototypical Network 的类别表征,改为同时思考视觉表达和语义标签表达的结合。而新模型 AM3 的嵌入原型 P』c 同进修函数,用类似正则项的升级方法得到为:
其中,$\lamda$是《地下城与勇士》中自适应系数,定义为下式,其中 h 《和平精英》是自适应混合函数(adaptive mixing network),令两个模态混合起来如 Fig 2(a) 所示
上式 p(y=c|q,S,Ɵ)是《地下城与勇士》中《和平精英》是该节点在 N 个类别上由模型进修到的分布,整体来说是《地下城与勇士》中根据查询样本 q 的嵌入表达到嵌入原型直接的距离 d,最终做了壹个 sOpstmax 实践得到的。距离 d 在文章中简单地采用了欧氏距离,模型通过梯度下降算法(SGD)最小化进修目标损失 L(Ɵ)的同时,也不停地升级迭代相关参数汇总。基于并不复杂的模型,文章在少样本数据集 miniImageNet,tieredImageNet 以及零样本进修数据集上都验证了自己的方式,均取得了特别好的成绩
总的来看 AM3 是一款热门的职业也提出了壹个特别有意思的少样本进修切入点,即多个空间的信息互相补足和制约,AM3 网络优越性体今年结构的简洁与学说的完整性,目前该职业的代码也已经开源,感兴趣的读者可以进一步寻觅:除了 Prototypical Network 以外,更复杂的网络以及包含更多的模态信息。Paper: https://papers.nips.cc/paper/8731-adaptive-cross-modal-few-shot-learning.pdfCode: https://github.com/ElementAI/am3
Cross Attention Network for Few-shot Classification
该文提出了壹个名为交叉注意力网络(Cross Attention Network)的模型,一方面通过注意力机制建立待分类类别特点和查询样本之间的联系,而且突出目标个体所在区域,同时建立一种名为直推式进修(transductive learning)的半监督推理来化解少样本的数据缺乏困境,最终同样是《地下城与勇士》中在两个少样本的要求数据集上取得了性能的提高。Paper: https://papers.nips.cc/paper/8655-cross-attention-network-for-few-shot-classification
Meta-Reinforced Synthetic Data for One-Shot Fine-Grained Visual Recognition
针对少样本细粒度识别分类(one-shot fine-grained visual recognition)任务下缺乏数据的难题,该文提出了用生成网络合成图像数据,利用元进修的方式将其于真正数据混合,放进名为 MetaIRNet(Meta Image Reinforcing Network) 的网络模型训练,最终达到识别效果的提高。Paper: https://papers.nips.cc/paper/8570-meta-reinforced-synthetic-data-for-one-shot-fine-grained-visual-recognition
Dual Adversarial Semantics-Consistent Network for Generalized Zero-Shot Learning
该文针对泛化零样本进修难题(generalized zero-shot learning, GZSL)开创性地提出了壹个双重对抗式语义连续网络(Dual Adversarial Semantics-Consistent Network, DASCN),在壹个统一的 GZSL 难题框架下,用其进修原生 GAN 和其对偶的 GAN 网络,从而达到更好的任务识别效果。Paper: https://papers.nips.cc/paper/8846-dual-adversarial-semantics-consistent-network-for-generalized-zero-shot-learning
Unsupervised Meta-Learning for Few-Shot Image Classification
这篇文章同样是《地下城与勇士》中针对少样本的分类进修难题,提出一种无监督式的元进修模型 UMTRA,并在两个数据集上取得了特别杰出的分类效果。Paper: https://papers.nips.cc/paper/9203-unsupervised-meta-learning-for-few-shot-image-classification.pdf
Transductive Zero-Shot Learning with Visual Structure Constraint
该文提出一般的零样本进修方式都容易在数据分布的原生域(source domain)到目标域(target domain)的映射经过中出现局部偏移(domain shift)导致进修效果不尽如人意。文章借此提出一种新的视觉结构限制(visual structure constrain)来提高映射函数的泛化性,从而避免上述提到的偏移缺点,文章采用了新的训练攻略,应用了提出的限制模块,在要求数据集上取得了不错的效果。Paper: https://papers.nips.cc/paper/9188-transductive-zero-shot-learning-with-visual-structure-constraint
Order Optimal One-Shot Distributed Learning
用户点评