AlphaZero自学成才,机器人Atlas苦练后空翻……年,人工智能所取得的新进展真是让人应接不暇。而所有的这些进展,都离不开深度学习一年来在底层研究和技术开发上的新突破。圣诞节前后,Statsbot的数据科学家EdTyantov专门评估了深度学习这一年在文本、语音和视觉等方向的各项研究成果,并进一步试图总结出一些可能影响未来的全新趋势。
具体都是些什么呢?我们来看文章。
作者
EduardTyantov
翻译
林椿眄
文本
Google神经网络翻译机器
大约一年前,Google公司宣布推出Google在线翻译的新模式,并详细地介绍了其中的技术核心结构—递归神经网络结构。
这项技术最大的突破是,使机器翻译与人类的差距缩小了55-85%。必须指出,如果没有Google的庞大数据库作为支撑,这个递归神经网络的翻译模型很难使机器达到如此好的翻译效果。
谈判,会成功交易吗?
你可能听说过一则愚蠢的新闻,Facebook公司关闭了聊天机器人,然后这个机器人失去控制,自己编写语言。
这个聊天机器人是Facebook公司创造的并用于谈判交易工作的。它的目的是与另一个代理进行谈判并达成交易:如何将物品(如书,帽子等)一分为二。每个代理在谈判中都有自己的目标,而互相之间事先并不知晓对方的想法。
为了训练机器人的需要,他们收集了一个有关人类谈判的数据库并且采用有监督的方式来训练递归神经网络模型。随后,这些聊天机器人用一种强化学习的方式进行自我训练,并在保证语言与人类尽可能相似的前提下,学着与自己进行对话。
慢慢地,这些机器人已经学会了一个真正的谈判策略,那就是通过在谈判过程中表现出对目标虚假的兴趣来误导对方,并在实际目标的选择中受益。
创造这样一个互动机器人是一种全新的且非常成功的尝试。未来关于它的更多细节以及代码都将开源。
当然,新闻中称该机器人发明了一种新语言的消息是有点故弄玄虚。训练时(与同一代理商进行谈判时),放弃与人类保持相似性的限制,并通过算法来修改交互时所使用的语言,这并不是什么特别的事情。
在过去的一年里,循环神经网络模型已经得到非常广泛的运用,同时,循环神经网络的架构也变得更加复杂。但是在一些领域,简单的前馈网络DSSM就可以得到类似的结果。例如,Google邮件的“智能回复”功能较之前应用LSTM架构,有着相同的性能表现。此外,Yandex还基于这样的网络推出了一个新的搜索引擎。
语音
WaveNet:原始音频的生成模型
DeepMind的员工最近在文章中报道了生成音频的研究成果。简而言之,研究人员基于先前的图像生成方法(像素级RNN模型和像素级CNN模型),提出了自回归的全卷积WaveNet模型。
该网络实现了端到端的训练:从输入文本到输出音频。相比于人类水平,该研究降低了50%的差异性,取得了很好的结果。但是,该网络的主要缺点就是生产效率低。由于自回归过程的原因,声音是按照顺序生成的,大约需要1-2分钟来创建1秒的音频。
听到这个结果让人感觉有点失望。如果能够消除网络结构对输入文本的依赖性而仅仅留下对先前生成的音符的依赖性,那么网络将产生类似于人类语言的音符,但是这样做并没有意义。
这是一个应用该模型生成声音的例子。这种相同的模式不仅适用于演讲,也适用于音乐创作。
想象一下由生成模型生成的音频,使用关于同样不依赖于输入数据的钢琴数据库进行音乐教学工作。
如果你对这方面感兴趣的话,请阅读DeepMind关于此研究的完整介绍。
唇语解读
唇语解读是深度学习超越人类的另一大表现。GoogleDeepMind与牛津大学合作,他们发表论文讲述如何用电视数据集训练的模型的性能表现是如何超过BBC频道里的专业唇语读者。
该数据集中有10万个带有音频和视频的句子。采用音频数据训练LSTM模型,视频数据训练CNN+LSTM模型。这两种状态下训练得到的模型向量都被馈送到最终的LSTM模型中去,从而产生最终的结果。
在训练期间使用不同类型的输入数据:包括音频、视频和音频+视频组合数据等。换句话说,这是一种“全渠道全方位”的训练模型。
合成奥巴马:在音频中同步他的嘴唇运动
华盛顿大学做了一项严谨的研究,来生成前美国总统奥巴马的唇语动作。之所以会选择他作为研究对象,是因为这段在线录音的持续时间很长,数据数量巨大(17个小时的高清视频)。
由于他们没办法得到更多的数据资料,因此研究者进一步提出了几个技巧性的东西来改善最后的结果。如果你感兴趣的话,可以来试试看。
你可以看到研究的结果是很惊人的。在不久的将来,你甚至将不能相信那些总统的演讲录像了。
计算机视觉
OCR:Google街景地图
GoogleBrainTeam在他们的博客和文章中报道了他们是如何在地图中引入新的OCR(光学字符识别)引擎,通过它来识别路牌和商店标志。
在这项技术的开发过程中,他们编制了一个新的FSNS(法国街道名称标志),其中包含许多复杂的样例。为了识别每一个标志,网络最多使用四张图片,用CNN来提取图片特征,再辅以空间注意力机制,最终将结果馈送到LSTM模型中。
相同的方法适用于在标志牌上识别商店名称的任务(这可能会受到很多“噪声”数据的干扰,而模型本身需要聚焦到正确的位置上)。这种算法已适用于亿张照片的识别。
视觉推理
视觉推理任务,要求神经网络使用照片来回答其中的问题。例如,“在图片中是否有与黄色金属圆柱体相同尺寸的橡胶材质?”这确实是个非常重要的问题,而直到最近这个问题才得以解决,其准确率只有68.5%。
Deepmind团队在这个领域再次取得了突破:在CLEVR视觉推理数据集上,他们的模型实现了95.5%的超人类精确度。模型的网络架构十分有趣:
在文本问题上使用预先训练好的LSTM模型,我们将问题嵌入到模型中。
使用CNN模型(只有四层结构)对图片提取特征,我们得到图片的特征映射用来表征图片的特征。
接下来,我们在特征映射图上(如下所示图片的黄、蓝、红色区域)形成坐标切片的成对坐标组合,并将坐标值和文本信息嵌入到每个区域中。
通过另一个网络,我们将上述整个过程驱动三次,并将得到的最后结果汇总。
最终呈现的是通过另一个前馈网络运行的结果,并给出了Softmax的结果。
Pix2Code
Uizard公司创建了一个神经网络的有趣应用:即根据界面设计者的屏幕截图来生成一个界面布局。
这是一个非常有用的神经网络应用程序,他可以使开发者在开发软件时更加轻松。该项应用的研究者声称他们已经能够达到77%的应用准确率。
但是,这个问题目前还处于研究完善中,并没有真正应用。因此,目前在开源社区还没有相关的代码或者数据集。
SketchRNN:教一台机器学会画画
也许你看过Quick,Draw!这是出自Google公司之手,其目标是在20秒内绘制出各种对象的草图。该公司设计这个数据集的目的是,教会神经网络如何画画。
最终,为了适应自编码器的需要,该模型接收到表征原始图像的潜在向量。
由于解码器能够从这个潜在向量提取一副草图,你可以通过改变它来得到一副新的草图。
甚至可以执行一个矢量算法来创建一个catpig。
生成对抗网络
生成对抗网络是当下深度学习中最热门的话题之一。大多数情况下,这个模型是用来处理图像数据,因此我们会用图像来解释这个模型。
提出这个模型的思想是在两个竞争的网络中,一个生成网络和一个判别网络。生成网络是用于创建一张新的图像,而判别网络试图去判定图像是真实的还是生成的。模型原理示意图如下所示:
在训练期间,生成网络接收随机向量(噪声)作为输入并生成图像,接着将其馈送到判别网络中作为其输入,由判别网络判定输入的真假性。判别网络也可以从数据集中给出真实的图像。由于很难找到两个网络的平衡点,因此训练生成对抗网络一大难点。大多数情况下,判别网络获胜时训练过程也就停止了。但是,这种模型的好处就在于我们可以解决一些难以设定损失函数的问题。例如,要提高图片的质量,我们可以将其提供给判别网络。
生成对抗网络训练的典型例子就是带卧室或人的图片,如下所示:
同样的算法也可以在潜在的空间起作用:例如,“一个戴眼镜的男人”减去“男人”再加上“女人”等于“戴眼镜的女人”。
用生成对抗网络改变人脸的年龄
如果在训练过程控制潜在向量的传入参数,那么在生成潜在向量时,就可以更改这些参数值,以便管理图片中这些必要的图像信息,这种方式称为条件生成对抗网络模型。正如文章的作者提到的:“面对有条件的生成对抗网络模型,人脸的年龄是可以被改变的。”在已知人脸年龄的情况下,在IMDB数据集上训练我们的模型,我们可以用这种方式改变人脸的年龄。
专业照片
Google为生成对抗网络创建了一个有趣的应用程序,就是照片的选择和美化。生成对抗网络模型在一个专业的照片数据集上训练:生成网络试图改善质量较差的照片(包括专业镜头和特殊滤镜的功能退化等),而判别网络用于区分“改善后”的照片和真正的专业照片。
一个训练有数的算法,能够通过Google街景的全景搜索功能来搜索得到一些专业和半专业质量的照片(根据摄影师的评级标准而定)。
从文本描述中合成图像
生成对抗网络最令人印象深刻的一个例子是使用文本的描述信息来生成图像。
这项研究的作者说到,不仅将文本信息嵌入到生成网络(条件生成对抗网络)的输入中去,而且还要将其嵌入到判别网络中去,以便验证文本信息与图像的对应性。为了确保判别网络自身功能的发挥,除了训练过程,研究者还为实际图片添加了一些不正确的文本信息。
Pix2Pix
在年最受人瞩目的文章当属BerkeleyAIResearch(BAIR)提出的“用带有条件的生成对抗网络来实现图像到图像的转换”。研究人员解决了从图像到图像生成的问题,例如,需要使用卫星图像来创建地图,或使用草图来创建逼真的对象纹理,都可以使用该研究的成果。
条件生成对抗网络的另一个成功应用例子,是根据情景生成整个画面。这在图像分割领域得到广泛的应用,Unet被用作生成网络的体系结构,并且使用一个新的PatchGAN分类器作为判别网络,用以对抗模糊图像的干扰(图像被分割成N个补丁,并且伪造/真实的预测将分别适用于他们当中的每一个部分)。
作者发布了他们模型的在线演示,你也可以在这里找到模型的源代码。白癜风症状白癜风的症状图片
转载请注明:http://www.deudeguo.com/jyjs/15680.html