阿里达摩院做AI这两年.docx

资源ID：73269437 资源大小：24.62KB 全文页数：14页
资源格式： DOCX 下载积分：14.8金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要14.8金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

阿里达摩院做AI这两年.docx

阿里达摩院做AI这两年整理|Jane出品|AI科技大本营IDrgznai100)2017年度10月的杭州云栖大会上阿里巴巴正式宣布成立达摩院将来三年度将投入将超过1000亿人民币用于根底科学以及颠覆式技术创新研究。达摩院官网正式上线后我们看到达摩院重点布局机器智能、数据计算、机器人、金融科技和X实验室五大领域相应设置有14个实验室共有近70名海内外专家坐镇。AI技术是达摩院目前重金押注的技术领域之一即将成立两年度人们可能都比拟好奇达摩院在AI上到底布局了哪些技术领域又在哪些技术方向上获得了打破本文将一一盘点达摩院在AI技术上的重大进展。阿里AI的技术开展及平台建立阿里拥有全面的AI技术布局涵盖语音智能、语言技术、机器视觉、决策智能等方向建成了完善的机器智能算法体系不仅囊括语音、视觉、自然语言理解、无人驾驶等技术应用领域还不断深化AI根底设施建立重金投入研发AI芯片、超大规模机器学习平台并建成了单日数据处理量打破600PB的超大计算平台。下面我们主要围绕语音智能、语言技术、机器视觉三大技术领域与平台化建立的最新开展与成绩一览阿里AI技术这两年度的进展。一语音智能语音识别2018年度6月阿里达摩院开源了自主开发的新一代语音识别模型DFSMN在世界最大的免费语音识别数据库LibriSpeech上进展公开测试。比照目前业界使用最为广泛的LSTM模型DFSMN语音识别模型训练速度更快、识别准确率更高。基于DFSMN模型阿里AI又研发了DFSMN-CTC模型语音错误率大幅下降解码效率提升6倍。此外阿里巴巴机器智能技术实验室正在研发高工业噪声环境下的语音识别及传输技术。以后诸多车间工人将辞别“通讯靠吼的境况简单的沟通言语会转换成文字。目前在85分贝工业噪声下可以实现将一米处正常音量语音转换为文字准确率达94.6%可以解决大局部工厂里的噪声聋问题。这项工作仍在继续将来团队祈望可以实现95分贝工业噪声下进展语音识别。阿里巴巴工程师正在调试AI语音识别系统语音交互目前阿里语音AI每日调用量已达1.8亿次。2019年度7月阿里开源人机对话模型ESIM。ESIM是一个解决多轮对话回复问题的原创模型通过给对话机器人装上实时搜索并理解人类真实意图的“雷达系统实现对对话历史的实时检索自动去除多余信息的干扰给出人类期待的回复。例如当人们线上购物时提出要一件M号的黑色裙子智能机器人通过对库存情况的实时检索发现并答复用户没有黑色M号的裙子。用户接着问“那有白色的吗此时传统模型训练出的AI客服很难判断用户是要问“这件裙子是否有白色款还是“有没有白色的M号裙子无法给出准确回复。阿里AI通过对用户对话上下文的检索明确用户的核心在于尺寸而非颜色很快给出有没有白色M号裙子的准确回复。这项技术将来将会被应用到人机交互的多个场景智能语音点餐机可以更准确地理解人们的真实意图进步点单成功率导航软件能更容易听懂人们的语音恳求少走冤枉路家里的智能音箱可以更快做出反响节省等待时间。语音合成阿里达摩院机器智能实验室自主研发的基于翻译的合成技术Knowledge-AwareNeuralTTSKAN-TTS深度交融了目前主流的端到端TTS技术以及传统TTS技术同时系统构建了基于不同领域的深层知识。并针对CPU部署的框架设计进展优化提供高效、便捷的部署才能另外还改良了20多项关键算法从多个方面改良了语音合成。传统语音合成定制需要10小时以上的数据录制以及标注对录音人以及录音环境要求很高。从启动定制到最终交付工程周期长本钱高。阿里利用Multi-SpeakerModel与Speaker-awareAdvancedTransferLearning相结合的方法将语音合成定制本钱降低10倍以上周期压缩3倍以上。也就是讲用1小时有效录音数据以及不到两个月制作周期就能完成一次标准TTS定制。这也意味着普通用户定制“AI声音的门槛更低。只需手机录音特别钟就能获得与录制声音高度相似的合成语音。阿里AI做到这一点主要基于自动数据检查、自动标注方法以及对海量用户场景的利用。阿里已经对外提供开箱即用的TTS解决方案共有通用、客服、童声、英文以及方言5个场景的34种声音供选择。基于新一代技术阿里还进步了设备端离线TTS的效果。这在超低资源设备端的TTS效劳中非常有用比方当人们驾车行驶于信号微弱区域时防止语音导航“掉线。除了在语音识别、语音交互与语音合成等领域的进展在声纹识别领域阿里达摩院研发了声纹无监视聚类技术推出分布式语音交互模组用于阿里云IoT结合阿里达摩院发布的分布式语音交互解决方案中方案除了语音交互模组外还包括语音自学习平台、对话平台和阿里云IoT智能人居平台打通了上下游平台串联、端云一体才能缩短智能人居环境开发周期同时还具备强扩展才能。二自然语言处理机器翻译2017年度的WMT竞赛大多数系统是基于RNN以及LSTM包括最终获得冠军的系统也是基于此。仅仅过了一年度时间各大机构都争先使用Transformer。达摩院机器智能技术实验室资深算法专家陈博兴带着的达摩院机器翻译团队在此次比赛中基于Transformer构造Self-Attention、Multi-headAttention等技术进展了网络构造的改良充分利用词语位置信息提出高度并行化、能捕捉层次化信息的神经网络全面提升了机器翻译的性能。去年度AI科技大本营也邀请了阿里巴巴机器智能技术实验室阿里巴巴翻译平台翻译模型组负责人于恒做了公开课共享目前达摩院机器翻译技术团队已实现了48个语言翻译方向支持俄、西、法、阿、土泰、印尼、越南等多种语言翻译其中电商覆盖了大局部语向以及场景超越谷歌以及亚马逊日调用量到达17.9亿次。阿里的机器翻译技术除了应用于电商全链路效劳之外还广泛应用于菜鸟物流通关、阿里云国际社区、飞猪旅行翻译助手、钉钉社交口语翻译等一系列产品。QA任务机器浏览传统AI浏览需要某一领域的专业人士准备好问答数据AI答复也仅限于该领域例如金融领域的人工智能无法答复物流领域的问题。阿里研究团队提出的“基于分层交融注意力机制的深度神经网络模型可以模拟人类在做浏览理解问题时的一些行为包括结合篇章内容审题带着问题反复浏览文章防止浏览中遗忘而进展相关标注等。模型可以在捕捉问题以及文章中特定区域关联的同时借助分层策略逐步集中注意力使答案边界明晰另一方面为防止过于关注细节采用交融方式将全局信息参加注意力机制进展适度纠正确保关注点正确。比方4300万字的?大英百科全书?阿里AI可以在毫秒内浏览完并根据自己的理解快速答复涉及书中不同领域的不同问题。例如亚洲有多少个国家美国第五任总统是谁恐龙是什么时候消失的机器人可以分别迅速给出答案无惧“连环追击。阿里还提出了基于“交融构造化信息BERT模型的“深度级联机器浏览模型可以模拟人类浏览理解的经过先对文档进展快速阅读判断然后针对相应段落进展精读并根据“自己的理解回答下列问题。常识推理可以讲是难度最高的NLP任务之一深度学习领军人物之一、图灵奖获得者YannLeCun曾有断言最聪明的AI在常识方面也不如猫。阿里巴巴达摩院语音实验室还提出了AMS方法显著提升BERT模型的常识推理才能。AMS方法使用与BERT一样的模型仅预训练BERT在不提升模型计算量的情况下将CommonsenseQA数据集上的准确率提升了5.5%到达62.2%。语义识别2019年度4月1日愚人节之际阿里巴巴发布了这项旨在粉碎网络谣言以及假新闻的AI技术“AI谣言粉碎机。其算法模型由阿里巴巴达摩院机器智能实验室研发依靠深度学习以及神经网络技术通过对信息的多维度以及多角度分析团队设计了一整套包含发布信息、社交画像、回复者立场、回复信息、传播途径在内的综合断定系统首次把谣言识别以及社交用户观点识别打通并做穿插分析目前在特定场景中的准确率已经到达81%最快可以在1秒内断定新闻的真实性。三机器视觉医疗影像分析2017年度7月国际权威肺结节检测大赛LUNA16要求选手对888份肺部CT样本进展分析寻找其中的肺结节。样本共包含1186个肺结节75%以上为小于10mm的小结节。最终阿里云ET在7个不同误报率下发现的肺结节平均召回率到达89.7%。召回率指在样本数据中成功发现的结节占比下列图显示了ET在不同误报次数下的召回率情况。FROC曲线其背后的技术由阿里巴巴iDST视觉计算团队完成负责人华先胜介绍与常用的两阶段检测方法不同他们创新性地使用了单阶段方法全程无须人工干预。机器全自动读取病人的CT序列直接输出检测到的肺结节。在模型构造设计上ET针对CT切片的特性采用多通道、异构三维卷积交融算法、有效地利用多异构模型的互补性来处理以及检测在不同形态上的肺结节CT序列进步了对不同尺度肺结节的敏感性同时使用了带有反卷积构造的网络以及多任务学习的训练策略进步了检测的准确度。比赛中团队克制了一系列挑战如结节模态复杂问题早期的结节小小于10mm传统的机器学习以及用于自然图像的深度学习网络通常难以凑效。肝结节的准确测量可以辅助医生做出决策以及治疗方案。但肝结节形态多样即使是同一个病人结节的大小、形状都不一样进而导致结节间灰度分布差异大、或者与周围组织灰度相似甚至没有明晰的边界。阿里那么通过对CT图像层间信息以及层内信息交融的网络构造分析解决肝结节类别多样性的问题。采用基于原子卷积的空间金字塔池化AtrousSpatialPyramidPooling、亚像素卷积SubPixelConvolution及多特征交融等技术。华先胜表示目前团队研究范围已经覆盖肺、肝、骨、心脏、脑等部位的疾病涉及影像分析、自然语言处理、设备信号处理等相关技术局部技术已经落地到实际的医疗诊断中。超大规模图像识别图像搜索2019年度6月在被誉为人工智能世界杯的WebVision竞赛要求参赛的AI模型将1,600万张图片精准分类到5,000个类目中。相比于经过人工标注完毕的ImageNet数据集WebVision所用数据集直接从互联网爬取没有经过人工标注含有较多噪音且数据类别的数量组成极大不平衡AI的识别难度更高。阿里AI引入了构建类别语义标签关系的模型并采用辅助信息模型进展图像去噪的深度学习技术和阿里自研的可以支持数十亿图片分类训练的超大平台。最终阿里AI以82.54%的识别准确率击败全世界150多支参赛队获得冠军目前该技术可以识别超过100万种物理实体。2019年度7月在CVPR2019举办的LPIRC低功耗图像识别挑战赛中阿里AI获得在线图像分类任务第一名以23ms的单张图片分类速度在10分钟内分类20,000张图像。在挑战赛使用的训练数据集上实现了67.4%的分类精度比官方提供的基准线高3.5%。视觉对话视觉对话是近年度来快速崛起的AI研究方向目的在于教会机器用自然语言与人类讨论视觉内容。假如讲视觉识别技术让机器具备了视觉才能那么视觉对话技术那么使机器拥有了对真实视觉世界的理解与推断才能意味着AI的认知才能将迈上新的台阶。视觉对话中AI可以沉着应对人类提问左为AI右为人类传统的视觉AI主要针对目的的检测以及识别例如识别出图片是否是一只猫但对复杂场景中目的之间的逻辑关系理解、推理才能较弱无法答复“这只猫旁边的男生穿了什么颜色的衣服等复杂问题也难以将图片信息转化为人类理解的语言输出。阿里AI提出了“递归探究对话模型综合集成了图像识别、关系推理与自然语言理解三大才能通过高效利用标注信息学习出模拟人类认知复杂场景的思维方式可以有效识别图片里的实体和它们之间的关系推理出图片所描绘的事件内容并通过对上下文进展有效建模理解人类提出的问题及真实意图给出自然准确的回复。将来视觉对话技术将被应用在人机交互的众多场景中。地震后在废墟中寻找幸存者的救援机器人能更加及时、高效地综合指挥指令以及场景信息作出行动视障人士可以通过提问AI理解网络照片中的内容解析自身所处的周围环境无人驾驶车辆对影响因子的意图理解会更为准确乘客的乘坐体验更好。四阿里AI的根底平台建立机器学习平台PAI3.0在AI应用技术上的不断探究之外阿里不断深化AI根底设施建立。机器学习平台为人工智能开展提供深度学习数据处理以及模型训练的一站式效劳阿里研发了大规模分布式机器学习平台PAI让企业以及开发者拥有便捷的人工智能开发才能大幅降低使用人工智能的本钱。该平台是国内首个集数据处理、建模、离线预测、在线预测为一体的机器学习平台提供100余种算法组件支持千亿特征、万亿模型以及万亿样本乃至PB级的数据训练为传统机器学习提供上百种算法以及大规模分布式计算的效劳。分布式深度学习框架XDL2018年度杭州云栖大会上针对广告、搜索、推荐等典型数据处理场景发布自研新一代工业级分布式深度学习框架XDL关注的核心是这些场景下高维稀疏数据的性能。分布式计算引擎Maxcompute大规模算力是支撑的机器智能高效应用的根底。阿里拥有丰富的异构计算平台以及自研的大规模分布式计算引擎Maxcompute包括超大规模批量计算、超高并发实时计算、复杂图数据推理计算三类综合性能上领先现有开源引擎30%整体本钱降低20%。在2018年度双十一MaxCompute单日数据处理量打破600PB。挪动端轻量级的深度神经网络推理引擎MNN基于淘宝以及达摩院的研究成果阿里2017年度开场组建MNN团队。2019年度5月阿里开源了首个挪动AI工程轻量级的深度神经网络推理引擎MNNMobileNeuralNetwork具有轻量、通用、高性能、易用性特征。MNN提供模型转换以及计算推理两大功能模型转换功能帮助开发者兼容不同的训练框架如TensorFlowLite、ONNX等计算推理局部应用了多种优化方法高效推理。MNN可用在智能手机、IoT设备等端侧加载深度神经网络模型可应用于阿里手机淘宝、手机天猫、优酷等20多个应用覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、平安风控等场景。达摩院阿里AI开展的“总枢纽固然阿里在人工智能赛道的起步不算最早不过等到AI风口在2021年度前后起势阿里也储藏了相当分量的AI人才。两年度前阿里组建达摩院全面晋级人工智能的技术、商业布局。某种程度上达摩院的组建是阿里人工智能组织力量的重大晋级奠定了这两年度阿里AI技术飞速开展的根底。当然技术能否带来经济社会生活的改变能否带来商业化场景大规模落地才是技术价值的最终表达。在人工智能领域技术应用的商业化是衡量价值的唯一标准而阿里产业AI目前已普及医疗、金融、制造、司法、交通、环保、教育、零售等领域。领先的算法技术、AI应用的系统集成才能、AI产业生态构建才能、海量用户场景、开源技术生态、大规模研发投入以及顶级人才团队和自身的AI商业化形式是阿里AI获得现有成绩的关键组成局部而阿里达摩院无疑是将这些因子串联起来的“总枢纽。*本文为AI科技大本营原创文章转载请联络1092722531精彩推荐 “只讲技术回绝空谈2019AI开发者大会将于9月6日-7日在北京举行这一届AI开发者大会有哪些亮点一线公司的大牛们都在关注什么AI行业的风向是什么2019AI开发者大会倾听大牛共享聚焦技术理论以及万千开发者共成长。目前大会早鸟票限量出售中扫码购票领先一步推荐浏览你点的每个“在看我都认真当成了喜欢

注意事项

本文（阿里达摩院做AI这两年.docx）为本站会员（安***）主动上传，得力文库 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知得力文库 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。