1. 首页
  2. 最新文章

ai前亚马逊首席科学家薄列峰加盟京东金融

亚马逊首席ai科学家

AI科技评述按:本月18日在西雅图召开的“AINEXT”大会,是人工智能圈子的又一次超高规格盛会。虽然是第一届,与会机构阵容却一点也不暗昧:微软、谷歌、亚马逊、Uber、Facebook、华为、腾讯等均派代表到场。

大会主理方是美中技能与创新协会(Association of Technology and Innovation,ATI)——专注于促进华人之间、以及华人与国际社会的 AI 技能交流。因此,本次会议的一大亮点是满满的华人大牛面貌:此中有微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外,另有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas Parastatidis 等业内知名专家。

大会主题是“探索 AI 的潜力,把 AI 技能应用于实用项目和服务”,对 CV、NLP、智能助手、深度学习框架均做了专题陈诉。本次,亚马逊首席科学家 Nikko Strom 再次以“Alexa是怎样炼成的”为主题具体论述了 Al!exa 里的大范围深度的基本架构、语音辨认、语音合成等内容,尤其提到了Alexa为“鸡尾酒派对困难”找到了有用的解决方法。

Nikko Strom,亚马逊首席科学家。1997年于瑞典工学院得到博士学位,后担当MIT盘算机科学试验室研究员;2000年参加初创公司Tellme Networks,2007年参加微软,推进贸易语音辨认技能的前沿研究;2011年参加亚马逊,并担当首席科学家,向导语音辨认及相关范畴的深度学习项目,是现在炙手可热的亚马逊Echo和Alexa项目标首创成员。

这是Amazon Echo,内置了一个Alexa系统,提供语音服务,你可以把它放到你的家里,你可以跟它对话,并不需要拿遥控器来控制。这个Holiday Season,我们参加了新的白色Echo和Dot,你们当中应该有许多人比较偏幸白色的电子产品。别的的一些产品,并没有内置Alexa系统,但是可以与其连接,好比家里的灯具、咖啡机、恒温器等,你只需要语音,就可以让它们实行一些下令。别的,开发者们通过“Skills”来给Alexa增长更多的功能应用。

现在数百万的家庭里放置了Echo,而它真正地在被使用着,由此我们得到的数据多到猖獗(insane),大概会超出你的想象。我无法告诉你确切的数字,但尽大概往大了去想吧。

深度学习底子框架

人的耳朵并非时时刻刻都在搜集语音信息,“听”的时间约莫占10%,以是一个人发展到16岁的年龄,他/她所听到的语音练习时间大概有14016小时,关于这个数据,我背面会提到一个对比。

回到Alexa,我们把数千个小时的真实语音练习数据存储到S3中,使用EC2云上的分布式GPU集群来练习深度学习模型。

在练习模型的過逞中,用MapReduce的方法效果并不抱负,由于节点之间需要频繁地保持同步更新,不能再通过增长更多的节点来加速运算。我们可以这样明白,那就是GPU集群更新模型的盘算速率非常之快,每秒都有频频更新,而每次更新约莫是模型本身的大小。也就是说,每一个线程(Worker)都要跟别的线程同步更新几百兆的量,而这在一秒钟的时间里要发生许多次。以是,MapReduce的方法效果并不是很好。

我们在Alexa里的解决方法就是,使用几个迫近算法(Approximations)来淘汰这些更新的范围,将其压缩3个量级。这里是我们一篇2015年论文的图表,我们可以看到,随着GPU线程的增长,练习速率加速。到 40个GUP线程时,大概成直线上升,然后增速有点放缓。80 GPU线程对应着约莫55万帧/秒的速率,每一秒的语音约莫包含100帧,也就是说这时的一秒钟可以处置约莫90分钟的语音。前面我提到一个人要花16年的时间来学习1.4万小时的语音,而用我们的系统,约莫3个小时就可以学习完成。

这就是我们大抵的深度学习底子架构。

声学模型

我们知道语音辨认系统框架重要包括四大块:信号处置、声学模型、解码器和后处置。

首先我们将从麦克风收集来的声音,进行一些信号处置,将语音信号转化到频域,从每10毫秒的语音中提出一个特性向量,提供应背面的声学模型。声学模型负责把音频分类成差别的音素。接下来就是解码器,可以得出概率最高一串词串,最后一步是后处置,就是把单词组合成轻易读取的文本。

在这几个步骤中,我们或多或少都市用到机器学习和深度学习的方法。我今日重要讲一下声学模型的部分。

声学模型就是一个分类器(classifier),输入的是向量,输出的是语音种别的概率。这是一个典型的神经网络。底部是输入的信息,隐蔽层将向量转化到最后一层里的音素概率。

这里是一个美式英语的Alexa语音辨认系统,以是就会输出美式英语中的各个音素。在Echo初始公布的时间,我们录了几千个小时的美式英语语音来练习神经网络模型,这个本钱是很高的。固然,全球上另有许多别的的语言,好比我们在2016年9月发行了德语版的Echo,假如再重头来一遍用几千个小时的德语语音来练习,本钱是很高的。以是,这个神经网络模型一个风趣的地方就是可以“迁徙学习”,你可以保持原有网络中别的层稳定,只把最后的一层换成德语的。

两种差别的语言,音素有许多是不一样的,但是仍旧有许多相同的部分。以是,你可以只使用少量的德语的练习数据,在稍作改变的模型上就可以最终得到不错的德语结果。

“锚定嵌入”

在一个布满许多人的空间里,Alexa需要弄清晰到底谁在说话。开始的部分比较简单,用户说一句叫醒词“Alexa”,Echo上的对应方向的麦克风就会开启,但接下来的部分就比较困难了。好比,在一个鸡尾酒派对中,一个人说“Alexa,来一点爵士乐”,但假如他/她的旁边紧挨着搭档一起攀谈,在很短的时间里都说话,那么要弄清晰到底是谁在发出指令就比较困难了。

这个问题的解决方案来自于2016年的一份论文《!锚定语音检测》(Anchored Speech Detection)。一开始,我们得到叫醒词“Alexa”,我们使用一个RNN从中提取一个“锚定嵌入”(Anchor embedding),这代表了叫醒词里包含语音特性。接下来,我们用了另一个差别的RNN,从后续的请求语句中提取语音特性,基于此得出一个端点决议。这就是我们解决鸡尾酒派对困难的方法。

“双连音片断”

Alexa里的语音合成技能,也用在了Polly里。语音合成的步骤一样平常包括: 第一步,将文本规定化。假如你还记得的话,这一步骤恰是对“语音辨认”里的最后一个步骤的逆向操作。 第二步,把字素转换成音素,由此得到音素串。 第三步是重要的一步,也是最难的一步,就是将音素天生波形,也就是真正的声音。 最后,就可以把音频播放出来了。

Alexa拥有一连的语音合成。我们录下了数小时人的自然发音的音频,然后将其切割成非常小的片断,由此构成一个数据库。这些被切割的片断被称为“双连音片断”(Di-phone segment),双连音由一个音素的后半段和另一个音素的前半段构成,当最终把语音整合起来时,声音听起来的效果就比较好。

当你创建这个数据库时,要高度过细,保证整个数据库里片断的同等性。别的一个重要的环节是算法方面的,怎样选择最佳的片断序列联合在一起形成最终的波形。首先要弄清晰目的函数是什么,来确保得到最合适的“双连音片断”,以及怎样从巨大的数据库里搜索到这些片断。好比,我们会把这些片断标签上属性,我今日商谈到三个属性,分别是音高(pitch)、时长(duration)和密度(intensity),我们也要用RNN为这些特性找到目的值。之后,我们在数据库中,搜索到最佳片断组合序列,然后播放出来。

AI科技评述雇用季全新启动!

许多读者在思索,“我和AI科技评述的间隔在那里?”,答案就是:一封求职信。

AI科技评述自建立以来,围绕学界和业界鳌头,不停为读者提供专业的AI学界,业界,开发者内容报道。我们与学术界一流专家保持密切联系,得到第一手学术希望;我们深入巨头公司AI试验室,洞悉最新产业变革;我们覆盖A类国际学术会议,发现和推动学术界和产业界的不停融合。

而你只要参加我们,就有时机和我们一起记载这个汹涌澎拜的人工智能年代!

假如你有下面任何两项,请投简历给我们:

*英语好,看论文毫无压力

*盘算机科学要么数学相关专业毕业,好研讨

*新消息媒体相关专业,好交际

*态度好,学习本领强

简历投递:lizongren@leiphone.com

京东金融本日(10月16日)公布,前亚马逊首席科学家薄列峰博士日前正式加盟京东金融,出任京东金融AI试验室首席科学家。

京东金融方面表现,京东金融AI试验室的研发范畴涵盖图像辨认、语音辨认、人机对话等范畴,将来,京东金融也与阿里、腾讯等巨头一样接纳相似的技能发展策略,与美国一流大学研究机构开展常期互助,致力于开发人工智能范畴最前沿的技能。

前亚马逊首席科学家薄列峰加盟京东金融,领衔AI实验室 据雷锋网AI金融评述理解,薄列峰于2007年获西安电子科技大学博士学位,先后在芝加哥大学丰田研究院和华盛顿大学从事博士后研究。研究内容涉及机器学习,深度学习,盘算机视觉,机器人,自然语言处置等多个范畴。 根据雷锋网得到的数据,薄列峰博士在国际顶级会媾和期刊上合计发布论文50余篇。论文总被引用6000余次,H指数38,此中博士学位论文荣获全国百篇良好博士论文奖,RGB-D物体辨认论文荣获机器人权威会议ICRA最佳盘算机视觉论文奖。在国际学术活动方面,薄列峰博士任华盛顿大学盘算机科学与工程学院合聘!传授 (Affiliate Faculty),担当过包括NIPS、CVPR、ICCV、ECCV、AAAI!、SDM等在内的顶级人工智能会议程序委员会委员。 在参加京东金融之前,薄列峰博士就职于亚马逊(Amazon)西雅图总部,担当首席科学家(Principal Scientist),向导研究团队,从事Amazon Go无人零售店的底子算法研究和工程落地。 众所周知,Amazon Go使用盘算机视觉,深度学习和传感器融合技能打造即拿即走的新型购物体验,是零售业颇受关注的革命性创新项目之一。作为研究团队的焦点首创成员,薄列峰博士最近负责着整个项目标统一化架构计划和开发。 现在,京东金融战略变化,践行技能输出的路径,推许将人工智能技能应用于支付、消耗金融、供给链金融等各项业务,随着薄列峰博士的参加,在新金融与新零售焦点技能的联合下,京东金融是否也要走上蚂蚁金服那样 从tech-fin到tech-industries的扩展道路 ,并与之一较高下? 不外,无论怎样,薄列峰博士的参加,以及前不久人工智能范畴权威科学家周伯文博士入职京东,负责京东AI平台与研究部相关业务,这些人才引进的办法无疑将助力于京东金融的底子技能研发。

据京东金融透露,在名誉管理方面,京东金融自主研发的RNN时间序列算法可用于用户行为路径学习,对于风险用户辨认正确率超越常规机器学习算法3倍以上,这一算法已收录入欧洲机器学习会议。 京东金融相关负责人介绍,京东金融将连续引进全球级数据和技能科学家,打造国外与国内技能研发双引擎的格局,为成为一家全球级科技公司夯实底子。



本文作者:温晓桦

阿妮瑪除了擔任亞馬遜AWS首席科學家,同時也獲頒加利福尼亞理工學院傑出布潤传授頭銜,也曾獲得斯隆研究獎、獲得微軟贊助研究獎、Google研究獎等。

在由男性主導的人工聪明學術圈,女性科學家鳳毛麟角,也因此不少科學家致力於推動性別同等教诲,盼望能讓更多女性靠近科學,甚至成為科學家,而阿妮瑪∙阿楠德庫瑪正是這樣的閃亮新星。

2016年10月阿楠德庫瑪(Anima Anandkumar)参加亞馬遜成為人工聪明首席科學家,在Amazon的AWS架構上提供演算法架構,開發一系列的人工聪明工具,如基於深度學習的影像分析服務Amazon Recognition、聊天機器人介面開!發軟體Amazon Lex與自然語言處理服務Amazon Polly等。

阿妮瑪除了擔任亞馬遜AWS首席科學家,同時也獲頒加利福尼亞理工學院傑出布潤传授頭銜,也曾獲得斯隆研究獎、微軟贊助研究獎、Google研究獎等。在學術上她專精於是深度學習領域炙手可熱的非凸問題!(non-convex problem)與張量(Tensor), 用於長期觀察問題。深度學習的優化問題不停都是技術上的挑戰,而當神經網絡的深度越深,優化也就益加困難,由於非凸優化更能準確指稱問題結構,现在學界趨勢上,正由凸優化走向非凸優化。

不過,在深度學習學術上,對於非凸優化問題的明白還非常少,也因此若能提供一個最有用的解答,將在學術或實務上帶來俱來的「時代成绩」,而阿楠德庫瑪正走在這條路上。「凸問題就像是一個找尋一個峰谷地底部,但非凸問題就多個差别深度的峰谷,因而增长準確預測的難度。」阿楠德庫瑪形容。

除了在深度學習學術界的成绩,在非學術領域,她則是推動科學性別同等教诲的倡議者。科技圈不停都是以男性主導的全球,而人工聪明圈更是如此,傑出的女性鳳毛麟角,因此不少傑出女科學家致力於推動性別同等研發環境,盼望大企業能真正重視性別差異。

她的母校印度理工學院馬德拉斯分校(IIT Madras)IIT Madras為了性別均衡,刻意保存了女性的入學名額,她認為,這麼做會適得其反,這些經過特別名額保護而進入學校的女性,將會遭受男性歧視,因此最佳做法應該是檢視入學方法的多元多樣性,而不是用保護主義。

除了性別同等,阿楠德庫瑪認為,不僅是在性別的多元性,在種族與地理分佈上的多元性也很重要,「這全球上有這麼多種差别的人口人種分布,现在在科學圈分布卻完全不合乎比例。」

阿楠德庫瑪成為倡議者並非偶尔,她來自一個鼓勵女性寻求科學成绩的家庭。現年35歲的阿楠德庫瑪是印度裔尤物,出生於以軟體人才聞名的印度西南小城邁索爾(Mysore),父親為機械工程師,而後自行創業,母親則是電機工程師,祖父是一位數學老師。與多數重男輕女的印度家庭觀差别,阿楠德庫瑪爹妈從小讓她沈浸在科學與數學的環境裡,給了她最佳的啟蒙教诲。「我的祖父長鼓勵我用數學思維思索這個全球,我父親最喜歡帶我去工廠和機器怎样運作,解決問題。」阿楠德庫瑪說。

而她的母親更是用身教教導阿楠德庫瑪突破性別差異,寻求科學人生,「我母親是家鄉村裡第一位工程師,她給我巨大的影響,她年輕時為了一圓工程師一夢『絕食』三天,向我的外公表明想成為工程師的決心。」阿楠德庫瑪說。

本文网址: http://www.proadstraffic.com/d/202102484111_1778_2845288469/home