一支笔的AI之旅

发布日期: 2019-08-15 09:03 

一支笔的AI之旅

你知道地球上物种大爆发的时代吗?

现在就很像。

但不是生物物种,而是AI带来的一个又一个新硬件、新产品和新物种。

一切正在被重新定义,小到一支笔,大到一家公司,再大到整个行业。

我们今天从一支笔的AI奇幻之旅说起。


一支笔,AI加持

碰到不认识的英文单词,你会怎么办?

掏出来电子词典?打开手机上的App查?还是搬出“牛津词典”?

现在有AI,只需要拿着笔扫一下,不需要输入就能查单词。



整个过程,只用了大概1秒钟的时间,要比翻纸质词典,用电子词典以及手机快多了。

而且, 再长也能扫出来,比如这个单词:

supercalifragilisticexpiadocious。

出现在一部名叫Mary Poppins的电影里,意思是“好”。



翻译的质量上也有保证,还能自动把单词念出来,让人感受发音。整个过程,不需要联网也能完成。

还能翻译一句话:



这支笔,是网易有道新推出的AI硬件网易有道词典笔2.0

在8月底,将会OTA升级,在目前离线查单词和整句翻译的基础上,推出整段翻译的功能。

但打造这样一支AI之笔,并不容易,时也运也,赶上AI复兴,技术条件依然具备。


AI大爆炸

AI复兴,世人皆晓AlphaGo,另一个标志性变革鲜有人知。

也是2016年,一款AI产品悄然上线,不同于AlphaGo带来的冲击,但它让每一个人都能真正体验到AI的能力、实力和便利。

它就是首个基于神经网络翻译的机器翻译系统问世。



不同于基于统计的传统机器翻译方法,神经网络机器翻译能够自动从语料库中学习翻译知识,从而实现了翻译质量的”跨越式“发展。之后神经网络机器翻译便成为主流翻译工具的核心方法,融入了人们生活之中。

不过,这只是前奏。

整个AI技术方向上,计算机视觉、语音识别、自然语言处理、机器人等等都有了惊人突破,机器已经在图像识别、语音识别等多个方面超越普通人类水平。

与此同时,掌握成熟AI技术的公司,开始思考怎样把AI进一步落地,实现其商业价值。

而教育领域,网易有道借势而起,结合已有场景,加持前沿技术,打造全新硬件产品,最后解决实际难题……

网易有道词典笔2.0,正是其中缩影。

它主打的功能,是每秒查一个单词:

与”传统的”查单词方法相比,核心原因是省略了人”输入“单词给机器的过程,而且由机器将单词输入给机器。

具体来说,它的笔头是一个高速摄像头,核心作用是在用户提笔扫单词的时候,每秒拍摄100多张图像。



这图像……太碎了,对于机器来说,根本不可能理解,更遑论翻译?

要用AI把它们拼起来再给机器看,整个拼接过程难点不少,并不是任何一家公司都能够驾驭。

首先,文本图像的拼接问题

与正常处理的图像不同,使用高速摄像头拍摄下来文本图像纹理特征通常较少。

通常用于完成拼图任务的基于尺度不变特征匹配方法,很容易对不同的文字图像生成相同的特征描述子,从而引发误匹配导致拼图失败。



为了解决这个问题,网易有道根据实际应用场景自行设计了一套特征,从而用自定义的方式快速提取特征。相比传统SIFT花1毫秒提取单张图像的特征,有道定制化的提取方法要高效很多。

总体而言,词典笔2.0所采用的图像拼接方法可以分为图像配准、图像融合与文本切行三大步骤。

此外,他们也对算法上进行了很多优化,比如文字的加测、样本的矫正等等,进一步提升扫描图像的拼接准确度。

其次,用户扫描不规范的问题

这支笔,是一个面向C端用户的产品,使用者是有各种习惯的用户,他们扫描的过程中持笔的角度、滑动的速度以及抖动都会影响图像匹配。如果使用传统的图像特征匹配方法,很容易造成误匹配和高延时。

网易有道介绍称,他们设计的多特征图像匹配算法,能够充分挖掘上述场景的图像对亲关系,从而支持最高240mm/s的扫描速度,与桌面夹角成90度至60度的扫描角度,拼图成功率高达98%。



此外,他们通过综合所有字符检测位置对用户扫描的行样本进行组行、矫正、切分,来解决用户持笔扫描抖动的问题,也支持一定距离内的左右滑动。

至于不同扫描文本的字体不同、背景不同等问题,他们也在模型训练过程中扩充上述场景的素材,极大地增强了模型的泛化能力,也在拼图阶段使用图像处理方法对全景图像进行了去燥使得文本特征更加突出。

除了上述的自适应全场景拼接功能,他们还实现了流式识别计算——即在扫描拼接图像的同时,将内容提取出来,交由神经网络去翻译。

通过种种优化,网易有道最后实现了95.5%的综合准确率,而业内平均水平不过82%。他们表示,这一成绩超越了竞品。

网易有道凭什么?


网易有道归去来

有道,一开始是一款搜索产品,定位是网易自主研发的中文搜索引擎。

在搜索领域7年的耕耘,为其在大规模数据存储计算等领域留下不少技术储备。

2013年,有道选择将精力从搜索业务上收回,专注于语言翻译应用与服务、个人云应用和电子商务导购服务等三个方向。

最核心的,是语言翻译应用与服务方向的业务。

2006年12月,在搜索业务上线的同时,网易有道也推出了海量词典产品,而且一直在有更新推进:

2007年12月,有道词典桌面版正式上线,2009年1月,有道词典首个手机版本上线。

10多年发展至今,网易有道词典已经官宣有8亿+用户,成为国内最大词典应用之一,这样也给网易有道的技术研发积累了大量数据。

在发展过程中,网易有道也在不断拓宽业务边界,推出有道云笔记、有道精品课等一系列产品,涉足在线教育市场。



虽然网易有道没有抓住搜索的浪潮,但在神经网络重塑整个行业的时候,它抓住了,并在光学字符识别技术和神经网络翻译方面,建立了优势,这也是在线教育领域最为核心的两大AI技术。

2016年,谷歌上线神经网络机器翻译系统的那年,网易有道首席科学家段亦涛开始带队研发神经网络翻译技术,并在2017年将有道翻译升级为神经网络机器翻译引擎。

现在,有道神经网络机器翻译系统,支持中文与英日韩等12个语种直接互译,9种语言的英文互译。



在准确度上,也达到了业内领先的水平。

根据网易有道披露的数据,2019年7月的测评中,网易有道的神经网络翻译引擎在大小写不敏感的情况下,新闻领域测试集上的BLEU-4得分已经超过谷歌和微软。



2017年,网易有道也开始使用基于神经网络的OCR技术,在互联网教育行业中持续进行技术渗透和迭代更新。

网易有道宣称,现在,其已支持26种语言文字识别,也能进行语种自动判别和混合识别,准确率达99.6%,是目前国内识别语言最多的OCR识别引擎。

除了常规识别场景,针对教育场景,他们还对OCR技术进行了优化,比如公式识别:

准确率达到93%,可以实现转LaTeX功能,并在此基础上研发出了机器自动解方程功能。

此外,还支持拼音、绘本、模糊字等特殊文本的识别,平均准确率达95%。而且,在提供线上服务的同时,有道OCR引擎还支持端侧的离线模型部署,大小为50M。



在语音识别与合成与自适应学习的技术研发上,网易有道也已投入大量资源进行研发工作。

其中,语音识别技术在一些场景上准确率超过98%,支持中、英、日、韩多个语言,语音合成引擎也已经支持中、英、日、韩、葡等多个语言。

自适应学习方面,已经能够配合智能硬件,实现实时采集书写数据,提供学情分析、知识图谱评估等一系列自适应学习辅助功能。

这些技术积累,正是网易有道“站出来”、拿出解决方案的原因。

从2017年开始,网易有道也开始推动AI技术落地。一方面通过有道智云,向企业用户输出能力,合作伙伴有华为、小米、OPPO、联想、努比亚、步步高、优学派、读书郎等。



另一方面,也开始寻找场景,面向消费者推出AI硬件。从2017年10月推出翻译蛋以来,已经有8款产品问世。



现在,网易有道是一家什么公司?CEO周枫说,是一家全链条的教育科技公司。接下来要做的是探讨“教育与科技的结合”。

这是整个行业的大势所趋,也是网易有道的机会。

因为变革时代已来,新技术催化,硬件新物种频出。网易有道这样的公司,也会越来越多从“幕后”来到台前。

在AI浪潮中,你还能举出类似的公司吗?

文章来源:量子位              作者:乾明           编辑:却原来

 

查看更多新闻

在线OCR识别小工具,一键提取图片中的文字,转成word、excel、pdf等文档
地址:安徽省合肥市高新区品恩科技园1203
皖ICP备14001900号-2
皖公网安备 34010402701701号