技术赋能
了解AI团队
有道AI团队致力于先进AI技术的创新与落地,我们坚信:最有价值的AI是赋能产品和业务的,并在人们的生活中发挥核心作用。 有道深耕学习场景多年,先后推出了二十余款智能产品,包括有道翻译王、有道超级词典、有道词典笔、有道听力宝、学习机等。 这些产品的核心功能,均由有道AI团队强力支持,核心研发方向涵盖NLP、视觉、语音等多个领域。有道AI还积极探索人类学习的本质,以机器学习助力人类学习,开发出一系列提升学习效果和效率的功能。
其中,明星产品【有道词典笔】开创了智能词典笔品类,作为主力产品,已进入全国500+所知名院校、近万所院校10万余名英语老师都在使用。长期在多个电商平台占据电子词典的销量榜首。
有道AI团队成员由国内外顶尖大学的博士硕士组成,团队的科研创新工作立足于实际的业务场景。有道AI不断推动研究在具体场景产品中落地,致力于发挥其最大的技术价值,并持续发表高水平研究成果。
2018   NLPCC中文语法纠错第一名
2020   Interspeech英语口音识别大赛中取得第二名
2020   AACL 中文语法错误诊断大赛中文语法纠错Top3赛道第一名
2020   InterspeechAESRC 口音种类识别第二名
2021   Interspeech非母语儿童英语语音识别双赛道第一名
2021   CGED 中文语法错误诊断大赛语法错误位置定位赛道第二名,语法纠错赛道第二名
2008年国内首家统计机器翻译线上引擎,2017年升级为神经网络翻译引擎(YNMT),持续14年打磨精进技术和产品。截止2022年6月30日,支持16种语言互译,支持文本、图片、语音、同传、网页、文档等多模态机器翻译能力。 有道NMT基于互联网的海量数据挖掘超过上亿句对的高质量双语语料;基于Transformer的核心框架,结合输入信息、网络结构、参数共享、多任务学习等方式改进核心质量;面向语音、图像、文档等多模态输入输出进行算法和系统级优化; 使用模型压缩、剪裁、参数共享、知识蒸馏、量化、高性能硬件优化等完成了离线模型在以有道词典笔为代表的若干智能终端设备上的顺利落地。在通用机器翻译评价指标BLEU上,有道NMT在包括新闻、金融等领域领先国际机器翻译引擎。
2018年实现语法纠错服务的首个版本上线,随后4年里服务经历多次迭代升级。截止2022年6月30日,有道写作支持英文语法纠错、句子润色、措辞润色、权威例句推荐等多项写作辅助功能。 具体而言,语法纠错服务基于端到端的Transformer框架,结合伪语料生成、wiki edits挖掘、迁移学习、数据蒸馏、拷贝机制等多项技术改进其核心的质量;句子润色服务基于迁移学习、预训练模型等技术, 叠加挖掘语义相似的例句/复述对等技术获得的海量高质量语义相似句对来优化润色能力;措辞润色服务基于预训练语言模型,结合embedding等技术来实现符合上下文的同义替换; 权威例句推荐服务基于关键词识别、语义相似度精筛模型及相关指标等选出结构/语义相似的例句。在语法纠错的评价指标F0.5上,有道在多个盲测集上效果表现优异
此外,在中文语法纠错领域,有道也有所探索。在NLPCC2018的中文语法纠错共享任务中,有道获得了第1名的成绩,随后的CGED2020, CGED2021等相关中文纠错比赛中,有道也在多个重要赛道上获得了前3名的成绩,并发表相关论文。
主要面向教育场景,多项技术效果在业界领先水平。具体包括:
1、文字检测识别
(1)自然场景文字识别,支持102种语言,综合准确率排名业界前三。
(2)教育场景文字识别,包括公式、模糊文字、生僻字、手写等识别。
(3)结构化OCR,包括文档结构分析、表格识别、切题、批改符号识别等。
2、人机交互
手指检测(指尖、动作等)、脸的检测(位置、表情、眼神、朝向等)、坐姿检测、笔尖检测等。
3、图像处理
图像增强(去阴影去模糊等)、文档矫正、手写擦除、文字超分、文字擦除与渲染(图像翻译)、人像抠图等。
4、解决方案
手指点读、智能听写、扫描查词、自动题库录入、错题收集、学情分析、拍照翻译、文档翻译等。
上述技术已在多个有道产品中落地:有道词典(拍照翻译、文档翻译),智能硬件(词典笔、平板、智能灯、一体机),入校to B业务等。
围绕学习场景、语音交互场景,有道推出了”更好听“、”更易说“、”更易查“的智能语音技术,以语音识别、语音合成、口语评测、声学前端等构建了更加系统的智能语音解决方案。 关于”更好听“,打造了智能字幕技术、智能断句技术和高质量语音合成等解决方案。围绕”更易说“,推出了流式智能背诵、AI情景对话、实时纠音等解决方案。针对“更易查”, 推出了双语语音查词、智能语音助手等解决方案,这些解决方案强力支撑了有道智能设备。
以“高质量语音合成”为例,在音库构建方面,尽量做到专业、地道、高质量、支持多种语言(中、英、美、日、韩); 在前端文本分析方面,围绕文本正则、发音预测(多音词、集外词、变形词)、韵律、重音、轻声、儿化、连读、变调等维度都做到更加智能; 在声学建模方面,无论是在线还是离线资源受限场景,都能做到自然、纯正、有温度。在音质上,追求高清(24K+)、饱满,并且打造了一系列特色能力: 如词典明星语音、音色自定义(5句话、 5分钟)、兼容现代文、古文风等不同风格,打造了离线不打折、学习更享受的体验!
以”智能语音识别“为例,我们支持中英文任意混合场景,在高准确率的同时,关注更人性化的标点、断句、时间戳,为智能设备、会议同传的高质量字幕奠定了扎实的基础。 此外,我们支持“日韩俄西法德印地阿语”等多语种,流式、短语音、长文件等不同的撰写方式。
围绕棋类学习场景,推出了吃子AI、围空AI、复盘AI等能力,支持围棋、国际象棋、中国象棋等品类。在实现基础功能的前提下,我们打造了分级AI、定式识别、棋型识别、智能裁判、AI判等级等特色功能; 在实现AI能力的基础上,我们会关注如何通过学习型AI技术和策略,提高用户的学习效率、更快速提高棋力水平,提高生产力;另一方面,从技术层面,我们也会关注如何实现AI的拟人化、人格化,让用户体验更佳,提高兴趣和参与度。
网易有道利用AI+HPC相结合技术实现高质量、高性能、低功耗的AI推理引擎。网易有道已在云端NMT、OCR、ASR和TTS应用中全线上线GPU版本高质量、高吞吐、低延迟的推理引擎。 在教育智能硬件领域,基于ARM CPU自研高性能端侧机器学习计算库EMLL,使有道词典笔X3、超级词典等智能硬件上的NMT、OCR、ASR、TTS推理性能比使用Eigen的版本提升30%-230%。 有道词典笔X3s和智能学习灯使用高性能、低功耗神经网络处理器NPU部署OCR和TTS推理引擎,OCR模型增大60倍在延迟不增加的情况下复杂场景测试集准确度提升5个点以上,TTS模型增大一倍并且延迟降低60%。