多语种机器翻译引擎 助力专利审查和检索的“ 神器”

文章来源: 中国知识产权报/中国知识产权资讯网
发布时间: 2021/4/28 14:13:00



中国专利信息中心机器翻译团队在讨论问题。(资料图)

 



中国专利信息中心工作人员在编写代码。(资料图)


  实时翻译、批量翻译、语种自动识别、翻译记忆……提起拥有这些功能的“神器”——多语种专利文献机器翻译引擎(下称多语种机器翻译引擎),用户无不竖起大拇指。


  实际上,这款“神器”是中国专利信息中心(下称信息中心)依据专利文献特点对通用机器翻译引擎的定制化产品。自2017年起,信息中心引入神经网络机器翻译技术,打造多语种机器翻译引擎,为专利信息加工、传播、咨询等多项业务提供了有力支撑。此外,该引擎也帮助审查员和社会公众跨越语言障碍,更便捷地从文献中获取有价值的信息,进而促进知识产权信息的高效利用,充分发挥了知识产权信息对经济和社会发展的驱动作用。


  打造系统 攻克难题


  近年来,在知识产权促进创新高质量发展的背景下,知识产权信息日益成为经济和社会发展的重要支撑,成为国与国之间竞争的战略资源。充分挖掘知识产权信息的价值,发挥其对经济高质量发展的驱动作用,是建设知识产权强国和科技强国的必经之路和重要抓手。


  而具体到我国知识产权特别是专利事业发展实践中,专利申请数量的快速上升,给专利审查带来了巨大的压力和挑战。与此同时,专利权人、创新主体和社会公众也对高质量的机器翻译有更迫切的需求。据介绍,在多语种机器翻译系统建设之前,神经网络机器翻译技术凭借其优异的翻译性能成为通用领域机器翻译的主流技术,为提升翻译质量和效率、满足应用需求提供了技术支撑。


  “然而,神经网络机器翻译存在词表受限、先验知识运用不足、语料匮乏和稀缺资源语种的翻译效果不理想等问题,同时由于专利文献涉及的语种多、领域广、专业术语丰富,通用型的机器翻译系统亦不能满足高质量和高效率的专利文献翻译需求。不仅如此,专利文献内容广博、科技术语多、句法结构复杂、符号应用广泛等特点导致机器翻译技术在专利文献翻译实践中面临诸多挑战,专利文献数据的多源异构性、数据格式多样以及数据噪声等问题也对机器翻译质量造成不利影响。”信息中心相关负责人在接受本报记者采访时表示。


  在解决上述难题的过程中,信息中心在知识产权信息技术开发利用领域的优势逐渐体现了出来。由于长期承担专利文献翻译工作,信息中心积累了丰富的专利文献翻译经验和数据资源优势,在采用先进的神经网络机器翻译等人工智能技术的同时,结合自身拥有的高质量平行语料、专业化的数据分析团队和多语言翻译人才,不断探索打造适用于专利领域的多语种机器翻译系统。


  基于上述背景,2019年,适用于专利领域的多语种机器翻译系统正式问世。据了解,该系统实现了专利文献机器翻译全领域覆盖,可以为审查员和社会公众提供高质量的机器翻译结果,并能够根据客户需要提供精准化、定制化、专业化的机器翻译服务。


  优化功能 提升质量


  据介绍,信息中心在引擎定制化建设过程中主要从语料建设与优化、模型训练及调参、引入外部记忆以及工程性打磨四个方面进行。而这四个方面,各有其必要性:语料资源建设与优化的目的是获得高质量的训练语料,高质量的语料是高性能多语种神经网络机器翻译系统的基础;模型训练及调参主要是通过迭代训练找到最优的模型和参数;引入外部记忆,包括引入多语种术语词典、记忆库等,确保专有名词和专利文献术语翻译准确;工程性打磨主要是根据专利文献数据特点,制定数据前后处理整体解决方案,进而提升机器翻译性能和质量。


  记者在采访中了解到,作为信息中心依据专利文献特点对通用机器翻译引擎的定制化产品,多语种机器翻译引擎具有实时翻译、批量翻译、语种自动识别、翻译记忆、用户词典等功能,支持中、英、德、法、日、韩、俄等多个语种的翻译,支持多业务场景应用,支持本地化部署以及云平台部署。


  据悉,多语种机器翻译引擎的专利文献翻译质量较高,准确性较通用引擎显著提高。经国家知识产权局及多地审查协作中心审查员广泛试用,效果良好。


  发挥优势 持续探索


  据信息中心相关负责人介绍,信息中心在深入分析专利领域机器翻译应用问题的基础上,采用“技术+领域化+平台+可扩展”的设计思路,适用于专利领域的多语种神经网络机器翻译系统,并进行本地化部署及与多应用系统的对接,可在保证数据安全的前提下实现对多语种专利文献信息快速、准确的翻译,扩大文献检索范围和提升浏览效率,为专利工作者和社会公众进行专利文献检索提供助力。


  “目前,多语种机器翻译引擎已应用于国家知识产权局新一代智能化专利审查和检索系统,开展多语种、多类型、多格式的海量专利文献数据的翻译,涉及美、日、韩、德、法、英等十余个国家、组织和地区的专利全文及非专利全文数据,翻译质量得到用户肯定。”该负责人说。


  当然,从技术发展成熟度来看,虽然神经网络机器翻译技术相较于基于规则、统计的机器翻译技术有较大的飞跃,翻译质量大幅提高,但是由于神经网络机器翻译为数据驱动方法,目前在资源稀缺语种的翻译效果以及深层网络计算资源优化配置等方面尚存改进空间。


  信息中心相关负责人表示,展望未来,如何持续致力于机器翻译技术的深入研究、提升机器翻译质量、拓展语言种类及应用场景、以系统功能和技术能力的升级优化助力专利审查和检索质量和效率的提升、为社会公众提供高质量的专利信息服务等仍是需要进一步研究的问题。“神器”的神奇,仍将等待开发设计者和用户一起不断探索与发掘。(记者 李星仪)



(编辑:窦一珂)


(中国知识产权报独家稿件,未经授权不得转载。)

主办单位:中国知识产权报社 未经许可不得复制
ICP备案编号:京ICP备08103642号-2