中文最佳哈工大讯飞联合发布全词覆盖中文BERT模
来源: 和记娱乐   发布时间: 2019-09-04 17:37    次浏览   大小:  16px  14px  12px

  近日,哈工大讯飞联合实验室发布了基于全词覆盖的中文 BERT 预训练模型,该模型在多个中文数据集上,取得了当前中文预训练模型的最佳水平,部分效果甚至超过了原版 BERT、ERNIE等中文预训练模型。。

  这一新的模型资源,极大地推动了中文自然语言处理的研究发展,弥补了之前该研究模型在中文自然语言处理上的空缺。之前 ERNIE 更多使用百度百科、贴吧等网络数据,它对非正式文本(例如微博等)建模较好,而BERT-wwm使用了中文维基百科(包括简体和繁体)数据进行训练,故此对正式文本建模更有优势,同时BERT-wwm也能更好的处理繁体中文数据,因为 ERNIE 的词表中几乎没有繁体中文,让业界多了一个选择。

  哈工大讯飞联合实验室(HFL)是科大讯飞重点引进和布局的核心研发团队之一,由科大讯飞AI研究院与工业大学社会计算与信息检索研究中心(HIT-SCIR)在2014年共同创办。

  自哈工大讯飞联合实验室成立,双方一直进行着深入地合作,特别是语言认知计算领域,显著,研究涉及阅读理解、自动阅卷、类人答题、人机对话、语音识别后处理、社会舆情计算等前瞻课题,相应研究应用于司法,教育等领域。哈工大讯飞联合实验室在近几年获得多项世界冠军,其中包括机器阅读理解权威评测SQuAD、SQuAD 2.0,第五届中文语法错误自动诊断大赛CGED,对话型阅读理解评测CoQA、QuAC等。

  此次发布的基于全词覆盖的中文BERT,不仅表明科大讯飞在自然语言处理技术上保持业界领先水平,同时还积极将最新技术应用到中文自然语言处理的研究中,与业界一同推进中文自然语言处理的研究与发展,为中文信息处理做出更多贡献。

  AI蓬勃发展,人工智能要求的是不仅要“能听会说”,还要“能理解会思考”,这一技术跨越,需要大量科学研究的支持。深层语义理解、逻辑推理决策、自主学习进化等认知智能的关键技术,都是当下的研究重点。语音合成技术、语音识别技术、手写识别技术、自然语言处理技术、语音测评技术、声纹识别技术,这些技术都展现出了讯飞的超强实力。

  科大讯飞一直将“”作为企业的核心。“顶天”,即技术顶天,强调技术对AI发展的的重要性。科大讯飞长期对科研保持着高投入,据其2018年财报显示,2018年公司新增相关研发费用4.52亿元,相关研发费用总额达12.63亿元,较上年同期增长55.82%。科研投入可谓相当之大,难怪其技术可以一直保持行业领先了。

  科大讯飞还是目前我国唯一以语音技术为产业化方向的“国家863计划产业化”、“国家规划布局内重点软件企业”、“国家高技术产业化示范工程”, 曾两次荣获“国家科技进步”及中国信息产业自主创新荣誉“信息产业重大技术发明”。科技部明确依托科大讯飞建设了认知智能国家重点实验室,这是我国在人工智能高级阶段——认知智能领域的第一个国家级重点实验室。

  领先的技术以及对整个人工智能生态产业的全面把控上,科大讯飞向人们展现出了它的长远眼光。其构建的国内首个以智能语音和人机交互为核心的人工智能平台——讯飞平台,并基于该平台相继推出讯飞输入法、讯飞听见等示范性应用,推动与广大合作伙伴携手构建以讯飞为中心的人工智能产业生态。其在智能语音和人工智能核心研究和产业化方面的突出成绩,也得到了社会和国内外的一致认可,被称为“中国人工智能国家队”。

  对技术的不断追求,对科研的不断,对用户的细微关注,是每一个希望大力发展AI的企业都应该学习的,如今的科大讯飞, 仍在以高速不断迈进和发展,我们希望在未来,能够看到科大讯飞一个又一个技术上的突破,引领中国AI技术继续前行。

  中文最佳,哈工大讯飞联合发布全词覆盖中文BERT模型,近日,哈工大讯飞联合实验室发布了基于全词覆盖的中文 BERT 预训练模型,该模型在多个中文数据集上,取得了当前中文预训练模型的最佳水平,部分效果甚至超过了原版 BERT、ERNIE等中文预训练模型。