金山AI团队:从理论突破到应用场景落地
【作 者】:网站采编
【关键词】:
【摘 要】:一提起雷军,绝大多数人首先会想到小米,对金山软件却知之甚少。雷军作为金山软件董事长,曾带领金山度过最艰难时期。 雷锋网 1996年,金山软件遭遇前有微软、后有盗版的双重打
1996年,金山软件遭遇前有微软、后有盗版的双重打击跌入谷底:1995年,微软进入中国市场,Windows 95与OFFICE系列抢占了WPS大部分市场份额;与此同时,一张盗版光盘,640兆囊括了市面上几乎所有主流软件,包括金山软件的产品。面对困局,金山何去何从? 雷军苦苦思考六个月,最后决定做WPS的同时,在游戏、工具软件领域发力,开始游击战、以战养战。1997年,金山推出《剑侠情缘I》、《WPS97》、《金山词霸》等等功能强大的产品,在游戏、工具软件与字处理系统领域成功制造了3个市场热点,死里逃生。 (WPS97发布,雷军、求伯君演讲) 回忆这段往事,雷军曾归纳,自己最可贵的创业品质有两点:一是目标远大,二是创业激情。 除此之外,雷军系的成功还归因于另一个重要的品质:聚焦。 这三个品质不仅续写着雷军本人的传奇创业故事,也在继续引领着他的各派团队创造辉煌的篇章,包括今年5月在纳斯达克上市的金山云,也包括一直低调行事的金山人工智能事业部。 雷军高度重视人工智能的发展,2017年亲自指导成立了金山人工智能事业部。这所实验室隐藏在海淀区小米科技园,集结一众顶尖技术人才,以认知AI为核心,聚焦机器翻译与阅读理解。成立不过三年左右,便已在多个国际大赛中斩获佳绩。 2020年9月6日,金山集团AI Lab的SpiderNet模型在由卡内基梅隆大学、斯坦福大学和蒙特利尔大学联合发起的多步推理阅读理解评测HotpotQA中荣登榜首,结束了长达一年的由美国科技公司包括微软、谷歌等在内的霸榜局面。 金山AI团队究竟有何不为人知的神力?
1 HotpotQA,又称“火锅问答”,是2018年由三名爱吃火锅的中国学生发布的一个多步推理的阅读理解数据集。相较于SQuAD的任务,HotpotQA更考察关联判断能力,需要模型对给定多篇文章的内容进行深度理解,根据佐证篇章中所叙述事物的逻辑关系构建多步推理链,得到一个知识,然后通过问答的形式展示出来。 (HotpotQA宣传图) 毫无疑问,像 SQuAD 这样的大规模问答数据集对利用机器阅读大量文本并回答问题取得了诸多进展。但由于数据集上的缺陷,用这些数据集训练出来的模型并未学习到非常复杂的语言理解能力,这也正是HotpotQA希望改善的地方。 为此,HotpotQA调整了之前数据集的构建方式,除了必须使用多步推理来回答外,问题本身不会受限于任何预设的知识图谱,对于每一个问题还收集了回答它所需要的更细粒度的支持推理线索?(supporting fact),并且迫使模型在回答问题的同时给出它基于哪些事实进行的推理,不像以前的模型只给出一个答案,知其然而不知其所以然。
2 本次金山人工智能事业部的SpiderNet模型参加的是干扰项赛道(Distractor Setting),每个问题提供10个备选篇章。该赛道更侧重于考察模型的文本推理能力,同时也是参赛队伍最多的赛道。
SpiderNet模型采用的是深度神经网络技术,基于预训练语言模型做了改进,更注重节点与节点之间的关联与信息共享,就像一张蜘蛛网一样,专门针对文档内容进行深度理解与多步推理。
一提起雷军,绝大多数人首先会想到小米,对金山软件却知之甚少。雷军作为金山软件董事长,曾带领金山度过最艰难时期。雷锋网
HotpotQA杀出一匹黑马
而此前在SQuAD上竞相投入的巨头们,也将HotpotQA视为展示自己实力的新竞技场。与一群在此前从SQuAD就“相爱相杀”的巨头不同的是,金山AI Lab并未参加过SQuAD竞赛的角逐,金山此次登顶堪称黑马。
金山夺冠技术SpiderNet分析
文章来源:《CT理论与应用研究》 网址: http://www.ctllyyyyj.cn/zonghexinwen/2020/1110/470.html
上一篇:中国翻译理论研究回顾与展望
下一篇:《多媒体技术在问题教学法中的应用研究》课题