• AI给AI论文写了个摘要网友戏称为“摘要通过图灵测试”推特点赞上
    发布日期:2019-09-25 10:01   来源:未知   阅读:

  今天,一个可为长文自动生成总结的Transformer语言模型论文在推特火了起来。

  细心了网友看到论文摘要结尾,才发现一个斜体备注中写着:上面的摘要不是作者写的,而是由研究中展示的一个模型自动生成的。

  研究证明了,即使没有复制机制,Transformer语言模型在总结长篇科学文章方面也非常有效,并且效果优于传统的seq2seq方法。

  并且,与先前使用复制机制的研究相比,新方法生成的摘要更全,在用于评估自动生成的摘要和翻译水平的ROUGE评测上,获得了更高的分数。

  这项研究被OpenAI研究科学家、牛津大学人类未来研究所研究员Miles Brundage的推荐和转发,不到一天时间获赞近2000,网友戏称为这是一项“摘要图灵测试”。

  还有网友表示,在未来十年内,我们或许能看到第一篇transformer写出的研究论文了。

  我们提出了一种新的方法,通过神经摘要式总结,可以为篇幅超过上千字的长文档自动生成摘要。

  我们展示了一种在生成总结前的简单提取步骤,在执行生成摘要任务前,会根据相关信息,将其用于Transformer语言模型,帮助模型进行条件设置。

  实验结果表明,这个步骤显著提高了总体结果。我们还证明了,与之前使用复制机制(copy mechanism)的工作相比,这种方法生成了抽象的总结,并且还能取得更高的Rouge分数。

  此前,摘要提取方法大多依据的是序列到序列(seq2seq)的学习方法,将关键词识别定义为生成问题,输出时将关键短语看作为词序列。

  为了这其中的控制参数数量只会选取其中出现频率较高的词汇,于是相对低频且重要的词汇就会在提取过程中被遗漏,于是就诞生了“复制机制”。

  通过复制机制,模型解码器的部分隐藏状态当成特定的位置,不通过生成过程定义关键词,而是直接复制。

  而在这篇论文中提到,不通过复制机制也可以准确提取重点信息。这是怎么做到的? Transformer语言模型

  首先,句子指针网络(pointer network)从论文中提取出重要信息。

  接下来,这些提取过的句子会随着完整文章一起按照顺序进行排列:引言、抽取的句子、摘要和论文其他内容。Transformer语言模型就是在以这种格式组织的论文上进行训练的。

  在推理过程中,引言和提取的句子将作为上下文提供给语言模型,最终生成摘要。在新闻和专利领域,引言部分将被全文替代。

  与此前大多数神经抽象概括方法不同,这种方法没有使用带有显式编码器和解码器的seq2seq公式来生成单词。

  具体来说,研究人员使用单个类似GPT的Transformer 语言模型(TLM)进行训练,在推理阶段根据文档从语言模型中生成摘要。

  研究人员将这个任务一分为二,即提取步骤(extractive step)和抽象步骤。

  为了处理超过几千个单词的超长文档,他们先使用两个不同的分层文档模型对句子进行提取,一个基于指针网络,另一个基于句子分类器,这样的结构保证在生成摘要前更好地调整Transformer语言模型的相关信息。

  研究人员选取了四种不同的大型长文档摘要数据集,分别为arXiv、PubMed 、bigPatent和Newsroom,对模型进行测试,并用Rouge指标进行测试。

  新方法TLM均优于此前摘要提取的baseline,并超越了先前提取结果。

  Element AI想必大家不会陌生,这是图灵奖得主、蒙特利尔大学计算机系教授Yoshua Bengio创办的创业孵化器,帮助来自蒙特利尔大学和McGill大学的AI创业者施展拳脚。

Copyright © 2002-2011 DEDECMS. 织梦科技 版权所有 Power by DedeCms