大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

文本摘要,作为自然语言生成(NLG)中的一项任务,主要用来将一大段长文本压缩为简短的摘要,例如新闻文章、源代码和跨语言文本等多种内容都能用到。

随着大模型(LLM)的出现,传统的在特定数据集上进行微调的方法已经不在适用。

我们不禁会问,LLM 在生成摘要方面效果到底如何?

为了回答这一问题,来自北京大学的研究者在论文《 Summarization is (Almost) Dead 》中进行了深入的探讨。他们使用人类生成的评估数据集评估了 LLM 在各种摘要任务(单条新闻、多条新闻、对话、源代码和跨语言摘要)上的表现。

在对 LLM 生成的摘要、人工撰写的摘要和微调模型生成的摘要进行定量和定性的比较后发现,由 LLM 生成的摘要明显受到人类评估者的青睐。

接着该研究在对过去3年发表在 ACL、EMNLP、NAACL 和 COLING 上的100篇与摘要方法相关的论文进行抽样和检查后,他们发现大约70% 的论文的主要贡献是提出了一种总结摘要方法并在标准数据集上验证了其有效性。因此,本文表示「摘要(几乎)已死( Summarization is (Almost) Dead )」。

尽管如此,研究者表示该领域仍然存在挑战,例如需要更高质量的参考数据集、改进评估方法等还需要解决。

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

论文地址:https://arxiv.org/pdf/2309.09558.pdf

方法及结果

该研究使用最新的数据来构建数据集,每个数据集由50个样本组成。

例如在执行单条新闻、多条新闻和对话摘要任务时,本文采用的方法模拟了 CNN/DailyMail 、Multi-News 使用的数据集构建方法。对于跨语言摘要任务,其策略与 Zhu 等人提出的方法一致。关于代码摘要任务,本文采用 Bahrami 等人提出的方法。

数据集构建完成之后,接下来就是方法了。具体来说,针对单条新闻任务本文采用 BART 和 T5;多条新闻任务采用 Pegasus 和 BART;T5和 BART 用于对话任务;跨语言任务使用 MT5和 MBART ;源代码任务使用 Codet5。

实验中,该研究聘请人类评估员来比较不同摘要的整体质量。结果如图1所示,LLM 生成的摘要在所有任务中始终优于人工生成的摘要和微调模型生成的摘要。

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

这就提出了一个问题:为什么 LLM 能够胜过人类撰写的摘要,而传统上人们认为这些摘要是完美无缺的。此外,经过初步的观察表明,LLM 生成的摘要表现出高度的流畅性和连贯性。

本文进一步招募注释者来识别人类和 LLM 生成摘要句子中的幻觉问题,结果如表1所示,与 GPT-4生成的摘要相比,人工书写的摘要表现出相同或更高数量的幻觉。在多条新闻和代码摘要等特定任务中,人工编写的摘要表现出明显较差的事实一致性。

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

人工撰写的摘要和 GPT-4生成摘要中出现幻觉的比例,如表2所示:

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

本文还发现人工编写的参考摘要存在这样一个问题,即缺乏流畅性。如图2(a) 所示,人工编写的参考摘要有时存在信息不完整的缺陷。并且在图2(b) 中,一些由人工编写的参考摘要会出现幻觉。

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

本文还发现微调模型生成的摘要往往具有固定且严格的长度,而 LLM 能够根据输入信息调整输出长度。此外,当输入包含多个主题时,微调模型生成的摘要对主题的覆盖率较低,如图3所示,而 LLM 在生成摘要时能够捕获所有主题:

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

由图4可得,人类对大模型的偏好分数超过50%,表明人们对其摘要有强烈的偏好,并凸显了 LLM 在文本摘要方面的能力:

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年9月20日
下一篇 2023年9月20日

热点推荐

  • 全国道德模范龚全珍同志逝世 享年100岁

    第四届全国道德模范、全国优秀共产党员、“最美奋斗者”称号获得者龚全珍同志,因病医治无效,于2023年9月2日16时16分逝世,享年100岁。 (总台记者 李竟成)

    2023年9月3日
    380
  • 【财闻联播】美国财长呼吁中国转变经济政策,外交部回应!鼠头鸭脖涉事方及责任人被重罚

    以上音频技术来自:讯飞配音 ★宏观动态★ 美国财长耶伦呼吁中国转变经济政策,外交部回应 12月15日,外交部发言人毛宁主持例行记者会。法新社记者提问,美国财长耶伦昨天呼吁中国转变经济政策,她说国有企业作用过大会限制增长,安全机构作…

    2024年1月9日
    220
  • 全球首批MIUI 15手机!Redmi Note 13 Pro 曝光:屏幕边框极窄

    快科技7月19日消息,博主数码闲聊站暗示,Redmi Note 13系列至少有三款机型,分别是Redmi Note 13、Redmi Note 13 Pro和Redmi Note 13 Pro 。 该系列将会预装MIUI 15操作…

    2023年7月19日
    430
  • 爱贝克思九歌姬(爱贝克思)

    本文主要讲的是爱贝克思,以及和爱贝克思九歌姬相关的知识,如果觉得本文对您有所帮助,不要忘了将本文分享给朋友。 爱贝克思为什么叫艾回 因为日本地区的公司名称“艾回”更接近英文名“敬亏AVEX”的发音,所以“爱贝克思集团”将日本地区的…

    2023年5月2日
    480
  • 关键时刻,泽连斯基想要访问以色列

    参考消息网10月12日报道据今日俄罗斯电视台网站10月11日报道,美国阿克西奥斯新闻网站周三说,乌克兰总统泽连斯基正寻求访问以色列,支持总理内塔尼亚胡对加沙的反攻。 这家美国网站援引乌克兰和以色列两国不愿透露姓名的官员的话说,泽连…

    2023年10月13日
    320
  • 油价六连跌?

    油价延续大幅下跌,12日国际油价再跌3.8%,至国内油价13日跌幅再增加了45元/吨,跌至370元/吨,折算最高达0.32元/升,这回加油真要省钱了。 国内油价今年最后一次调价 将于12月20日0时开启 油价“6连跌”要到来了! …

    2023年12月15日
    300
  • 江西下一波疫情高峰时间 2023年春节达到峰值

    江西下一波疫情高峰时间 2023年春节达到峰值 12月15日,江西省新冠肺炎疫情防控工作新闻发布会(第三十七场)在南昌召开,会上介绍了江西省下一步新冠肺炎疫情防控工作的相关情况。 据专家分析研判,江西省下一波疫情高峰将在今年12月…

    2022年12月18日
    740
  • 他信被判处8年监禁

    长安街知事微信公众号 | 记者 周经纬 据央视新闻客户端消息,泰国最高法院当地时间8月22日宣判,前总理他信三项罪名成立,被判处8年监禁。 根据泰国最高法院的说明,他信的三项罪名,各罪名累计10年刑期,实际服刑时间为8年。 他信在…

    2023年9月1日
    380
  • 天津到张家界自驾游攻略(张家界自驾游攻略)

    今天,我想和大家分享一些关于张家界自驾游攻略以及天津到张家界自驾游攻略的问题。以下是小编对这个问题的总结。让我们看一看。 张家界自驾游怎么玩最佳线路 张家界自驾游的最佳路线可以去张家界国家森林公园、从凤凰古城、沱江跳岩。 张家界国…

    2023年4月27日
    600
  • 小金刚品质 Note 12T Pro首发福利:一年碎屏险免费送

    快科技5月30日消息,今天,新一代小金刚”Redmi Note12T Pro正式发布。 随着Redmi Note12T Pro的面世,小米官方宣布,将为这款机型的所有首销用户,赠送一年的碎屏险作为福利。 据小米官方介绍,这个碎屏险…

    2023年5月30日
    540