大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

文本摘要,作为自然语言生成(NLG)中的一项任务,主要用来将一大段长文本压缩为简短的摘要,例如新闻文章、源代码和跨语言文本等多种内容都能用到。

随着大模型(LLM)的出现,传统的在特定数据集上进行微调的方法已经不在适用。

我们不禁会问,LLM 在生成摘要方面效果到底如何?

为了回答这一问题,来自北京大学的研究者在论文《 Summarization is (Almost) Dead 》中进行了深入的探讨。他们使用人类生成的评估数据集评估了 LLM 在各种摘要任务(单条新闻、多条新闻、对话、源代码和跨语言摘要)上的表现。

在对 LLM 生成的摘要、人工撰写的摘要和微调模型生成的摘要进行定量和定性的比较后发现,由 LLM 生成的摘要明显受到人类评估者的青睐。

接着该研究在对过去3年发表在 ACL、EMNLP、NAACL 和 COLING 上的100篇与摘要方法相关的论文进行抽样和检查后,他们发现大约70% 的论文的主要贡献是提出了一种总结摘要方法并在标准数据集上验证了其有效性。因此,本文表示「摘要(几乎)已死( Summarization is (Almost) Dead )」。

尽管如此,研究者表示该领域仍然存在挑战,例如需要更高质量的参考数据集、改进评估方法等还需要解决。

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

论文地址:https://arxiv.org/pdf/2309.09558.pdf

方法及结果

该研究使用最新的数据来构建数据集,每个数据集由50个样本组成。

例如在执行单条新闻、多条新闻和对话摘要任务时,本文采用的方法模拟了 CNN/DailyMail 、Multi-News 使用的数据集构建方法。对于跨语言摘要任务,其策略与 Zhu 等人提出的方法一致。关于代码摘要任务,本文采用 Bahrami 等人提出的方法。

数据集构建完成之后,接下来就是方法了。具体来说,针对单条新闻任务本文采用 BART 和 T5;多条新闻任务采用 Pegasus 和 BART;T5和 BART 用于对话任务;跨语言任务使用 MT5和 MBART ;源代码任务使用 Codet5。

实验中,该研究聘请人类评估员来比较不同摘要的整体质量。结果如图1所示,LLM 生成的摘要在所有任务中始终优于人工生成的摘要和微调模型生成的摘要。

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

这就提出了一个问题:为什么 LLM 能够胜过人类撰写的摘要,而传统上人们认为这些摘要是完美无缺的。此外,经过初步的观察表明,LLM 生成的摘要表现出高度的流畅性和连贯性。

本文进一步招募注释者来识别人类和 LLM 生成摘要句子中的幻觉问题,结果如表1所示,与 GPT-4生成的摘要相比,人工书写的摘要表现出相同或更高数量的幻觉。在多条新闻和代码摘要等特定任务中,人工编写的摘要表现出明显较差的事实一致性。

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

人工撰写的摘要和 GPT-4生成摘要中出现幻觉的比例,如表2所示:

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

本文还发现人工编写的参考摘要存在这样一个问题,即缺乏流畅性。如图2(a) 所示,人工编写的参考摘要有时存在信息不完整的缺陷。并且在图2(b) 中,一些由人工编写的参考摘要会出现幻觉。

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

本文还发现微调模型生成的摘要往往具有固定且严格的长度,而 LLM 能够根据输入信息调整输出长度。此外,当输入包含多个主题时,微调模型生成的摘要对主题的覆盖率较低,如图3所示,而 LLM 在生成摘要时能够捕获所有主题:

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

由图4可得,人类对大模型的偏好分数超过50%,表明人们对其摘要有强烈的偏好,并凸显了 LLM 在文本摘要方面的能力:

大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年9月20日 18:05
下一篇 2023年9月20日 18:13

热点推荐

  • 李斌大胆发言:意向买BBA就买蔚来?

    1月27日,在蔚来举办的李斌面对面活动上,李斌回答了关于用户提出的能不能给我一个理由在未来成为一个蔚来车主的问题,李斌表示,如果你的理想车型是BBA的产品,那从产品、服务、体验上来说,BBA跟蔚来在这三个纬度差的还是蛮远的,在40…

    热点 2023年2月15日
    142
  • 现在创业做什么行业前景好(现在什么行业最好)

    现在想要创业的人越来越多了,既然决定创业的话,就需要确定好创业的方向,也就是说要确定好行业,现在市场比较萧条,很多的行业都已经倒闭了,下面我们了解一下三大永不倒闭的行业有哪些? 永不倒闭三大行业有哪些? 教育行业: 虽然现在科技化…

    热点 2022年12月14日
    138
  • 家用理疗仪十大排行榜(理疗仪十大排行榜)

    有什么适合送礼的理疗仪吗? 1、送妈妈的生日礼物实用型推荐按摩理疗仪。可以适用在肩膀、膝盖、肘部。一次电池使用,大概可以适用一个星期左右。最高65度的高温热敷,三档恒温调节,采用古法艾灸,一体设计,使用更方便。微波震动,点对点穴位…

    热点 2023年11月17日
    183
  • 一战战斗机游戏(战斗机游戏)

    今天小编给各位分享战斗机游戏的知识,其中也会对一战战斗机游戏进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧! 世界十大最好玩街机游戏 玩了停不下来的经典 好玩的街机 游戏 通常都有相同的特点,它们都比较简单、…

    热点 2023年3月30日
    175
  • 好看的战争电影排行榜前十名(战争电影排行榜前十名)

    暴力电影排行榜前十名(血腥场面、惊心动魄的视觉盛宴) 1、影片以其暴力美学和动作场面著称同时也展现了男人之间的情感与义气。《喋血双雄》以其惊险的动作场面和深刻的情感描写获得了广泛赞誉。 2、黑帮电影排行榜前十名是《教父》、《爱尔兰…

    热点 2023年12月25日
    99
  • 厦门男科医院有哪几家医院(厦门男科医院排名)

    大家谈谈,厦门做包皮手术,哪家医院比较好? 1、厦门益康男科诊疗中心采用韩式包皮包茎整形术治疗包皮过长、包茎,打破了传统观念,利用微创速愈技术,完美祛除包皮,伤口快速愈合。 2、到厦门蓝天男科做吧,多个方面综合评价一直很高,医疗服…

    热点 2023年8月24日
    236
  • 保姆殴打瘫痪老人把便桶往脸上怼 此前刚给保姆涨工资

    【保姆虐待瘫痪老人把便桶往脸上怼,老人儿子:刚把工资从4000涨到5000】8月18日,北京。扇耳光、拍大腿、打屁股、抱着老人头部摔到床上、把便桶往老人脸上怼……2023年3月,56岁的保姆王某某在照顾瘫痪的李老太期间,虐待老人致…

    热点 2023年8月21日
    119
  • 姑娘嗓子疼从就诊到去世仅10分钟 背后的真相让人始料未及

    近几天,一则消息引发网友热议。一位26岁姑娘晚上结束加班赶到火锅店为好友庆生。结束聚餐回到家,姑娘觉得喉咙有点疼,以为是当晚吃的火锅太辣导致的,没留意。 次日清晨,姑娘发觉嗓子疼痛加重,甚至连呼吸都有点困难,在家吃了点消炎药去上班…

    热点 2023年5月27日
    125
  • 哈马斯政治局成员率团对俄罗斯展开访问

    哈马斯政治局成员率团对俄罗斯展开访问 【哈马斯政治局成员率团对俄罗斯展开访问】财联社10月26日电,据俄新社报道,巴勒斯坦伊斯兰抵抗运动(哈马斯)代表团当地时间10月26日抵达俄罗斯首都莫斯科进行访问,该代表团由哈马斯政治局成员穆…

    热点 2023年11月9日
    138
  • 10/23足球赛事分析:阿森纳神挡杀神 巴萨表现低迷

    周日005 英超 南安普敦 VS 阿森纳 南安普敦作为英超联赛的老牌球队,一直徘徊在联赛下游位置。球队本赛季表现比较平庸,新赛季至今十一轮联赛取得三胜二平六负的战绩,目前暂列联赛积分榜第十四位。如此成绩和球队防守端有很大的问题,球…

    热点 2022年10月23日
    160

发表回复

登录后才能评论