研究:AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%

投稿号(tougaohao.com)8月30日 消息:近期,计算机科学家对几个大型语言模型在StackOverflow的Java编码问题上的回答进行了评估,结果发现这些模型的代码质量仍然不尽如人意。

研究:AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%

研究人员收集了1208个StackOverflow上的Java编码问题,这些问题涉及24个常见的Java API。然后他们用4个可生成代码的大型语言模型(GPT-3.5、GPT-4、Llama2和Vicuna-1.5)进行了回答,并根据自己开发的API检查器RobustAPI对回答进行评估。RobustAPI旨在评估代码的可靠性,即抵御失败和意外输入的能力,以及承受高工作负载的能力。

加州大学圣地亚哥分校的研究人员测试了 OpenAI 的 GPT-3.5和 GPT-4,以及大型模型系统组织的两个开放模型:meta 的 Llama2和 Vicuna-1.5。他们对这组问题进行了三种不同的测试:零样本,其中输入提示中没有提供正确的 API 使用示例;one-shot-imrelevant,其中提供的示例与问题无关;一次性相关,其中提示中提供了正确的 API 使用示例。

这些模型在零样本测试中表现出的总体 API 误用率如下:

简单的说就是,在零样本测试中,GPT-3.5和GPT-4的API误用率较高,分别达到49.83%和62.09%。

Llama2的误用率最低,只有0.66%,但这主要是因为其大多数回答并不包含任何代码。

在添加不相关示例的一次样本测试中,各模型的误用率有所上升,尤其是Llama2上的升幅最大。这说明一旦生成了更多代码,Llama2的误用问题也显现出来。

对于一次性无关测试,误用率分别为:

而在提供相关示例的一次样本测试中,误用率有所下降,但仍普遍存在,误用率如下:

研究认为,大型语言模型代码生成能力的提升与代码可靠性和稳健性之间存在明显差距。模型生成的代码充其量只保证语义上的正确性,而忽视了意外输入和高负载环境下的稳定可靠性要求。改善这一问题仍有很大的空间。语言模型的代码生成还需要在工程质量上下功夫,而不仅仅追求生成更多代码。

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年8月30日 18:13
下一篇 2023年8月30日 18:14

热点推荐

  • 户外晨跑、国庆晚会、沙动画MV,北大学子在多彩活动中告白祖国

    新京报讯(记者杨菲菲)国庆假期过半,10月4日,记者从北京大学了解到,为丰富留校过节学生的假期生活,学校精心筹备和组织了国庆主题晚会、户外晨跑晨练等一系列丰富多样、别具新意的国庆主题教育活动,带领全校师生献礼祖国华诞。 北大阿卡贝…

    热点 2022年10月8日
    151
  • 投资10元一小时赚500(在家做什么赚钱)

    今天小编给各位分享在家做什么赚钱的知识,其中也会对投资10元一小时赚500进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧! 适合在家里挣钱的方法 如今很多人都想在家挣钱,特别是气候这么热的季节,很多人都不想出…

    热点 2023年3月28日
    142
  • 美方仍计划向台出售武器? 中方:美应该将相关表态体现在具体行动上

    中新网北京11月17日电(记者 李京泽)中国外交部发言人毛宁17日主持例行记者会。 有记者提问:美国白宫国家安全委员会战略沟通协调员柯比日前在记者会上称,美国仍计划继续向台湾出售武器,美国希望保障台湾的自卫能力,请问外交部对此有何…

    热点 2023年11月19日
    107
  • 沈阳一火锅店锅底卖598元;美团第三季度收入同比增长22.1%

    重庆一公司丢弃70余公斤变质辣椒、辣椒面,被市监局罚款5000元;沈阳一火锅店锅底卖598元。详情请看红餐网《每日餐讯》。 社会热点 重庆一公司丢弃70余公斤变质辣椒,因浪费被罚5000元 红餐网综合消息,据上游新闻报道,11月2…

    热点 2023年11月30日
    113
  • 2023年什么生意好做又赚钱(2023年什么生意比较火爆)

    关于创业这个话题常年热度都是非常高的,而2023年创业到底做什么比较好也有不少人关注。2023年什么生意好做又赚钱?当下国内市场还是有不少行业可以去尝试的,今天小编也整理了几个不错的创业致富好项目,看下这些有没你感兴趣的。 202…

    热点 2023年6月28日
    122
  • 【文明盘州】警惕新型骗局!这些套路要提防!

    最近 除了连花清瘟、布洛芬外 抗原自测试剂也成了药店“顶流” 火到卖脱销,一盒难求 但大家要注意了 越火越有热度的东西 不法分子就越爱“蹭” 近日,佛山南海近200名群众 因轻信某微商有“内部渠道” 而纷纷在群里接龙 购买抗原检测…

    2023年1月28日 热点
    148
  • 加盟品牌女服装店(加盟服装店排名女装)

    广州有哪些品牌女装加盟店 歌莉娅女性时尚服饰品牌,诞生于1995年,品牌的创办企业——广州市格风服饰有限公司,位于广州市白云区的现代化工业园1998年2月28日奠基成立。公司一直以把最好与人分享的精神,以筑梦踏实的态度贯彻在企业和…

    热点 2023年12月9日
    103
  • 请问四大菩萨是哪四个

    简要回答 四大菩萨指的是文殊菩萨、观音菩萨、普贤菩萨、地藏菩萨等四位菩萨。 在日常生活中,常常听到人们说求菩萨保佑,保佑自己身体健康。也许很多人并不了解,佛教之中菩萨有四位,究竟四大菩萨分别是哪几位呢?下面让我们一起去了解吧。 详…

    热点 2023年5月8日
    114
  • 只写足金不写999(足金是纯金吗)

    黄金首饰奢华大气,满足了无数女性对美的追求。尤其是中年女性,雍容典雅的气质更加符合黄金的韵味。不管是手指间佩戴的黄金戒指,还是手腕间佩戴的黄金手镯,都更适合女性的端庄姿态。那么在选择黄金的时候,有没有需要注意的小知识呢?足金是不是…

    2022年12月3日 热点
    191
  • 我们都有光明的前途是什么梗(我们都有光明的前途表情包)

    网络上经常有很多好玩的梗和词语出现并且走红,最近一段时间不少小伙伴在问我们都有光明的前途是什么梗?我们都有光明的前途是什么意思?出自哪里?下面小编为大家带来我们都有光明的前途梗的含义及出处介绍,感兴趣的小伙伴一起来看一下吧。 我们…

    热点 2023年12月1日
    138

发表回复

登录后才能评论