研究:AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%

极客号(Daydx.com)8月30日 消息:近期,计算机科学家对几个大型语言模型在StackOverflow的Java编码问题上的回答进行了评估,结果发现这些模型的代码质量仍然不尽如人意。

研究:AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%

研究人员收集了1208个StackOverflow上的Java编码问题,这些问题涉及24个常见的Java API。然后他们用4个可生成代码的大型语言模型(GPT-3.5、GPT-4、Llama2和Vicuna-1.5)进行了回答,并根据自己开发的API检查器RobustAPI对回答进行评估。RobustAPI旨在评估代码的可靠性,即抵御失败和意外输入的能力,以及承受高工作负载的能力。

加州大学圣地亚哥分校的研究人员测试了 OpenAI 的 GPT-3.5和 GPT-4,以及大型模型系统组织的两个开放模型:meta 的 Llama2和 Vicuna-1.5。他们对这组问题进行了三种不同的测试:零样本,其中输入提示中没有提供正确的 API 使用示例;one-shot-imrelevant,其中提供的示例与问题无关;一次性相关,其中提示中提供了正确的 API 使用示例。

这些模型在零样本测试中表现出的总体 API 误用率如下:

简单的说就是,在零样本测试中,GPT-3.5和GPT-4的API误用率较高,分别达到49.83%和62.09%。

Llama2的误用率最低,只有0.66%,但这主要是因为其大多数回答并不包含任何代码。

在添加不相关示例的一次样本测试中,各模型的误用率有所上升,尤其是Llama2上的升幅最大。这说明一旦生成了更多代码,Llama2的误用问题也显现出来。

对于一次性无关测试,误用率分别为:

而在提供相关示例的一次样本测试中,误用率有所下降,但仍普遍存在,误用率如下:

研究认为,大型语言模型代码生成能力的提升与代码可靠性和稳健性之间存在明显差距。模型生成的代码充其量只保证语义上的正确性,而忽视了意外输入和高负载环境下的稳定可靠性要求。改善这一问题仍有很大的空间。语言模型的代码生成还需要在工程质量上下功夫,而不仅仅追求生成更多代码。

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

投稿号的头像投稿号注册会员
上一篇 2023年8月30日
下一篇 2023年8月30日

热点推荐

  • A股午评:沪指失守3200点,超3800只个股下跌

    钛媒体App 5月25日消息,指数早盘震荡下行,截至午盘,沪指跌0.66%、破3200点,深成指跌0.54%,创业板指跌0.28%,北证50跌0.26%。盘面上,光伏等新能源赛道股展开反弹,帝科股份20CM涨停,钧达股份、嘉寓股份…

    2023年5月31日
    470
  • 新洲非遗|皮影戏,摇曳的光影艺术

    非物质文化遗产作为文化遗产的一个分支,是一座城市自己的“文脉”。今天就让我们一起走进武汉市新洲区,畅游“非遗”世界,感受“非遗”之美。 皮影戏 皮影戏,又称影戏,是新洲区广为流传的一种民间演唱艺术。皮影戏起源于汉代,繁荣于宋代,至…

    2023年1月21日
    610
  • 从0开始如何玩转社群(社群营销怎么做才效果好)

    最近很多企业、自媒体都在向社群转型,因为流量的获取越来越困难,通过公众号、微博聚集的粉丝,都是弱连接,想要实现转化也越来越困难。所以,通过社群,通过点对点地实时交流,拉进跟用户的关系,成为了下一个方向。 其实我之前也介绍过很多社群…

    2022年10月22日 热点
    960
  • 骑电动车进楼不成,男子怒砸电梯被行拘,业主鸣不平:充电桩太少,物业不作为

    近日,河北邯郸市丛台区的北海庄园小区,一男子骑电动车进入电梯,电梯提示“为了您和他人的安全,请勿将电瓶车骑入电梯。”随后该男子拿来花盆、灭火器等对着电梯及摄像头猛砸,把一辆自行车塞进电梯后离去。 据媒体报道,该男子已被行政拘留。但…

    2023年7月27日
    410
  • 《我去过你的未来》每周几更新几集 《我去过你的未来》全集有多少集

    《我去过你的未来》更新时间9月13日开始播出,怀远首更5集,次周每天更新1集,非会员每天更新1集。我去过你的未来更新时间 该剧一共有21集,导演是姜炫亦,主演是杨昊铭、关芯领。 该剧讲述失去爱人的叶凡,因为爱人的手机居然和四年前的…

    2023年9月23日
    350
  • 小狗乖乖小狗乖乖是那首歌的歌词

    小狗乖乖小狗乖乖是《小狗乖乖》歌曲,演唱者是馨之孟,发行时间是2015年4月20日,曲调欢快,歌词简单朗朗上口。 歌词里:小狗乖乖,小狗乖乖,聪明活泼啊淘气又可爱很符合狗狗的气质。 该首歌曲红火和国宝大熊猫陈园润有很大关系,这是它…

    2023年5月15日
    560
  • 亚运开幕式8大最美面孔!罗雪娟惊艳,吴艳妮俏皮,郭晶晶大气

    你们有没有看到9月23日晚上举办的第19届亚洲运动会开幕式呢? 在当晚的直播画面中,出现了很多给人留下深刻印象的最美的面孔。 现在让我们一起来评估一下,看看谁给你留下最深刻的印象! 当中国队入场时,摄像机特别对准了运动员吴艳妮,给…

    2023年10月7日
    370
  • 分享具体思路(怎么在网络上推广自己的产品)

    怎么在网络上推广自己的产品(怎么在网络推广自己的产品(怎样在网络做推广)) 怎么在网络推广自己的产品(怎么在网上推广自己的产品,怎样在网络做推广) 焦作怎么在网上推广自己的产品,网络推广怎么收费 新品牌做网络推广要解决流量和转化率…

    2022年10月9日 热点
    760
  • 俄军轰炸机,突然从中国境内起飞,中俄的新打法,击中美日韩七寸

    中国与俄罗斯近日进行了空中战略巡航,在连续2天的飞行任务中,除了在东海和日本海展开联合行动外,两军轰炸机还按计划前往西太平洋空域实施了战巡。根据俄方通报,执行本次任务的俄军轰炸机,在第二阶段行动开始时突然从中国境内机场起飞,然后与…

    2023年6月10日 热点
    490
  • 钱塘江畔璀璨灯光秀点亮夜空:迎接亚运的氛围拉满

    9月23日消息,杭州第19届亚洲运动会开幕式在杭州奥体中心主体育场举行,场馆熠熠生辉,璀璨夺目的灯光秀吸引市民游客在钱塘江畔观看,迎接亚运的氛围拉满。 据悉,杭州亚运会是中国承办的第三次亚运会,智能亚运”是杭州亚运会办赛理念之一,…

    2023年9月24日
    390