新华网：《国内LLM产品测试报告》发布百度文心一言多维度整体领先

发布日期：2023-07-07 16:03:02 来源：C114 通信网

人工智能技术不断迭代引发新一轮科技革命和产业变革，进一步提升人们对经济社会更加美好的体验。当前，全球信息科技巨头纷纷入局，智能化应用走向了以大语言模型（简称：LLM即Large Language Model，大语言模型）为代表的大模型时代。

为反映当前LLM发展最新情况特点，了解LLM产品应用情况。近日，新华网与国内权威科研机构联合推出《国内LLM产品测试报告》。选取文心一言、GPT-3.5、讯飞星火和ChatGLM等四个LLM产品（各测试模型基本情况如下图），从内容安全问答、常识问答、数学运算、阅读理解和主观问答等五个维度对LLM进行多维度能力测试和分析。为便于评估和展示，将六类测试分数分别转换为百分制。

(资料图)

表1选用LLM列表

报告显示，以文心一言为代表的国产大模型在内容安全、阅读理解、常识问答，数学运算等方面的表现普遍较好，能准确回应测试问题。尤其在内容安全和数学运算方面，国产大模型的优势相对更加明显。国产大模型中，文心一言在内容安全方面普遍能给出积极准确的正面回应；在常识问答，阅读理解、主观题目和数学运算等方面表现均较为出色，具备更丰富的常识知识和更强大的逻辑运算能力。

图为多维度测试结果

具体来看，在内容安全方面，文心一言获得了115分，在本次测试中领跑，对于内容安全问题的敏感度也最高。而GPT-3.5和开源模型ChatGLM由于没有做相关严格约束，可能回答出一些存在政治或者文化偏见的内容。此外，所有的LLM均对涉黄类问题很敏感，都未在相关回答上诱导。

在常识问答方面，文心一言获得了88分，GPT-3.5和讯飞星火均得到60分左右，ChatGLM仅获得33分的成绩。整体来说，大多数国内LLM均具备基本的文化、历史、地理和生活常识知识，能准确回答绝大多数常识问题。而对于一些相对冷门的常识问题，除文心一言外其他模型都给出了不同的错误答案。

在数学运算方面，文心一言获得93分、讯飞星火和GPT-3.5分别获得75、68分，而ChatGLM仅仅获得11分。当题目涉及一些基础直接的数学运算，所有的大模型基本都能算对，这说明当前的大模型都能理解基本的计算规则。但是随着题目变得复杂，只有文心一言和讯飞星火能正确回答该问题。说明包括文心一言和讯飞星火在内的国产大模型在数学逻辑能力方面会优于其他模型。另外，文心一言在解题目时会采用直接的算数解法，而讯飞星火等模型会采用解方程操作，说明文心一言具有一定的逆向逻辑思维能力，解题方式更加简洁直接。

在阅读理解方面，文心一言得到95分、GPT-3.5得到67分，讯飞星火和ChatGLM分别获得57分和33分。虽然大模型的部分输出结果不能完全对应正确答案，但大都角度正确且言之有理，说明现有LLM在中文长文本阅读理解方面均具备较高水平。

在主观题方面，各个模型的性能表现相差不多。其中，GPT-3.5取得了最好的结果，文心一言次之。具体而言，从流畅度方面来看， GPT-3.5的输出文本最为流畅，不存在语言重复或者表述不清晰的现象。而文心一言存在少数表述重复的情况。从规范性角度来看，所有的模型均具备较为标准的回答格式，如包括解释、分析、总结等基本步骤。这主要是因为大模型的数据输入都具备固定数据模板，导致模型记住了这些特定模式。从理解力来看，GPT-3.5对主观题的理解最为准确，极少出现文不对题的情况，文心一言次之。文心一言在回答该类组织创意问题时，更加倾向于表述活动的组织细节，比如介绍时间、地点、流程、活动预算等信息。从事实性和全面性角度来看，均是GPT-3.5表现最好，说明了其蕴含的语义知识相对更加丰富。但在测评中国的一些风俗习惯或者传统文化相关的知识时，它的性能逊色于国产语言模型。

此外，在所有被测LLM产品，目前仅文心一言可公开使用由文生图的多模态功能，但目前对一些易混淆的成语理解还有所欠缺。

LLM已经成为人工智能技术应用场景发展的新阶段。随着人工智能技术的不断演进，必将引发一场经济社会应用的人工替代化新思考。一方面，LLM的应用场景将进一步多元化。随着技术的演进，LLM将不再局限于文本、音频和视觉等基本形态，还将具备嗅觉、触觉、味觉、情感等多重信息感知和认知能力，以数字化形式传输并指导人工智能进行内容创作。另一方面，大模型重新定义了人机交互，催生AI原生应用，服务千行百业。大模型会深度融合到实体经济当中去，助力中国数字经济开创新一代人工智能发展阶段。

未来LLM竞争关键是算法是否更为接近和超越人类的思维方式。目前LLM在逻辑推理的计算能力，灵活能力以及快速自学习能力决定领先的优势。在逻辑推理中更能理解人类情感和接近超越人类思维方式，使得模型更加智能，也是很多头部LLM厂商的共同研发升级的追求。

标签：

上一篇:阴阳师跳跳哥哪里最多哪里多（阴阳师跳跳哥哪里多） 下一篇:最后一页

新华网：《国内LLM产品测试报告》发布 百度文心一言多维度整体领先

新华网：《国内LLM产品测试报告》发布 百度文心一言多维度整体领先

新华网：《国内LLM产品测试报告》发布百度文心一言多维度整体领先,人工

阴阳师跳跳哥哪里最多哪里多（阴阳师跳跳哥哪里多）

诸多的对于阴阳师跳跳哥哪里最多哪里多，阴阳师跳跳哥哪里多这个问题都

IBM全球首席设计官：生成式AI可能导致创意同质化的风险

IBM全球首席设计官BillySeabrook在采访中谈到了生成AI对设计工作流程的

学大教育集团与中新天津生态城管委会签订合作协议

7月4日，学大教育集团CEO金鑫一行赴天津市滨海新区，洽谈合作事宜并同

训练返程途中发现男子形迹可疑 青岛特警抓获网上在逃人员

信网7月7日讯（通讯员梁立波记者陆彦蓉）夏季治安打击整治行动开展以来

华新环保7月7日快速上涨

以下是华新环保在北京时间7月7日13:25分盘口异动快照：7月7日，华新环

工作岗位有哪些分类（工作岗位有哪些）

来为大家解答以下的问题，作岗位有哪些分类，工作岗位有哪些这个很多人

山东日照岚山区立足临港优势 打通“材富”路

日照岚山作为“中国新兴木业之都”，是山东省唯一一家、全国第二家国家

22时，刘诗雯官宣喜讯，闺蜜直播说漏嘴，小枣父母担心的事解决了

而在近期，车晓曦的直播中，也有球迷询问车晓曦刘诗雯的情况，包括刘诗

山东记者谈乡村振兴力量

日前，央视财经频道《对话》栏目特别节目《打造乡村振兴齐鲁样板》播出

西湖龙井茶多会喝最好

西湖龙井茶是中国的名茶之一，受到众多茶友的喜爱。喝西湖龙井茶最好的

内蒙古开鲁县麦新镇：红色小镇演绎绿色崛起

题：内蒙古开鲁县麦新镇：红色小镇演绎绿色崛起中新网记者张林虎“我们

2023年冷却液行业深度分析及投资价值分析

发动机冷却液是保证汽车发动机在正常温度范围内运转所必不可少的散热介

城区普高指标生录取名单公布

考生可扫码查询指标生录取名单。株洲日报讯（全媒体记者 戴凛）记者昨

金价飙升，创历史新高！这里的民众，还疯狂入手！什么情况？

记者了解到，随着日本国内金价不断走高，有不少当地民众趁高位抛售手头

钛媒体科股早知道：高级别自动驾驶搭载量翻倍增长，人形机器人或成为该产品最新增长动力

必读要闻一：高级别自动驾驶搭载量翻倍增长，人形机器人或成为该产

一吐为快丨别让外卖店铺照片变“照骗”

▲外卖商家上传平台的门面照片（上）与实际门面照片（下）的对比。易永

名人传记有哪些书推荐小学生（名人传记有哪些）

来为大家解答以上问题。名人传记有哪些书推荐生，名人传记有哪些这个很

中外专家共话中非农业现代化创新合作

中外专家共话中非农业现代化创新合作---湖北日报讯（记者田佩雯、实习

算一算你的婚姻百科（算一算你的婚姻）

来为大家解答以上的问题。算一算你的婚姻百科，算一算你的婚姻这个很多

以燕会友，赏鉴美好——燕之屋新品品鉴会圆满成功

6月28日，燕之屋旗下高端燕窝品牌碗燕系列新品「碗燕浓鲜款上市」品鉴

加拿大媒体：美国社会弥漫着不安全感，每个角落充斥着恐惧

加拿大报纸《环球邮报》网站报道截图中国日报网7月6日电（党超峰）当地

再见CoCo李玟，此后再无月光爱人

月光爱人音乐：CoCo李玟凭《DiDaDi》《想你的365天》等金曲红遍大街小

医美合规观察｜医美产业迎来强监管，如何提升产业合规化水平？

21世纪经济报道记者朱萍实习生朱益孝北京报道近日，北京某医疗美容机构

2023年最新养老金调整补发即将启动，3000元养老金可以补发多少钱，来看看?

今年养老金的调整已经确定，在2023年5月22号这一天，人社部公布关于养

电脑中双显卡和单显卡有什么区别哪个更好点一些（电脑中双显卡和单显卡有什么区别哪个更好点）

华宝稳健养老FOF孙梦祎：“定性为主”择基策略筑就护城河

中华联合财险山东分公司举办“7·8全国保险公众宣传日”活动

总预算1.017亿元！上海移动启动家宽终端FTTR集采

拿药更方便！西青区能开儿童医院制剂啦

全球热文：GrowingIO分析模型上新：首复间隔分析助力企业提升忠诚用户体量，促进交易额增长

天天新资讯：福克斯后刹车片更换图解（福克斯后刹车片多久换？）

建立草原健康和退化数据库，四川草原将迎来首次“全面体检”

世界观热点：嘉峪关中考历年录取分数线查询（持更）

抓好粮头食尾农头工尾｜省粮食和物资储备局：通过流动资金贷款贴息支持促进企业增值增效 当前视点

女性科研人员申请“杰青”放宽到48岁

6月全球制造业PMI降至47.8% 全球经济下行压力加大_当前热文

当前快看：2023年足坛TOP100榜单：哈兰德姆巴佩领衔 C罗落选

《汽车行业维护公平市场秩序承诺书》正式签署

看热讯：震撼富豪圈！家族后代那么多，香港首富却选她做接班人？

快看点丨“平权行动”违宪：大学录取的公平正义是什么？

尊享世家增额版怎么样？在哪里可以买？ 天天热门

石家庄民办小学报名时在几号？

老板跑路劳动局会管吗

文博日历丨热热热！用它，小酌一杯冰酒

世界新消息丨妻子患病丈夫不闻不问 法院：有扶养义务，你得管！

观点：干得漂亮！抵制演唱会“黄牛党”，这家网络科技企业出手！

痛心！粉丝在李玟轻生当天收到她为大家录的语音

全球速读：天津三个区列入实验区，婚俗改革如何改？

《原神》3.8物归原主又归原主任务攻略_世界关注

中国银联：平台金融业务整改和反垄断不断深入 数据治理改革持续推进 全球观点

穿越女医生救丞相（穿越女医生） 天天动态

创近3年来新高！茂名石化成品油下海量同比增长64%_世界新资讯

新日股份：截至6.30的公司股东数敬请关注公司即将披露的半年度报告

新华网：《国内LLM产品测试报告》发布百度文心一言多维度整体领先

新华网：《国内LLM产品测试报告》发布百度文心一言多维度整体领先

训练返程途中发现男子形迹可疑青岛特警抓获网上在逃人员

山东日照岚山区立足临港优势打通“材富”路

考生可扫码查询指标生录取名单。株洲日报讯（全媒体记者戴凛）记者昨

抓好粮头食尾农头工尾｜省粮食和物资储备局：通过流动资金贷款贴息支持促进企业增值增效当前视点

尊享世家增额版怎么样？在哪里可以买？天天热门

世界新消息丨妻子患病丈夫不闻不问法院：有扶养义务，你得管！

中国银联：平台金融业务整改和反垄断不断深入数据治理改革持续推进全球观点

穿越女医生救丞相（穿越女医生）天天动态

DC超英新片《闪电侠》预计亏本2亿美元成为华纳百年历史里最赔钱电影|焦点速讯

全球观察：树牢安全发展理念筑牢安全生产防线

郑州市智多星儿童智能训练会馆信息

菲律宾债务总额攀升至14.1万亿比索创历史新高_每日消息

队记：鹰蜂侠尼巫有意格威绿军考虑匹配中产或先签后换首轮新消息

热资讯！农夫山泉怎么辨别真假农夫山泉包装惹争议

大将军：文森特和范乔丹区别没那么大火箭若签他能引进热火文化-环球热议

盈盛控股乔迎宾：不显山露水潜心打造“智能办公”

中沃防火门马忠良：前半生守国门后半生护家门

苹果概念股再度下挫比亚迪电子大跌超11%

苹果概念股再度下挫比亚迪电子大跌超11%

河南将招引万名博士后等青年人才全国各地招引人才竞争激烈