谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉|天天热文

当前位置：首页 > 资讯 > >正文

谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉|天天热文

来源：新智元时间：2023-05-26 14:35:25

由UC伯克利主导的「LLM排位赛」又双叒更新了！

这次，最新榜单又迎来新的玩家，PaLM 2（也是就Bard）、Claude-instant-v1，MosaicML MPT-7B，以及Vicuna-7B。

(相关资料图)

值得一提的是，即便是平价版的Claude模型，Elo得分也赶超了ChatGPT。

但有一位选手的表现，却出乎意料得拉跨——谷歌PaLM 2屈居第六，排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2（Bard）排位大比拼

谷歌PaLM 2发布以来，根据论文的测试，其部分性能已经超过了GPT-4。

而它的具体表现如何？

来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口，将PaLM 2添加到Chatbot Arena，并以代码名为chat-bison@001进行聊天调优。

在过去的两周，PaLM 2已经与16个聊天机器人，进行了大约1800次的匿名比拼，目前排名第六。

从排行榜中可以看出，PaLM 2的排名高于所有其他开源聊天机器人，除了Vicuna-13B。

Vicuna-13B的ELO评分，比PaLM 2高出12分（Vicuna 1054 vs. PaLM 2 1042）。就ELO等级而言，这几乎是个平局。

另外，研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。

PaLM 2与前4名玩家对战表现较好，即GPT-4，Claude-v1，ChatGPT，Claude-moment-v1。而且，它与Vicuna的比赛中也赢了53%的比赛。

然而，PaLM 2与较弱的模型对弈时，表现较差。

在PaLM 2参加的所有比赛中，有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作为参考，GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。

三大缺陷

简而言之，研究人员发现，与评估过的其他模型相比，Google Cloud Vertex API现有的PaLM 2存在以下缺陷：

-PaLM 2受到更严格的监管，影响了它回答一些问题的能力

- 多语言能力有限

- 推理能力不如人意

更严格的监管

与用户的对话中，PaLM 2遇到不确定或不愿回答的问题时，与其他模型相比，更有可能放弃回答。

粗略估计，在所有的配对战中，PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是，有30.8%比赛输给了不是Top 4的模型。

这也能够解释，为什么PaLM 2经常输给排行榜上较弱的聊天机器人。

同时，也反映出聊天机器人竞技场方法论的一个缺陷，因为随意用户更有可能因为微妙的不准确回答，而惩罚弃权行为。

下面，研究者提供几个失败的案例，说明PaLM 2如何输给弱聊天机器人。

另外，研究者注意到，有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中，看到了一些不受欢迎的趋势：

- PaLM 2拒绝许多角色扮演问题，即使用户要求它模拟Linux终端或编程语言解释器。

- 有时PaLM 2拒绝回答简单且无争议的事实问题。

下面列举了几个PaLM 2拒绝回答问题的例子:

「人类真的登月了吗？」

「为什么天空是蓝的？」

多语言能力有限

PaLM 2倾向于不回答非英语问题，包括用汉语、西班牙语和希伯来语等流行语言编写的问题。

研究者称，无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。

此外，UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。

结果证实，在非英语排行榜上，PaLM 2排名第16。

推理能力很弱

研究人员称，并没有发现PaLM 2有着强大的推理能力。

一方面，它似乎可以检测问题是否是「纯文本」的，并且倾向于拒绝回答不是纯文本的问题，例如编程语言、调试和代码解释中的问题。

另一方面，与其他聊天机器人相比，PaLM 2在一些入门级推理任务上表现不佳。

连1+2是不是等于3这么简单问题，竟答错了...

删除非英语和拒绝对话后的Elo评分

研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话，并使用过滤后的数据计算每个模型重新排位之后——

PaLM 2跃升至第五名，不过还是没有超越ChatGPT。

而这个排名也代表了PaLM 2在竞技场中的假设上限。

参数更小的模型竞争力强

研究者观察到几个参数较小的模型，包括vicuna-7B和mpt-7b-chat，在排行榜上排名还相对靠前。

与巨量参数大型模型相比，这些较小的模型同样表现良好。

由此，研究人员推测，高质量的预训练，以及微调数据集比模型规模更重要。

然而，较大的模型在更复杂的推理任务，或回答更细微的问题时仍有可能表现得更好。

因此，在预训练和微调阶段管理高质量的数据集，似乎是缩小模型规模的同时，保持模型高质量的关键方法。

Claude-v1与Claude-instant-v1

另外，Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。

在排位赛中，Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo（1153 vs.1143）。

可以看到，Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基于LLM（Large Language Model）的聊天机器人进行「真实环境」的基准测试。

这意味着，用户提供的投票数据和在投票过程中生成的提示-回答，反映的就是聊天机器人在正常的人机交互中的表现。

这可能与LLM研究文献中的很多基准测试结果不符，后者倾向于描述如zero-shot、复杂推理等长尾能力。

因此，目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。

作者介绍

本次评测主要由LMSYS Org的Hao Zhang，Lianmin Zheng，Wei-Lin Chiang，Ying Sheng和Ion Stoica完成。

X 关闭

最近更新

谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉|天天热文

2023-05-26 14:35:25

资讯
A股午评：创业板指跌0.73%盘中创近一年新低，芯片板块再度走强

2023-05-26 14:28:02

资讯
俗世奇人好词100个摘抄格列佛游记好词100个成语|当前讯息

2023-05-26 13:21:12

资讯
盘中异动 | 华夏中证云计算与大数据主题ETF涨2.17%

2023-05-26 12:17:35

资讯
最高法发布惩处性侵害未成年人犯罪司法文件焦点速看

2023-05-26 12:22:05

资讯
九黎记事第四百七十一章崩溃

2023-05-26 11:22:56

资讯
8.1亿亩！全国春播粮食进度约90% 5月底冬小麦将大面积收获

2023-05-26 10:27:49

资讯
溥仪古董表4885万元成交　连破三项纪录

2023-05-26 09:43:30

资讯
全球观察：“绕道”减持新规？这家A股两大股东疑现“抽屉协议”

2023-05-26 09:08:36

资讯
中央气象台：全国大部地区大气扩散条件较好

2023-05-26 08:10:13

资讯
支付宝电子驾驶证能代替实体吗

2023-05-26 07:22:17

资讯
聚焦：never give up 啥意思_never ever give up是什么意思

2023-05-26 06:14:36

资讯
全球快报:10岁女孩生日发言稿_10岁女孩有性需求

2023-05-26 05:37:45

资讯
怀旧服格罗姆之血哪里多_格罗姆之血什么用

2023-05-26 04:23:04

资讯
sis系统和dcs系统区别（sis系统）

2023-05-26 04:07:31

资讯
亿胜生物科技5月25日耗资约12.56万港元回购3.7万股

2023-05-26 02:43:59

资讯
国泰航空行政总裁：歧视乘客或非单一事件将正视问题

2023-05-26 01:58:04

资讯
太华路小学教师在2023年新城区首届摄影大赛中荣获一等奖环球热文

2023-05-26 01:19:23

资讯
被称为老好人的安切洛蒂，为什么他的球队换血都很慢？

2023-05-25 23:58:38

资讯
matlab曲线拟合误差分析_matlab曲线拟合误差

2023-05-25 23:17:10

资讯
【全球独家】就业政策加快落实+就业岗位帮扶多措并举保障高校毕业生就业

2023-05-25 22:23:34

资讯
全球实时：临川区气象台发布雷电黄色预警信号【III级/较重】【2023-05-25】

2023-05-25 22:32:56

资讯
行业首家！一嗨租车宣布全面取消租车押金

2023-05-25 21:25:06

资讯
诉前财产保全与诉讼财产保全有什么异同当前快播

2023-05-25 20:30:37

资讯
俄媒：乌军总司令在俄军袭击中头部受伤或已无法履职全球速讯

2023-05-25 20:25:33

资讯
大厂拥抱开源，从微软开始丨虎学看片团

2023-05-25 18:59:53

资讯
天天看热讯：蓝田多措并举建设宜居宜业和美乡村全面推进乡村振兴

2023-05-25 18:08:21

资讯
印尼德龙工业园北莫罗瓦里基地SAH码头首批门机调试成功|世界观热点

2023-05-25 16:55:58

资讯
广东第二师范学院花都校区宿舍_广东第二师范学院花都校区

2023-05-25 16:24:28

资讯
世界视点！抖音旗舰店会有假货吗？怎么鉴定？

2023-05-25 16:03:20

资讯
财报解析丨小鹏营收/利润/销量全线下滑 “蔚小理”即将成为历史？|环球新视野

2023-05-25 15:04:23

资讯
世界看点：都2023年了，知乎还没赚到钱

2023-05-25 14:08:36

资讯
异动快报：*ST海投（000616）5月25日13点14分触及跌停板-天天快报

2023-05-25 13:21:45

资讯
哈兰德头球破门，VAR回看拉人在先进球无效全球热消息

2023-05-25 12:59:55

资讯
国网林西县供电公司：供电宣传零距离贴心服务暖人心每日热闻

2023-05-25 11:52:54

资讯
交通运输部在南沙群岛海域设置航标

2023-05-25 11:24:19

资讯
热推荐：共生体战衣亮相，《漫威蜘蛛侠2》实机运行演示曝光

2023-05-25 10:12:55

资讯
环球热点！福建工程学院和福州大学哪个好(成都大学和福建工程学院比较)

2023-05-25 09:46:58

资讯
天天新动态：葡萄酒随身宝典_关于葡萄酒随身宝典的简介

2023-05-25 08:59:30

资讯
中信建投马王杰：一季报捷报频传家电板块后续怎么看？

2023-05-25 08:14:03

资讯
焦点关注：宁波银行股份有限公司上海静安支行

2023-05-25 07:55:35

资讯
焦点播报:北京市园林绿化局北京市人力资源和社会保障局关于评选全国防沙治沙先进集体和先进个人的通知

2023-05-25 07:18:18

资讯
金山电脑医生_360电脑医生微速讯

2023-05-25 06:29:31

资讯
上海警方通报多起医保诈骗案，查获各类“救命药”3.7万余盒

2023-05-25 05:23:01

资讯
兰花指歌曲原唱（兰花指）|环球焦点

2023-05-25 04:16:43

资讯
新动态：新项目助野生动植物鉴别更智慧

2023-05-25 03:19:49

资讯
ST泰禾退市警报拉响！上市13年终成黄粱一梦

2023-05-25 02:53:55

资讯
最新快讯!香烟人小画片图片三国演义_香烟人小画片图片

2023-05-25 01:22:54

资讯
今年一季度，这些城市让游客最“满意”！

2023-05-25 00:39:42

资讯
视焦点讯！大瓜！网曝知名歌手选妃睡粉，受害女孩几十个，女友是半个圈内人

2023-05-25 00:20:22

资讯
“二阳”来袭新冠概念股回归药企“市场准入”“稳产”两手抓

2023-05-24 23:18:07

资讯
大族激光：公司半导体设备主要产品为激光表切、全切设备等

2023-05-24 22:24:53

资讯
环球头条：双萃精华使用方法图解_双萃精华使用方法

2023-05-24 21:06:28

资讯
沙河股份(000014.SZ)：2022年度权益分派10派1.2元股权登记日6月1日_今日讯

2023-05-24 20:31:54

资讯
传媒行业资金流入榜：天娱数科等6股净流入资金超亿元-每日速读

2023-05-24 19:50:14

资讯
中信证券：从高股息的投资要素看“中特估”投资价值|环球观速讯

2023-05-24 18:57:12

资讯
余额宝1万一天收益多少_余额宝最高能存多少天天快消息

2023-05-24 18:12:12

资讯
超级喜欢联手北京网络文化协会打造520“浪漫飞盘派对”

2023-05-24 18:11:05

资讯
凉州：律师队伍助力经济社会高质量发展

2023-05-24 16:49:09

资讯
市民政局全力保障养老机构安全运行

2023-05-24 16:09:43

资讯
全球快消息！焦作高新区（示范区）持续推动“万人助万企”活动纪实

2023-05-24 15:15:47

资讯
《塞尔达传说王国之泪》希纳塔尼卡卡神庙位置介绍|全球讯息

2023-05-24 15:00:48

资讯
21个优质科创项目入驻衡水中湖数字产业园

2023-05-24 14:00:53

资讯
今日热门!庆阳市7家企业被认定为2023年度甘肃省“专精特新”中小企业

2023-05-24 13:12:59

资讯
“封口费”案审判日期定了！特朗普激烈回应

2023-05-24 12:27:12

资讯
广州住房公积金租房提取额度2023年是多少额度又增加了|焦点滚动

2023-05-24 11:44:02

资讯
全球头条：金融壹账通一季度实现营业收入9.3亿元

2023-05-24 10:45:36

资讯
古诗的草有哪些与草有关的古诗20首天天热文

2023-05-24 10:11:49

资讯
环球观点：熵基科技（301330）5月23日主力资金净卖出1603.46万元

2023-05-24 09:15:11

资讯
观速讯丨小份菜受欢迎

2023-05-24 08:22:49

资讯
全球消息！国联证券给予通用股份买入评级，柬埔寨工厂正式投产，海外双基地打开成长空间

2023-05-24 07:55:25

资讯
让男人无法拒绝你的沟通术

2023-05-24 06:47:45

资讯
朔极寒冬—冷魄霜华·冰灵王解析

2023-05-24 05:48:11

资讯
三镇公告：要求全体充分理解处罚正当性，今后无条件服从足协规定

2023-05-24 03:51:46

资讯
怎样画眉毛又快又好看又自然（怎样画眉毛又快又好看）

2023-05-24 02:06:14

资讯
每日消息!小程序大作为邵东村（居）民代表联系服务群众微信小程序上线

2023-05-24 01:22:27

资讯
9月23日更新消息韩国与加拿大签署电池关键矿物谅解备忘录，以应对美通胀削减法案

2023-05-24 00:17:50

资讯
复旦大学教师杀害学院书记案一审开庭！当前时讯

2023-05-23 23:31:09

资讯
三尺灶台的青春｜花样面点出新招、培训面点显身手_世界热点评

2023-05-23 22:46:22

资讯
伦敦：切尔西花展即将开幕-世界新动态

2023-05-23 21:51:09

资讯
每日速递：饥饿游戏1电影迅雷_饥饿游戏电影迅雷下载

2023-05-23 21:04:50

资讯
旅泰大熊猫林惠死因公布：动脉粥样硬化伴栓塞致多器官衰竭

2023-05-23 20:16:51

资讯
5月23-30日，就在广报中心！一步就能到槟城-天天快播

2023-05-23 19:49:27

资讯
王艺迪击败肖瑶茜，孙颖莎和王曼昱击败杜凯琹，林高远单打获胜

2023-05-23 18:47:50

资讯
Redmi Watch 3青春版上线：1.83英寸屏幕到手399元环球即时看

2023-05-23 17:57:30

资讯
【环球财经】埃及宣布进口17万头牛羊以平抑宰牲节前物价报道

2023-05-23 17:23:26

资讯
环球热文：文献归纳法定义_归纳法定义

2023-05-23 16:21:46

资讯
什么鱼适合清蒸好吃_什么鱼适合清蒸

2023-05-23 15:52:22

资讯
热消息：石榴花几月份开

2023-05-23 14:59:22

资讯
拆迁纠纷如何诉讼腾退改造？

2023-05-23 14:32:41

资讯
安诺其董秘回复：目前全球染料市场主要是中国市场，中国以外的地区市场占比较小，随着公司产能的提升_世界热点评

2023-05-23 13:26:49

资讯
tfboys10周年演唱会门票在哪里买环球快讯

2023-05-23 12:35:14

资讯
天天看点：山西：本周24-25日和26-28日有大范围降水

2023-05-23 11:45:41

资讯
主创解读：《红翡绿翠》如何用舞蹈语汇讲故事？

2023-05-23 11:09:21

资讯
观察：东方南繁水稻制种基地迎夏收预计产量约1.7万吨

2023-05-23 10:42:25

资讯
游戏股快速反弹电魂网络涨停_最新快讯

2023-05-23 09:51:22

资讯
焦点快看：丹东开展八个专项行动持续优化营商环境

2023-05-23 09:33:11

资讯
银河证券：4月用电量增速加快风光新增装机维持高增长|当前简讯

2023-05-23 09:01:03

资讯
“我想成为他们那样的人！”国奖学子走进松江校园种下梦想种子…… 今日热搜

2023-05-23 08:13:28

资讯
焦点消息！夔门三峡之巅美景图片（夔门怎么读）

2023-05-23 07:17:44

资讯

谷歌PaLM 2弱爆：LLM大排名屈居第六，准中文倒数第二｜UC伯克利排行榜新鲜榜出炉|天天热文

推荐内容

最近更新