Chatbot Arena 是一个大型语言模型的基准平台,会让两个匿名AI以随机的方式并排聊天,由用户投票更好的一方,再基于 Elo 评级生成排行榜。新加入的谷歌 PaLM 2 在过去两周与其它聊天机器人进行了大约8160场匿名战斗,在用户评级后排名第6。
PaLM 2 比其它模型受到了更严格的监管。PaLM 2 由于拒绝回答而输掉了20.9%的战斗。PaLM 2 拒绝了许多角色扮演问题,即使用户要求它模拟 Linux 终端或编程语言解释器。有时 PaLM 2 还会拒绝回答简单且无争议的事实问题——比如它会拒绝回答"天空为什么是蓝的?"。
目前提供的 PaLM 2 版本的多语言能力受限,往往会拒绝回答非英语问题,包括中文、西班牙语和希伯来语等流行语言。PaLM 2 在仅英语排行中第5,在非英语排行中第16。
尽管 PaLM 2 的表现不是最好的,但它依然是一个值得关注的模型。PaLM 2 是谷歌最新推出的语言模型,被认为是目前最先进的模型之一。与其它比赛中的聊天机器人相比,PaLM 2 不仅具备更高的语言理解能力,还能够生成更准确和自然的回答。随着这个领域的发展,我们可以期待 PaLM 2 在未来的表现更加出色。