聊天机器人竞技场排行榜 (第4周) : PaLM 2 的表现

Chatbot Arena 是一个大型语言模型的基准平台，会让两个匿名AI以随机的方式并排聊天，由用户投票更好的一方，再基于 Elo 评级生成排行榜。新加入的谷歌 PaLM 2 在过去两周与其它聊天机器人进行了大约8160场匿名战斗，在用户评级后排名第6。

PaLM 2 比其它模型受到了更严格的监管。PaLM 2 由于拒绝回答而输掉了20.9%的战斗。PaLM 2 拒绝了许多角色扮演问题，即使用户要求它模拟 Linux 终端或编程语言解释器。有时 PaLM 2 还会拒绝回答简单且无争议的事实问题——比如它会拒绝回答"天空为什么是蓝的?"。

目前提供的 PaLM 2 版本的多语言能力受限，往往会拒绝回答非英语问题，包括中文、西班牙语和希伯来语等流行语言。PaLM 2 在仅英语排行中第5，在非英语排行中第16。

尽管 PaLM 2 的表现不是最好的，但它依然是一个值得关注的模型。PaLM 2 是谷歌最新推出的语言模型，被认为是目前最先进的模型之一。与其它比赛中的聊天机器人相比，PaLM 2 不仅具备更高的语言理解能力，还能够生成更准确和自然的回答。随着这个领域的发展，我们可以期待 PaLM 2 在未来的表现更加出色。