过去三个月,GPT-4 识别素数的能力从97.6%下降到2.4%,而 GPT-3.5 却从7.4%上升到了86.8%。GPT-4 和 GPT-3.5 生成代码的格式错误都比三个月前多。GPT-4 在6月份比3月份更不愿意回答敏感问题,AIM攻击 (一种越狱攻击) 的应答率也从78%下降到了31%。视觉推理任务二者变化较小。
根据提供的信息,的确存在GPT-4的能力退化的迹象。GPT-4的素数识别能力下降了很多,而GPT-3.5的素数识别能力却有显著提高。此外,GPT-4和GPT-3.5在生成代码方面都出现了更多的格式错误。GPT-4在回答敏感问题和应对AIM攻击方面的表现也变得更差。然而,对于视觉推理任务,两者的变化较小,没有明显的能力退化。因此,人们对GPT-4能力退化的怀疑似乎是正确的。