新提示实现了900%的逻辑和推理改进 (GPT - 4)

11 min read

Google DeepMind与普林斯顿的一项新研究成果旨在彻底改变人们对提示工程的认识,让大型语言模型在逻辑问题解决和推理方面更加贴近人脑的方式。这项研究非常有趣,结果令人难以置信。接下来,我将为大家介绍这篇论文,展示一些样例和结果,并向大家展示一个实现"思考树"提示的GitHub仓库。

《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》这篇论文的目标是赋予大型语言模型在实际解决问题之前思考问题的能力。大型语言模型的工作原理基本上就是预测文本序列中的下一个内容。你给出一个提示,然后大型语言模型会预测这些词汇序列中的下一个词汇。这种方法在很多不同的应用场景中都非常有效,但是当涉及到逻辑问题、推理问题和数学问题时,这种从左到右的决策方式就会出现问题。《思考树》的目标是为大型语言模型建立一种方法,让它能够通过多个步骤思考问题,探索不同的解决方案路径,选择最佳路径,并输出最终的解决方案。

如今,大型语言模型越来越多地被部署用于广泛的问题求解任务,但在推理过程中,它们仍然局限于基于令牌的从左到右决策过程。这意味着它们在需要探索、前瞻性思考或初始决策至关重要的任务中可能无法胜任。在《思考链》等方法出现之前,已经有一些解决方案。《思考链》是这个问题的一个解决方案的示例,其中通过给定一个提示,要求大型语言模型提供从实际提示到解决方案之间的逻辑步骤。而《思考树》则允许大型语言模型通过考虑多个不同的推理路径和自我评估选择来进行刻意决策,以决定下一步行动,并在必要时进行前瞻性思考或回溯,以进行全局性的决策。

《思考树》在三个挑战领域进行了测试:24点游戏、创意写作和纵横字谜。接下来我将详细介绍每个挑战,让我们一起看看。

在24点游戏中,使用了24点游戏的设置。他们从fournums.com上获取了大约1300个游戏,然后按照难度从低到高进行了排序,并选取了最难的100个游戏。然后,他们使用了标准的输入输出提示,并附带了5个上下文示例,以便告诉大型语言模型每个输入应该对应的输出。在这里,他们展示了游戏树的示例,并展示了《思考树》在解决该问题上的表现。与输入输出提示相比,《思考树》的成功率提高了10倍,达到了74%。

接下来是创意写作任务。这是一个创意写作任务,输入是四个随机句子,输出应该是一个由四个段落组成的连贯段落,每个段落的结尾分别是输入的四个句子。这是一个开放性和探索性的任务,挑战在于创意思维和高层次规划。通过使用gpt4的零射击提示来评估连贯性,以及人类的判断来进行比较,结果显示《思考树》在连贯性上的表现最佳。

最后是纵横字谜任务。他们探索了5x5的小型纵横字谜作为一个更难的搜索问题,其中涉及自然语言。他们的目标是探索语言模型作为一个通用问题求解器的极限,它可以通过刻意推理作为启发式机制来引导自己的探索。《思考树》在这个任务中显著提高了所有指标,词汇水平的成功率达到了60%,解决了20个游戏中的4个。

通过《思考树》这种方法,大型语言模型可以同时考虑多个潜在可行的解决

方案路径,并选择最有希望的路径。思考采样和价值反馈的整合有机地结合了规划和决策机制,使得在解决问题时可以进行有效的搜索。这种使用大型语言模型对其预测进行自我评估的方法在问题求解中变得越来越重要,它能够评估自己的预测的可行性。这种方法的灵活性可以超越编程规则,同时比学习模型更具样本效率。

然而,《思考树》也存在一些局限性。对于许多现有的任务来说,像GPT-4这样的模型已经非常出色,可能不需要使用这种复杂的结构来改进性能。此外,《思考树》等搜索方法需要更多的资源,因此与采样方法相比成本更高。但《思考树》的模块化灵活性使用户能够根据性能和成本的权衡进行自定义。

《思考树》是一项重要的突破,可以极大地提高大型语言模型的逻辑和推理能力。通过对问题进行拆解、生成思路、状态评估和搜索算法等多个步骤的综合运用,大型语言模型能够更好地解决各种复杂问题。尽管《思考树》在实现上较为复杂,需要进行编码,但它的表现结果也更加出色。

未来,这种方法可能会被更广泛地使用,帮助人们更好地理解如何构建更加灵活、自适应和智能的提示系统。同时,这项研究还探索了如何使用大型语言模型来解决一些现实中的问题,比如自然语言处理、文本生成和自动问答。因此,我们可以期待这种方法在未来的应用场景中发挥更强大的作用。

最后,如果你对这篇论文感兴趣,可以前往GitHub上的相关仓库了解更多细节。这个仓库提供了完整的代码和实现,可以让你亲自体验这种方法的表现和效果。同时,在这个仓库中,你也可以加入到《思考树》社区中,并与其他研究者一起合作,探索如何进一步改进这种方法,从而使其更加灵活、高效和强大。