lixian 读了一下,很有说服力,尤其是其中提到:
ChatGPT在 “推理” 中表现出的话题相关性就暴露了它并不真能进行逻辑推理,而只是通过模仿人类言语行为,往往会正确描述某些推理过程。这种分析同样适用于其它认知功能。我们甚至可以说 ChatGPT “不解决问题,但总结人们对问题的解决
为了防止GPT从网络文章里抄答案,我在测试的时候没有用理发师悖论,而是自己写了一个“母亲给全家人喂饭”的问题。正因此,当它指出这是悖论时我非常惊讶,认为它真的理解了什么是悖论。今天和做过nlp研究的女友聊到这个问题,她表示是我给的样本太简单了,用RNN就能识别出它和理发师悖论相似,所以并不能认为GPT真的理解“悖论”的含义。由此看来,我在主楼里说的
GPT已经能够正确使用数学、物理公式,可以理解关系嵌套和模糊指代、并将问题拆分做逐层推理,还能分辨悖论、因果倒置等常见逻辑问题
这一结论过于武断了,GPT未必真的具有推理能力。
但是,如果“nlp被彻底解决了”,那能否让GPT调用别的程序进行推理呢?GPT已经能有效地猜出每道题目该用什么公式(虽然有时会用错),而人类在符号运算领域已经有非常成熟的软件,Wolfram甚至已经宣称要和OpenAI合作。假如给GPT一个前沿问题,让它仿照人类对相似问题的思路提出一个可解的子问题,然后调用符号运算API求解,再把结果整合进题目条件里,提出第二个子问题……如此循环,会不会真的能解决一些前沿技术问题?
作为依靠文本出现概率生成回答的语言模型,GPT确实只能复现人类已经达成共识的知识。但有没有可能,90%以上的科研工作和几乎所有的工程问题都是既有知识在特定场景的应用,只要有了知识和研究范式,总归可以做出来?这样的话,除了极少数开山级别的大佬,科研工作者也没有存在的必要了。
今天中科院物理所发了一篇推文,尝试用GPT做考研量子力学卷。GPT对大部分题目都能给出思路,但频繁出现计算错误,最终能拿到约80/150的分数;如果修正计算问题,就能拿到100/150。按这个分数估计,如果把GPT放到妮可的量子力学B课堂里,恐怕能排到中游。这么看,以上设想或许真能实现。