如何测试大模型的思考能力?

2024-11-19 阅读 17
更新于 2024年11月21日
我觉得不用测试,目前的大模型其实没有思考能力,OpenAI的o1也只是推理能力更强而已。
如果加大答案的随机性,会显得有那么一点点思考能力。
理由目前的大模型不管是注意力机制还是自注意力机制,本质上是基于已知内容和对话内容的相关性计算答案的,这种设计导致大模型不可能实现拟人思考。
个人观点:这里我理解的思考是指针对问题,在没有解决方法的前提下思考出一种可能的应对方案。而这种思考恰恰是从与当前问题无关的领域中汲取灵感的,这对于大模型来说就是要做全局遍历,直接推翻了其核心算法。
目前的大模型与其说是AI,不如说是基于向量的数据检索和基于检索结果的向量解码的知识库。只要还是用目前定义的token方式来模拟神经元,那么这一带的AI迭代差不多快到头了。
当然并不是说目前的大模型没有价值,我觉得这是一个必经之路。
总结同样只是个人观点:思考能力和知识储备无关,赋予AI思考能力在于能不能弄明白思考的过程并表达给开发者。
例子1:在墙上钉钉子,钉不进去该怎么办?通义的回答已经很有代表性了,包括检查墙、检查钉子、打孔+涨管、胶粘、找人帮忙。其中只有胶粘能和思考勉强沾边。然后问它这些目前都办不到,怎么办?然后就开始一本正经的乱说了,包括胶带、双面胶、橡皮筋、绳子、粘钩、磁铁。而如果是我的话,回答钉子钉不进去怎么办时,我大概率会问:为什么要在墙上钉钉子?实际的生活场景描述:A在钉钉子,半天都没弄好,B问,你干什么呢?A说我想钉个钉子挂帽子,死活钉不上。B说,那你拿个粘钩呗。(当然,B也有可能没问你干什么呢,直接去借了电钻、买了螺丝涨管。粗心大意而又热心的人确实会这样。)其实大部分人应该有类似的经历,但是很多真正思考的过程往往由于太平常了,太本能了,所以根本没有意识到一个本该存在的过程。例子2:计划乘28路公交出行,等车的时候往往并不需要识别来的车是不是28路。尤其天黑的时候,首先是外型淘汰(比如28路是大车,而有的线路是小一些的车)和颜色淘汰,然后是判断是否2位数,再确认是否可能是2,同样再确认是否可能是8(删掉这一步,因为除非这个数字的所有灯都坏了,否则都可能是8,而其他数字不同,比如左上的竖线亮了必然不是1、2、3、7),然后确认是不是2,再确认是不是8。
在两个不直接相关的冷门概念之间,建立符合类比方法给出限制的逻辑关系。
如,基于左传和五经中石碏诛石厚的记载,论伦常与政治的纽带关系
我们可以用概率思维来评估一个人的思考能力,同样放到一个程序上,对一个问题的概率分析越准确那么可以认为这个AI具有更强大的分析能力,比如特征的聚合求解与多项式的分拆求解,或者我们换一种角度来测试一个AI的思考能力,我们可以使用抽象化概念和具象化概念来让AI进行类此的解释以及系列推理的解释,从图形推理的角度分析这两种模式之间的梯度变化量是否呈现特征聚合的现象来观察,也可以说我们测试的是一个大模型对于图形的哲学含义的理解与词汇概念的重构能力,另一种测试方法就是测试AI大模型的容错能力,可以以总结文章后从逻辑矩阵中生成文章并校对原文来判断两个矩阵的相似度,或者还可以测试AI的自我认知能力来判断AI思考问题的能力
广告知乎出品 另一种天才知乎自营¥33.00去购买​
大模型就是 Transformer 或者增强学习算法,它不是通用人工智能,它没有思考能力。
这个问题挺有意思的!测试大模型的思考能力,确实可以通过一些趣味性的方式来进行,比如你说的这个猜数游戏就是个不错的点子。那我来给你详细说说怎么操作吧。