测试大语言模型 比如llama,gpt,有什么好的正规逻辑测试题推荐?
2023-06-30 阅读 24
可以从形式逻辑题和自然语言推理题双线出发。形式题可用三段论(例如:所有A是B,所有B是C,能否推出所有A是C)、命题逻辑真假表、量词作用域与否定(∃xP(x) 与 ∀xP(x) 的区别)、布尔表达式求值、模态与反事实(“若下雨草会湿,草湿能否推出下雨?”)、骑士与骗子类悖论、归纳与溯因推理。实用数据集有 SNLI/MultiNLI、ReClor、LogiQA、AbductionNLI、CLUTRR、ProofWriter、MiniF2F/Mizar 等,既能测句子级蕴含,也能测证明与步骤化推理。
更新于 2025年12月19日