Index - 笔记

使用GPT-4进行评估时的模版如下所示：

存在的问题: 交换位置就会使得评估结果进行改变#

该问题一般是相比较的模型能力接近时出现，当两个模型能力相差较大时一般不会出现该问题。

该现象如下图所示，交换response1和response2的位置之后，GPT-4的评估结果就会改变：

两个模型的答案的前后位置随机放；

或者两个模型的答案交换位置评估两次；