[隐藏左侧目录栏][显示左侧目录栏]

使用GPT-4进行评估时的模版如下所示:

存在的问题: 交换位置就会使得评估结果进行改变#

该问题一般是相比较的模型能力接近时出现,当两个模型能力相差较大时一般不会出现该问题。

该现象如下图所示,交换response1和response2的位置之后,GPT-4的评估结果就会改变:

提出的解决方法#

两个模型的答案的前后位置随机放;

或者两个模型的答案交换位置评估两次;