[隐藏左侧目录栏][显示左侧目录栏]
使用GPT-4进行评估时的模版如下所示:
该问题一般是相比较的模型能力接近时出现,当两个模型能力相差较大时一般不会出现该问题。
该现象如下图所示,交换response1和response2的位置之后,GPT-4的评估结果就会改变:
两个模型的答案的前后位置随机放;
或者两个模型的答案交换位置评估两次;
From here you can search these documents. Enter your search terms below.