AI 也玩裙带关系?当上评委后狂为自己人加分
AI也玩裙带关系?当上评委后狂为自己人加分LMSYS提出了一个全新的AI考试,其中使用了两大冠军模型GPT-4Turbo和Claude3Opus作为考官,结果发现它们的"裙带关系"实在难以忽视......当GPT-4作为评审时,OpenAI系列模型呈现集体上大分的景象;而换Claude3上位后画风180°大转弯,OpenAI家族落马的同时Anthropic鸡犬飞升。研究员还发现两位AI考官的裁判风格截然不同,Claude3不愿意给出苛刻的分数,它特别犹豫宣称谁比谁"明显更好"。相比之下,当GPT-4识别出影响答案的错误时,它会给出明显较低的分数来惩罚考生。Claude3也发现了这些错误,但它倾向于将之视为小问题,并在评分时宽大处理。价值判断也是,像在编码问题上,Claude3会选择最具教育价值的回答,提供简单的结构而不依赖外部库。然而GPT-4会优先考虑最实用的答案,无论其对用户的教育价值如何。关注频道@TestFlightCN
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人