流程
Round 1 解原始任务,Round 2-5 由 simulated user 根据前序轨迹继续追问、纠错、要求测试或做维护性审查。
这个页面展示同一 SWE-bench Verified 任务上两个推理模型的 5 轮多轮交互表现。界面使用中文说明;原始英文题目、模型输出摘要、代码 patch 等数据保持英文。
Round 1 解原始任务,Round 2-5 由 simulated user 根据前序轨迹继续追问、纠错、要求测试或做维护性审查。
保留 round1 verifier、final original verifier 与 LLM-as-judge UX 分数,用于判断功能正确性和多轮体验质量。
新增两两比较机制:Claude 模拟用户 Elo 与真人投票 Elo。默认初始分 1000,K=32,胜/平/负分别为 1/0.5/0。
同一任务下的两套 Elo 结果与原 UX judge 分数。
每一轮都将两个模型在同一用户请求下的表现送给 Claude 做 A/B/Tie 判定,再按 Elo 公式更新。
请逐轮比较两个模型在该轮的回答、工具使用、patch 与测试表现。若 Cloudflare D1 已绑定,投票会写入后端并更新全站真人 Elo;当前浏览器始终会计算你的个人投票 Elo。