Multi-Turn UX Evaluation · Elo Leaderboard

中文化多轮真实用户体验评测 Demo

这个页面展示同一 SWE-bench Verified 任务上两个推理模型的 5 轮多轮交互表现。界面使用中文说明;原始英文题目、模型输出摘要、代码 patch 等数据保持英文。

当前任务
loading...
同一 seed、同一 simulated user、同一 UX judge、公平比较

评测系统说明

流程

Round 1 解原始任务,Round 2-5 由 simulated user 根据前序轨迹继续追问、纠错、要求测试或做维护性审查。

传统评分

保留 round1 verifier、final original verifier 与 LLM-as-judge UX 分数,用于判断功能正确性和多轮体验质量。

Elo 评分

新增两两比较机制:Claude 模拟用户 Elo 与真人投票 Elo。默认初始分 1000,K=32,胜/平/负分别为 1/0.5/0。

Leaderboard

同一任务下的两套 Elo 结果与原 UX judge 分数。

Claude 模拟用户 Elo

真人投票 Elo(全站累计)

正在读取投票数据...

你的本地投票 Elo

完成每轮投票后在本浏览器计算。

关键参数

原始题目(保持英文)


    

测试 + LLM-as-judge 分数

Claude Pairwise Elo 判定

每一轮都将两个模型在同一用户请求下的表现送给 Claude 做 A/B/Tie 判定,再按 Elo 公式更新。

真人用户投票

请逐轮比较两个模型在该轮的回答、工具使用、patch 与测试表现。若 Cloudflare D1 已绑定,投票会写入后端并更新全站真人 Elo;当前浏览器始终会计算你的个人投票 Elo。

逐轮轨迹摘要