Coding UX Eval 中文 Elo Demo

评测系统说明

Round 1 解原始任务，Round 2-5 由 simulated user 根据前序轨迹继续追问、纠错、要求测试或做维护性审查。

保留 round1 verifier、final original verifier 与 LLM-as-judge UX 分数，用于判断功能正确性和多轮体验质量。

新增两两比较机制：Claude 模拟用户 Elo 与真人投票 Elo。默认初始分 1000，K=32，胜/平/负分别为 1/0.5/0。

同一任务下的两套 Elo 结果与原 UX judge 分数。

正在读取投票数据...

完成每轮投票后在本浏览器计算。

每一轮都将两个模型在同一用户请求下的表现送给 Claude 做 A/B/Tie 判定，再按 Elo 公式更新。

请逐轮比较两个模型在该轮的回答、工具使用、patch 与测试表现。若 Cloudflare D1 已绑定，投票会写入后端并更新全站真人 Elo；当前浏览器始终会计算你的个人投票 Elo。