QIANWEN BENCHMARK ATLAS
模型评测看板
公开展示全部结果,管理员登录后才能发起新的测试任务。所有面板先解释测试目的和分数含义,再展示柱状图与原始数据。
Overview
一眼看清当前覆盖范围
Reading rule
先看分类的测试目的,再看每组主指标的柱状图,最后回到表格与原始结果文件。
Run permission
结果默认公开可读。只有管理员 session 允许点击“开始异步任务”。
Read Path
建议阅读顺序
Category Guide
分类导读
不同测试回答的是不同问题。这个区域先说明每类 benchmark 的用途和读分方式,再进入具体模型得分。
Benchmark Board
按测试目标组织的结果板
Async Jobs
测试任务流
Inspect