QIANWEN BENCHMARK ATLAS

模型评测看板

公开展示全部结果,管理员登录后才能发起新的测试任务。所有面板先解释测试目的和分数含义,再展示柱状图与原始数据。

API 连接中
Storage SQLite
Access 公开浏览

Overview

一眼看清当前覆盖范围

Reading rule

先看分类的测试目的,再看每组主指标的柱状图,最后回到表格与原始结果文件。

Run permission

结果默认公开可读。只有管理员 session 允许点击“开始异步任务”。

Read Path

建议阅读顺序

Category Guide

分类导读

不同测试回答的是不同问题。这个区域先说明每类 benchmark 的用途和读分方式,再进入具体模型得分。

Benchmark Board

按测试目标组织的结果板

Async Jobs

测试任务流

Inspect

结果文件与日志