🐾
PawBench
Leaderboard
Slice
Tasks
Blog
EN
GitHub
Slice 切片分析
按任务标签维度对模型表现进行细粒度对比,行始终为 model × harness
1
切片维度
· 选维度 + 1 个值,看该子集上的 model × harness 表现
切片维度
复杂度
3
模态
2
环境
2
能力
7
场景(一级)
11
数据集
6
具体值
L3
109
L2
29
L1
12
Legend:
< 25
25–40
40–55
55–70
≥ 70
·
Cells = mean score (×100) on the tasks in that bucket