DataLearnerAIpostman request POST 'localhost:8080/api/admin/delete-model-benchmark-results/739'
--body ''
1. 基础信息
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
接口地址: {BASE_URL}/api/admin/add-benchmark-result/handler请求方法: POSTContent-Type: application/json接口描述: 管理端接口,用于批量新增、更新或删除模型评测结果(支持多条数据同时操作,支持设置评测的推理模式/参数模式)。
2. 请求参数 (Request Body)
请求体为一个 JSON 对象,对应后端 BenchmarkResultUpdateRequest 类,主要包含 新增/更新 列表和 删除 列表。
2.1 列表中单个元素对象 (ModelBenchmarkResult) 释义
entries 和 deletes 数组中的元素对应后端 ModelBenchmarkResult 类,其核心关键字段如下:
(注:ModelBenchmarkResult 类中还包含诸多其他用于关联查询展现的字段,但在写入接口中,通常仅需传入上述核心数据。)
3. 响应结果 (Response)
响应由后端的标准 JSON 结果工具或拦截器包装,结构简明:
3.1 响应字段
3.2 成功响应示例
{
"status": 200,
"message": "添加成功!"
}
3.3 失败响应示例
{
"status": 500,
"message": "添加失败!"
}
4. 完整的请求示例
场景说明
- 新增/更新: 我们为
modelId = 826 的模型同时添加 MMLU (benchmarkId = 1) 和 HumanEval (benchmarkId = 9) 的评测结果。在 HumanEval 评测中,还指定了这使用了高强度的推理模式 (modelMode: "xhigh",modeId: 5, rawModeLabel: "pass@1, high-thinking")。
- 删除: 删除一条该模型之前旧的过期测试数据。
Request Body (JSON)
{
"entries": [
{
"modelId": 826,
"benchmarkId": 1,
"evalResult": 88.5,
"modelMode": "base",
"rawModeLabel": "5-shot"
},
{
"modelId": 826,
"benchmarkId": 9,
"evalResult": 92.3,
"modelMode": "xhigh",
"modeId": 5,
"rawModeLabel": "pass@1, high-thinking"
}
],
"deletes": [
{
"modelId"
1. 基础信息
- 接口地址:
{BASE_URL}/api/eval-modes
- 请求方法:
GET
- 接口描述: 前端接口,用于获取系统支持的所有规范化评测模式 (Eval Modes) 列表。这些模式用于在评测结果展示时,区分和过滤模型使用的推理策略(如 base, medium, xhigh 等)。
2. 请求参数 (Query Parameters)
(例如: /api/eval-modes?includeInactive=false)
3. 响应结果 (Response)
响应由后端的标准 JSON 结果工具包装,data 字段中包含一个对象,对象中的 modes 键对应的是 EvalMode 对象的数组集合。
3.1 响应顶层字段
3.2 data.modes 列表中单个元素对象 (EvalMode) 释义
4. 完整的响应示例
{
"status": 200,
"message": "success",
"data": {
"modes": [
{
"modeId": 1,
"canonicalKey": "base",
"displayNameZh": "标准模式",
"displayNameEn": "Base Mode",
"thinkingModeKey": "base",
"toolUsage": null,
"internetUsage": 0,
"parallelFlag": 0,
"reasoningBudgetType": null,
"reasoningBudgetValue":
modelMode | String | 否 | [模式] 规范化的评测模式标识符 (如 xhigh, medium, base),通常用于筛选和标识。 |
rawModeLabel | String | 否 | [模式] 原始内容中的评测方式/标签 (如 0-shot, CoT, k=1, think-max)。用于记录最真实的评测环境标注。 |
category | String | 否 | 在某一具体评测下的细分分类 (如 MMLU 中的 STEM 等)。 |
benchmarkCode | String | 否 | 评测基准的标识 Code (辅助字段)。 |
:
826
,
"benchmarkId"
:
12
,
"modelMode"
:
"base"
}
]
}
thinkingModeKey | String | 关联的思考模式层级大类键值关联 (关联大类体系)。 |
toolUsage | String | 工具使用情况说明 (如:null, code_interpreter)。 |
internetUsage | Integer | 是否使用了网络检索。 |
parallelFlag | Integer | 评测时是否使用了并行/多线程测试等标记 flag。 |
reasoningBudgetType | String | 推理资源的预算类型机制描述 (如 token 或时间等算力预算)。 |
reasoningBudgetValue | Integer | 推理预算对应的具体估量值或强度配额。 |
vendorRawLabelPattern | String | 厂商原始的标记模式/正则表达式映射 (用于导入数据时的默认转换映射)。 |
active | Integer | 状态:1 代表启用,0 代表停用。 |
sortOrder | Integer | 排序权重,默认按此字段对输出的列表进行排序展现。 |
null
,
"vendorRawLabelPattern"
:
null
,
"active"
:
1
,
"sortOrder"
:
1
,
"createdAt"
:
"2026-03-09 10:00:00"
,
"updatedAt"
:
"2026-03-09 10:00:00"
}
,
{
"modeId"
:
5
,
"canonicalKey"
:
"xhigh"
,
"displayNameZh"
:
"超高强度思考"
,
"displayNameEn"
:
"Extremely High Thinking"
,
"thinkingModeKey"
:
"reasoning"
,
"toolUsage"
:
null
,
"internetUsage"
:
0
,
"parallelFlag"
:
0
,
"reasoningBudgetType"
:
"token"
,
"reasoningBudgetValue"
:
32000
,
"vendorRawLabelPattern"
:
"pass@1, high-thinking"
,
"active"
:
1
,
"sortOrder"
:
5
,
"createdAt"
:
"2026-03-09 10:00:00"
,
"updatedAt"
:
"2026-03-09 10:30:00"
}
]
}
}