概述
要将您的 Code Agent 评测结果提交到 LiveCVEBench 排行榜, 您需要向我们的 GitHub 仓库创建一个 Pull Request,提交您的结果文件。
提交格式
创建一个 JSON 文件,格式如下:
{
"model": "模型名称",
"agent": "Agent名称",
"modelType": "open", // 或 "closed"
"agentType": "open", // 或 "closed"
"instruction_type": "user_report", // 或 "cve_description"
"cve_results": {
"CVE-2025-0001": {
"success": true,
"turns": 3,
"tokens": 14500
},
"CVE-2025-0002": {
"success": false,
"turns": 8,
"tokens": 42000
}
// ... 更多 CVE 结果
}
}
字段说明
| 字段 | 类型 | 描述 |
|---|---|---|
model |
string | LLM 模型名称(如 "GPT-4o"、"Claude-3.5-Sonnet") |
agent |
string | Agent 框架名称(如 "OpenHands"、"Aider") |
modelType |
"open" | "closed" | 模型权重是否公开可用 |
agentType |
"open" | "closed" | Agent 源代码是否公开可用 |
instruction_type |
"user_report" | "cve_description" | 任务输入类型:user_report(推荐)或 cve_description |
success |
boolean | CVE 是否成功修复 |
turns |
number | 交互轮次数 |
tokens |
number | 消耗的总 token 数(输入 + 输出) |
提交步骤
- Fork livecvebench/submissions 仓库
- 创建您的结果文件,命名为
submissions/{Model}_{Agent}.json - 提交并推送您的更改
- 创建 Pull Request,包含:
- 模型/Agent 的简要描述
- 模型/Agent 仓库链接(如果开源)
- 相关配置详情
评测环境
LiveCVEBench 完全兼容 Terminal Bench 评测框架。您可以使用 Terminal Bench 在我们的 CVE 任务上运行您的 Agent 并生成结果文件。
有问题?
如果您对提交流程有任何疑问,请在我们的
GitHub 仓库 提交 Issue。