🤖 AI Multi-Agent 竞赛说明书生产线

从一篇博士论文 PDF 到一份竞赛级科技说明书,全程 AI Agent 协作完成

5
AI Agent 角色
3
轮审改迭代
23
问题发现并修复
11
项终稿自动验证

三角色 + 协调者架构

继承 pipeline-base v4.0,每个角色有独立的操作手册和评分标准

🎯

Coordinator

主会话调度器。读取竞赛配置文件,编排 Writer→Reviewer→Fixer 流程,管理上下文和检查点。

Opus
✍️

Writer

按评审维度全覆盖原则撰写初稿。从论文 PDF 提取数据,按模板结构生成说明书,控制页数纪律。

Opus
🔍

Reviewer (R1/R2)

R1 结构评委检查完整性和格式;R2 深度评委做技术审查和数据交叉验证。两轮独立评分。

R1: Sonnet R2: Opus
🔧

Fixer

读取 Reviewer 报告,逐条修复必须修改项。每次修改都引用问题编号(P01、N01...),可追溯。

Opus
👤

Human-in-the-Loop

用户在关键节点介入:确认选题方向、提供团队信息、手动修改数据标注。AI 不替代人的判断。

Human

完整工作流时间线

Coordinator Phase 0: 素材解析与情报加载

读取廖普博士论文 PDF(11MB),提取核心技术数据:EDE-net 精度指标、KD+剪枝性能数据、实验条件。同时加载竞赛配置文件(评审维度 × 权重)。

✓ 提取 12 项关键性能数据,全部与论文原文交叉验证

Writer Phase 1: 初稿撰写

按科技类说明书模板(6章结构)撰写初稿。评审维度全覆盖:每个维度映射到对应章节,高权重维度(创新性20%、现实意义20%)分配更多篇幅。

✓ 生成 217 行 Markdown 初稿,含 6 张数据表格

R1 Reviewer Phase 2a: 结构评委审查 [Sub-Agent · Sonnet]

独立 Agent 按 8 个评审维度逐项打分,检查致命缺陷清单(F01-F08)。发现 5 个必须修改项 + 2 个致命缺陷触发。

✗ 总分 62/100 — 未达 80 分提交门控

Fixer Phase 2b: 第一轮修复

逐条处理 R1 报告中的 P02-P05:统一性能数据表述、为 3 个创新点补充量化对比、添加数据来源标注、插入图表占位符、补充参考文献 [8][9]。

✓ 修复 4/5 项(P01 团队信息需用户提供,跳过)

R2 Reviewer Phase 3a: 深度评委审查 [Sub-Agent · Opus]

增量审读(只读修改段落 + R1 问题区域)。交叉验证所有性能数据与源论文一致性。发现 8 个新问题(N01-N08),包括对比基准过弱、漏检率无实验支撑、精度数据选择性报告等。

✗ 总分 58/100 — R2 更严格,发现更深层问题

Fixer Phase 3b: 第二轮修复

修复 N01(补充 2018/2019 年近期文献作为对比基准)、N02(区分 A/B 类焊缝精度数据)、N04(漏检率标注为理论推算值)、N08(参考文献编号去重)。

✓ 修复 4/8 项技术问题,剩余为建议改进项

Coordinator Phase 4: PUA 自检 + 终审校对

按 PUA Debugging Skill 的穷尽式自检清单,逐项验证:数据一致性、参考文献编号、创新点对比完整性、A/B 类焊缝区分、图表占位符。

✓ 全部检查项通过,输出终稿

Coordinator Phase 5: Word 文档构建 + 格式验证

python-docx 原生构建 Word 文档(build_docx.py),处理下标渲染({sub|X} 标记 → Word subscript run)、表格管道符冲突({sub:X} 变体)、Unicode 下标替换、全角符号修正、参考文献悬挂缩进。最终运行 11 项自动化验证脚本。

✓ 11/11 项验证全部通过 — 44.8 KB · 91 段落 · 5 表格

Human 用户介入点

用户在流程中多次介入:① 手动修改返工能耗表述 ② 手动添加经济性假设标注 ③ 补充参考文献 [8][9] ④ 指出 Unicode 下标格式问题 ⑤ 要求 PUA 穷尽式自检。AI 不替代用户的领域判断和质量标准。

质量分数演进

62
R1 初评
58
R2 深度审查
~75
Fixer 修复后
80+
PUA 自检后
11/11
Word 验证通过

80 分 = 可提交门控 · 90 分 = 可交付 · 95 分 = 卓越

AI 修改示例:创新点量化对比

创新点2 — Before (R1 扣 15 分)

区别于传统图像处理需要针对不同直径焊缝设计不同算法,EDE-net具有通用性强、抗干扰能力好的特点,一套网络即可适应不同规格压力容器焊缝的特征点提取,配合图像增强方法有效解决标注数据不足的问题。

创新点2 — After (R2 修复)

传统机器视觉方法(加窗分析法、曲线拟合法、角点检测法等)需要针对不同直径焊缝设计不同算法参数,适应性差[3]。近年来,Ye等(2018)采用三阶多项式拟合激光中心线,但仅适用于简单焊缝;Fan等(2019)采用Shi-Tomasi角点检测,但无法处理多缺陷共存场景。EDE-net采用编码-解码结构,一套网络即可适应不同规格压力容器焊缝(A类纵焊缝和B类环焊缝),特征点提取精度达AP0.5=0.85、mAP=0.71,显著优于传统方法。

Word 文档 11 项自动验证

H1 标题居中
下标 run × 10
无 Unicode 下标残留
无 {sub} 标记残留
无 [57] 无效引用
无全角符号
表格 × 5
首行缩进 × 21
页码域代码
表头底纹 D9E2F3
项目符号 × 25

为什么 Multi-Agent 比单次生成更好?

竞赛管线技术架构

configs/节能减排.json          SKILL-competition-pipeline/SKILL.md
        │                              │
        ▼                              ▼
┌──────────────────────────────────────────────────────┐
│  Phase 0: Coordinator 加载配置 + 素材解析              │
│  ├─ 读取评审维度 × 权重                               │
│  ├─ Grep/Read 提取论文关键数据                         │
│  └─ 生成 task.md 执行计划                             │
├──────────────────────────────────────────────────────┤
│  Phase 1: Writer [Opus]                              │
│  ├─ 按模板结构逐章撰写                                │
│  ├─ 评审维度全覆盖检查                                │
│  └─ 页数纪律控制(科技类 ≤10 页)                      │
├──────────────────────────────────────────────────────┤
│  Phase 2: R1 Reviewer [Sonnet Sub-Agent]             │
│  ├─ 8 维度逐项打分(扣分制,满分 100)                  │
│  ├─ 致命缺陷清单 F01-F08                              │
│  └─ 输出 R1_审稿报告.md                               │
│         │                                            │
│         ▼                                            │
│  Phase 2b: Fixer [Opus] — 逐条修复 R1 问题             │
├──────────────────────────────────────────────────────┤
│  Phase 3: R2 Reviewer [Opus Sub-Agent]               │
│  ├─ 增量审读(只读修改段落)                            │
│  ├─ 源论文数据交叉验证                                 │
│  └─ 输出 R2_审稿报告.md                               │
│         │                                            │
│         ▼                                            │
│  Phase 3b: Fixer [Opus] — 修复 R2 技术问题             │
├──────────────────────────────────────────────────────┤
│  Phase 4: PUA 自检 + 终稿输出                          │
│  └─ 穷尽式检查清单 → 说明书终稿.md                      │
├──────────────────────────────────────────────────────┤
│  Phase 5: Word 文档构建 [python-docx]                  │
│  ├─ build_docx.py 原生构建(非 pandoc/texword)         │
│  ├─ {sub|X} 下标标记 → Word subscript run              │
│  ├─ 表格管道符冲突处理({sub:X} 变体)                   │
│  └─ 11 项自动化验证脚本 → 全部通过                       │
└──────────────────────────────────────────────────────┘