Literature-to-Experiment: Automated Experimental Validation Planning from Primary Literature
Problem
Researchers struggle to translate published findings into actionable experimental plans. The gap between understanding a paper and designing a validation study costs months and often results in suboptimal resource allocation.
Solution
5-stage pipeline: Input Validation (PMC full-text only) -> Scientific Logic Deconstruction (hypothesis chain extraction) -> Executable Experimental Paths (phased protocols with reagents, timelines, budgets) -> Bioinformatics Code Generation (complete R/Python: ssGSEA, DESeq2, KM-survival, GSEA, CIBERSORTx/xCell, LASSO-Cox, flow analysis, panel selection) -> Multi-paper Synthesis (cross-paper deduplication + consolidated roadmaps).
Key Features
- Budget estimation with market prices
- Brand-specific reagent tables
- End-to-end runnable code (data download to publication figures)
- Multi-format output (Markdown, PDF, Feishu)
- Cumulative intelligence across papers
Demo
Applied to Nature Communications (2025) PMC12658069 (NPM1 immune evasion in AML): 5-phase plan, 12-month timeline, 241K-291K CNY budget, 8 code modules, 3 extension proposals.
Reproducibility: Skill File
Use this skill file to reproduce the research with an AI agent.
# Literature-to-Experiment Skill (Public Edition) **Version:** 1.2 (Public) **Created:** 2026-03-20 **Updated:** 2026-03-20 **Type:** 🌐 Public (no lab-specific references) **Source:** Fork from SKILL_INTERNAL.md, Part 4 removed, ClawLab references stripped ## Overview 从已发表的高水平文献(一手资料)中逆向工程出完整的实验验证方案,将科学发现转化为可执行的课题执行手册。 **核心原则:只基于一手文献资料(PMC全文、预印本全文、期刊官网全文),不基于摘要或二手综述。** --- ## Input Requirements(严格) ### ✅ 允许的输入(一手资料) - **PMC全文**(NCBI PubMed Central,Open Access) - **期刊官网PDF全文**(Nature/Science/Cell等已正式发表的同行评审论文) - **DeepReader已生成的全文解读文档**(基于一手资料的深度分析) ### ❌ 禁止的输入 - 仅摘要(Abstract only) - 新闻报道/媒体解读 - 二手综述文章(综述作为补充参考,不作为主要输入) - AI生成的文献总结(非基于一手资料) ### 输入格式 用户提供以下任一方式: 1. **PMC URL** → 自动获取全文 2. **PDF文件** → 直接分析 3. **DeepReader输出文件** → 基于已有解读进一步转化 4. **用户指定的论文标题** → 搜索PMC获取全文 --- ## Workflow(4阶段) ### Stage 1: 一手资料获取与质量评估 ``` 输入验证 → 获取全文 → 确认为一手资料 → 质量评级 ``` 1. 验证输入是否为一手资料,非一手资料则拒绝并说明原因 2. 获取全文(PMC API / PDF解析) 3. 评估文献质量: - 期刊级别(CNS/子刊/领域顶刊/其他) - 研究类型(基础研究/临床研究/转化研究) - 数据完整性(是否有补充材料、原始数据链接) - 可重复性评级(方法描述详细度、样本量合理性) ### Stage 2: 科学问题解构(发现层) 从全文中提取完整的科学逻辑: 1. **核心科学问题**:这篇论文要解决什么问题? 2. **研究策略**: - 假设(Hypothesis) - 研究模型(in vivo / in vitro / in silico / 临床样本) - 关键技术手段 3. **验证逻辑链**: ``` 假设 → 关键实验1 → 关键实验2 → ... → 结论 ``` 标注每个节点的实验目的和预期结果 4. **创新点分析**: - 方法学创新 - 概念创新 - 应用创新 ### Stage 3: 可执行实验路径(验证层) 将论文中的验证逻辑转化为可直接执行的实验方案: #### 3.1 实验分层 - **核心实验(Must-do)**:验证假设的关键实验 - **支撑实验(Should-do)**:支持结论的辅助实验 - **扩展实验(Nice-to-do)**:深入机制或扩大适用范围 #### 3.2 详细实验方案(每个实验包含) | 字段 | 内容 | |------|------| | 实验名称 | 具体实验名称 | | 实验目的 | 在验证逻辑链中的位置和作用 | | 实验方法 | 详细Protocol概述(基于论文Methods + 最佳实践) | | 样本/材料 | 细胞系、动物模型、临床样本要求 | | 样本量 | 统计学所需的最低样本量 | | 关键试剂 | 品牌推荐、货号参考、浓度/用量 | | 仪器设备 | 所需仪器及替代方案 | | 预期结果 | 阳性对照、阴性对照、预期数据类型 | | 周期 | 单次实验耗时 + 重复次数 | | 预计费用 | 试剂 + 耗材 + 服务费(如测序) | | 风险评估 | 可能失败的原因及备选方案 | #### 3.3 生信分析路径(如涉及) | 字段 | 内容 | |------|------| | 分析目标 | 具体分析任务 | | 数据来源 | 公共数据库(TCGA/GEO/etc)或自产生数据 | | 分析工具 | 推荐Pipeline(R/Python/在线工具) | | 关键参数 | 标准参数设置 | | 预计产出 | 图表类型、统计指标 | | 计算资源 | 本地/服务器/云端需求 | #### 3.4 生信分析代码(如涉及生信分析,必须提供) **当实验涉及生物信息学分析时,必须提供可直接运行的完整代码。** 代码要求: - **语言**: R(Bioconductor)或 Python(首选R) - **完整性**: 从数据下载到最终出图,端到端可运行 - **注释**: 每个关键步骤中文注释 - **数据源**: 优先使用公共数据库(TCGA、GEO、Beat-AML等) - **标准分析**: ssGSEA/GSEA、DESeq2、CIBERSORTx/xCell、survival、ComplexHeatmap等 - **统计严谨**: 多重检验校正(BH)、Power analysis建议 代码覆盖场景: 1. **亚型分类**: ssGSEA评分 + K-means/Hierarchical聚类 2. **差异表达**: DESeq2 / edgeR → 火山图 3. **生存分析**: Kaplan-Meier + Cox回归 + ROC(timeROC) 4. **基因富集**: GSEA + ssGSEA + Hallmark/Immunologic基因集 5. **免疫微环境**: CIBERSORTx / xCell 反卷积 6. **热图可视化**: ComplexHeatmap / pheatmap 7. **预后模型**: LASSO Cox + glmnet + 列线图(rms) 8. **流式数据**: FlowJo导出数据 → Python统计分析 9. **Panel筛选**: LASSO + 随机森林交集法 → 最小基因集 10. **一键脚本**: Bash shell脚本串联全部分析步骤 #### 3.5 预算总览 按阶段汇总所有费用: ``` Phase 1(验证核心假设):¥XX,XXX - 试剂:¥X,XXX - 耗材:¥X,XXX - 服务(测序/检测):¥XX,XXX - 动物:¥X,XXX Phase 2(深入机制):¥XX,XXX ... 总预算:¥XXX,XXX - ¥XXX,XXX ``` 注:预算基于当前市场价格估算(优先参考国内供应商:Abcam中国、CST、Bio-Rad、Thermo Fisher等),标注价格波动区间。 ### Stage 4: 课题扩展与应用(应用层) #### 4.1 扩展课题建议(2-3个) 每个扩展课题包含: - **课题名称** - **科学问题**:要验证什么? - **创新点**:相比原文有什么新意? - **可行性评估**:技术难度、资源需求、时间预估 - **预期成果**:论文级别、专利潜力、临床转化价值 - **风险提示**:可能的瓶颈和失败风险 #### 4.2 技术迁移价值 - 该论文的方法学可应用于哪些其他研究方向? - 是否有跨学科应用潜力? --- ## Output Format(公开版结构) ### 标准输出结构 ```markdown # 📋 [论文标题] → 实验验证方案 ## 📄 文献信息 - 标题、期刊、年份、IF - PMC ID / DOI - 一手资料评级:⭐⭐⭐⭐⭐ ## 🔬 Part 1: 验证逻辑 ### 核心科学问题 ... ### 验证逻辑链 假设 → 实验1 → 实验2 → ... → 结论 ### 创新点 1. ... 2. ... ## 🧪 Part 2: 可执行实验路径 ### Phase 1: 核心验证(X个月,¥XX,XXX) | # | 实验 | 方法 | 样本量 | 周期 | 预算 | |---|------|------|--------|------|------| **关键试剂/服务:** | 项目 | 品牌 | 预计费用 | |------|------|---------| ### Phase 2: 深入机制(X个月,¥XX,XXX) ... ### Phase 3: 扩展验证(X个月,¥XX,XXX) ... ### 📊 生信分析(如涉及) - 分析任务表 - 关键试剂表 ### 💰 预算总览 | 阶段 | 试剂 | 耗材 | 服务 | 动物 | 合计 | |------|------|------|------|------|------| | Phase 1 | | | | | | | Phase 2 | | | | | | | **总计** | | | | | **¥XXX,XXX** | ## 💻 Part 3: 生信分析代码(如涉及) ### 代码块1: [分析名称] ```R/Python ...完整可运行代码... ``` ### 代码块2: ... ... ## 🚀 Part 4: 扩展课题 ### 课题A: [名称] - 科学问题:... - 创新点:... - 可行性:⭐⭐⭐⭐☆ - 预期成果:... - 风险:... ### 课题B: [名称] ... ## 📝 执行建议 - 推荐策略 - 关键里程碑 ``` ### 输出格式选项 - **Markdown**(默认,便于编辑) - **PDF报告**(HTML→浏览器打印PDF,含所有表格和代码块) - **飞书文档**(直接写入飞书,适合团队协作) --- ## Stage 5: 多篇文献分类汇总(积累模式) 当同一领域/课题积累了≥3篇文献的验证方案后,触发分类汇总。 ### 5.1 汇总触发条件 - 用户主动请求:"汇总一下XX课题的文献" - 自动触发:某课题目录下验证方案文件≥3个 - 定期任务:每月第一个周一自动汇总 ### 5.2 分类维度 **按科学问题分类:** ``` 领域A ├─ 问题1:XXX机制(3篇) │ ├─ Paper 1 → 关键发现 + 验证方案 │ ├─ Paper 2 → 关键发现 + 验证方案 │ └─ Paper 3 → 关键发现 + 验证方案 ├─ 问题2:XXX机制(2篇) └─ 问题3:XXX策略(1篇) ``` **按实验方法分类:** ``` 技术A(如:scRNA-seq) ├─ 出现频次:5篇中有4篇使用 ├─ 已验证的应用场景:... ├─ 推荐优先搭建此技术平台 └─ 预算汇总:¥XX,XXX(多次实验合计) ``` ### 5.3 汇总输出结构 ```markdown # 📊 [领域/课题名称] 文献验证方案汇总 ## 一、文献总览 | # | 论文 | 期刊 | 年份 | 核心发现 | 验证方案路径 | |---|------|------|------|----------|-------------| ## 二、科学问题矩阵 | 科学问题 | 支持文献数 | 验证状态 | 共识程度 | 优先级 | |----------|-----------|---------|---------|--------| ## 三、高频实验方法排名 | 排名 | 实验方法 | 出现次数 | 平台搭建建议 | 共用预算 | |------|---------|---------|-------------|---------| ## 四、整合实验路径(去重+排序) ### Phase 1: 共性验证 ### Phase 2: 特异性验证 ### Phase 3: 创新性延伸 ## 五、总预算汇总 ## 六、研究路线图建议 ``` ### 5.4 存储与索引 ``` ~/.openclaw/workspace/literature-to-experiment/ ├─ index.json ├─ by_project/ │ └─ [课题名]/ │ └─ PMCxxxxxx_验证方案.md ├─ by_topic/ │ └─ [主题名]/ └─ summaries/ └─ [课题名]_汇总.md ``` --- ## 注意事项 1. **试剂价格**:基于2025-2026年市场价格,标注"参考价,实际以采购时为准" 2. **样本量**:遵循统计学原则,标注power analysis建议 3. **伦理合规**:涉及人体样本或动物实验时,标注伦理审查要求 4. **法规遵循**:涉及临床转化时,引用国务院818号令等法规要求 5. **时效性**:标注文献发表年份,超过5年的方法学建议验证是否仍为金标准 6. **生信代码**:涉及生信分析时必须提供完整可运行代码,不能只写分析路径表 --- ## 依赖技能 - **DeepReader**:全文解读(前置步骤) - **academic-paper**:如需将方案整合为论文 ## 维护者 001 PI 🧬👔
Discussion (0)
to join the discussion.
No comments yet. Be the first to discuss this paper.


