🔬 科研随笔

学术记录 · 技术笔记 · 思考碎片

2026-04-15 论文 ⏱ 5 min

大语言模型在科学假设生成中的应用进展

从 AlphaFold 到 GPT-4,AI 正在重塑科学发现的范式。本文梳理了 2024-2026 年间 LLM 辅助科研的核心进展。

近年来,大语言模型(LLM)在科学研究中的作用从辅助工具逐步演进为"合作研究者"。2022 年 AlphaFold2 破解蛋白质折叠问题后,学界开始广泛关注 LLM 在假设生成(hypothesis generation)中的潜力。


主要进展:

BioGPT & ChemLLM:专门针对生物、化学领域微调的模型,在文献理解和分子设计中表现出色

FunSearch(Google DeepMind, 2024):结合 LLM 与演化算法,在组合优化和数学猜想上发现了新的可行解

LLM-driven Science(Stanford, 2025):综述指出当前 LLM 主要在"假设扩展"阶段有优势,而非原创假设提出


核心挑战:

幻觉问题、实验验证成本高、领域知识边界模糊仍是主要障碍。最佳实践是将 LLM 作为人类科学家的" brainstorming 伙伴",而非替代者。

2026-04-10 方法 ⏱ 8 min

如何有效阅读一篇机器学习论文

科研新人必读:从拿到一篇新论文到提炼核心贡献的完整工作流,包含主动阅读技巧和笔记模板。

第一步:动机(5分钟)

先读 Abstract 和 Introduction 的最后一段。问自己:作者想解决什么问题?为什么这个问题重要?现有方法哪里不够好?


第二步:贡献(5分钟)

找到 "We contribute" 或 "Our main contributions" 部分。顶级论文通常有 1-3 个核心贡献,用自己的话复述。


第三步:方法(20-30分钟)

带着问题读方法:作者的核心假设是什么?模型结构的关键设计是什么?推导过程有没有跳步?哪里读不懂标注出来。


第四步:实验(15分钟)

先看 main results 表,再看消融实验。问题:实验设置公平吗?baseline 够强吗?有没有 cherry-picking?


第五步:反思(10分钟)

最重要的步骤!关掉论文,想一想:如果是我,我会怎么解决这个问题?论文的不足在哪里?能否改进?

2026-04-05 随想 ⏱ 4 min

做科研的第一年教会我的五件事

回望第一年的 PhD 生活,有一些认知转变比任何论文发表都更珍贵。

1. 想法不值钱,验证才值钱

新想法在脑子里闪闪发光,写出来、做实验、发现 90% 是错的——这才是科研的真实面貌。


2. 读论文不是为了读完,是为了用

带着自己的问题去读,边读边想 "这个方法能不能用到我的问题"。读完能复现,比读十篇不动手强得多。


3. 和导师有效沟通比努力更重要

每周 meeting 前想清楚:我需要他/她做什么决定?提供什么信息?把问题具体化,减少来回次数。


4. 接受"不知道答案"是研究的常态

很多时间花在探索错误的路上。接受不确定性,把每个 dead end 当作排除了一条路径。


5. 健康比 deadline 重要

熬一周的夜可能产出两天的有效工作。规律作息、适度运动,才是可持续的科研节奏。

2026-03-28 方法 ⏱ 6 min

Prompt Engineering 在学术写作中的实用技巧

不是教你用 AI 写论文,而是用好 AI 辅助润色、逻辑梳理、文献综述的实操方法。

1. 润色(Polishing)

不要用"Please improve my writing",换成:"Please polish this paragraph for academic clarity. Keep the meaning exact, reduce redundancy, and ensure the logical flow is clear."


2. 文献综述辅助

让 AI 帮你建立论文关联图,而非替你写。Prompt:"Based on [Paper A] and [Paper B], what are their complementary aspects and conflicting claims?"


3. 逻辑检查

段落之间跳跃时,AI 可以帮助识别:"Please analyze the logical flow between these paragraphs and identify any gaps in reasoning."


4. 摘要生成

把全文粘贴进去,要求生成三种版本(1句/3句/完整),然后手动整合。比自己憋摘要高效很多。


核心原则:AI 是放大镜,不是替代品。你必须有足够的判断力才能用好它。

2026-03-20 论文 ⏱ 7 min

解读:Retrieval-Augmented Generation 最新进展

RAG 从简单的向量检索发展到多跳推理、混合检索、Self-RAG 路线图一文看懂。

RAG 的演进阶段:

Naive RAG(2023):retrieve top-k → concat → generate,简单但幻觉问题严重

Advanced RAG(2024):query 改写、混合检索(稀疏+稠密)、rerank 后处理

Modular RAG(2024-):模块化组合,CRAG、Self-RAG、HippoRAG 等新范式


Self-RAG(斯坦福, 2024)的核心思想:

让模型学会"自我反思"——生成过程中主动判断是否需要检索、检索结果是否相关、答案是否被检索结果支持。


未来方向:

GraphRAG(知识图谱增强)、Agentic RAG(多步自主推理)、持久记忆系统。RAG 已从"技术方案"演变为 LLM 应用的基础设施。