ch blog

QC report怎么读

Thu, 05 Mar 2026 12:17:05 GMT

测序文件fastq大小估计测序文件大小测序文件大小 = 测序read数量 * read长度 * 单端双测序系数 * 系数(0.5 - 0.8) 这里的系数考虑到了 fastq需要同时存储碱基序列ATCG和相应质量，以及相应fastq头常用算法压缩率例如 3 * 10^8 的双端测序150bp 总碱基数量为90Gb，测序文件大小约为72GB 估计测序成本测序文件大小 = 测序read数量 * read长度 * 单端双测序系数 * 系数(< 10/GigaBase) NOTE mega giga tera 分别对应 million, billion, trillion 测序仪：Re...

effect size

Fri, 30 Jan 2026 06:14:00 GMT

设想我们对比两种质谱预处理方法，目标是验证改进后的方法（Group 1）是否能比经典方法（Group 2）鉴定到更多的 Precursor。我们收集了如下实验数据： Group1 = [28136, 29054, 28910] Group2 = [13575, 16308, 16912] 仅从数值层面观察，Group 1 的最低值（28136）也远高于 Group 2 的最高值（16912），两组数据在数轴上完全分离。这种差异在生物学上通常被认为具有极强的效应。然而，当我们试图用统计学语言描述这一现象时，问题出现了。由于样本量极小且不确定总体分布，我们采用非参数检验 Mann-Whitney ...

蛋白结构预测

Thu, 29 Jan 2026 07:59:14 GMT

fold.it ：如何把进化信息变成几何结构？在若干年前，研究人员曾尝试把蛋白质折叠变成一个游戏 —— Foldit。玩家并不需要掌握量子化学，只需要拖拽、旋转、拉近、推开，就能让屏幕上蛋白结构的能量读数下降。令人惊讶的是，人类玩家常常能凭直觉找到比当时自动化算法更合理的构象。这一点揭示了：蛋白结构蕴含着高度直观的几何逻辑，而构象的“合理性”往往是可以被视觉捕捉的拓扑特征。这也是蛋白质结构预测长期被称为计算生物学“圣杯问题”的原因：目标明确、物理法则已知，但计算复杂度却令人望而却步。早期尝试：能量最小化和contact map 结构预测最初的愿望非常符合物理直觉：寻找自由能最低的构...

富集分析

Tue, 27 Jan 2026 05:47:28 GMT

在处理高通量组学数据（如转录组）时，我们往往会得到成百上千个“差异基因”。面对这份冗长的清单，仅关注单个基因很难把握生物学的全貌。富集分析（Enrichment Analysis）旨在将基因按照既定的生物学功能或通路（如 KEGG, GO）进行降维，帮助我们回答一个核心问题：这些发生变化的基因，作为一个整体，暗示了什么生物学过程的改变？本文将梳理几种主流富集分析方法的演进逻辑。特别是各种方法在统计假设上的局限,以及其他方法是如何进一步做的,他们的使用场景等。基本概念前景基因 (Foreground)：感兴趣的基因列表，例如实验组对比对照组筛选出的差异表达基因。背景基因 (Backgro...

peto paradox

Thu, 15 Jan 2026 13:22:40 GMT

Theoretical Baseline: The stochastic risk of oncogenesis should scale with an organism’s cell count and lifespan (n×Life).

R-统计建模

Sun, 11 Jan 2026 07:21:48 GMT

统计建模是什么? 在生物信息学中，我们面对的是一个高维的观测空间。假设你测量了某个基因在不同样本中的表达量，这构成了一个观测向量 Y。统计建模，并不是寻找一个完美的等式，而是寻找一种解释。为什么需要建模生物实验中的观测值永远包含两部分：信号与噪声。信号是我们感兴趣的生物学因素（如药物处理、基因敲除），而噪声则是随机波动或技术偏差。建模的过程，就是尝试用一组已知的解释变量（Explanatory Variables）去构建一个线性子空间，并将观测向量 Y 投影到这个子空间中。变量的解构变量可以分为：响应变量（Response Variable）：即我们观测到的基因表达数据。解释变量（...

序列比对

Mon, 05 Jan 2026 13:45:23 GMT

Pattern Matching 与 Sequence Alignment Pattern Matching（模式匹配）与 Sequence Alignment（序列比对）前者关注“存在性与定位”，后者关注“演化距离”。核心差异 Pattern Matching: 定义：在一个长文本（Text）中查找一个较短模式（Pattern）的精确或近似出现位置。底层逻辑：字符串搜索（String Searching）。它是刚性的，通常不预设生物学模型，只关注字符的匹配状态。典型算法：KMP, Boyer-Moore algoritm, Aho-Corasick, Suffix Tree。例子：在...

基因组装配

Mon, 05 Jan 2026 13:45:06 GMT

基因组组装（Genome Assembly）在本质上是一个逆问题：我们试图从海量有噪声的观测数据（Reads）中，还原出唯一的、连续的原始信号（Genome）。问题定义我们首先需要定义问题。假设存在一个未知的原始基因组序列 G，其长度为 L。测序过程可以被视为一个随机采样函数，它从 G 中生成了 N 个子串（Reads），每个 Reads 的长度为 l，且 l \ll L。理想状态下，这些 Reads 覆盖了基因组的每一个碱基，且拥有足够的冗余度（Coverage）。我们的任务是寻找一个函数 A，使得 A(\{Reads\}) \approx G。这里的核心矛盾在于“重复”。如果基因组...

从距离表构建树

Mon, 05 Jan 2026 13:01:14 GMT

motivation：距离矩阵背后的几何在生物信息学或网络拓扑推断中，我们经常面对一个基础问题：给定 N 个对象的两两距离矩阵 D = (d_{ij})，我们能否重构出一棵树，使得树上两点间的路径长度恰好等于观察到的距离？这是一个反直觉的问题。通常我们认为“树”是一个组合结构（拓扑），而“距离”是一个线性代数对象（数值）。但在所有距离还原问题中，“树结构”表现出一种特殊的几何刚性。并非所有的距离矩阵都能还原为树。能还原的矩阵，我们称之为加性矩阵 (Additive Matrix) 或树度量 (Tree Metric)。最小例子：为什么是 4 个点？为了判断一个矩阵是否“合法”，并从中...

reads mapping

Mon, 05 Jan 2026 11:08:54 GMT

Read Mapping challenge 在生物信息学中，Read mapping（序列比对）是将测序仪产生的原始reads向基因组比对, 这是解释转录read的前提。在mapping过程中：输入 (Reads)：数百万甚至数十亿条短序列，每条长度通常在 100-300 bp 之间。参考 (Reference)：如人类基因组，长度约为 30 亿 (3 \times 10^9) 个碱基。如果采用传统的动态规划（如 Smith-Waterman 算法），将每一条 Read 与基因组进行全长比对，其时间复杂度为 O(nm)。在如此巨大的数据规模下，这种计算量是完全不可接受的。 Read ...