<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
    <channel>
      <title>ch blog</title>
      <link>https://chenghui03.github.io</link>
      <description>Last 10 notes on ch blog</description>
      <generator>Quartz -- quartz.jzhao.xyz</generator>
      <item>
    <title>QC report怎么读</title>
    <link>https://chenghui03.github.io/QC-report%E6%80%8E%E4%B9%88%E8%AF%BB</link>
    <guid>https://chenghui03.github.io/QC-report%E6%80%8E%E4%B9%88%E8%AF%BB</guid>
    <description><![CDATA[ 测序文件fastq大小 估计测序文件大小 测序文件大小 = 测序read数量 * read长度 * 单端双测序系数 * 系数(0.5 - 0.8) 这里的系数考虑到了 fastq需要同时存储碱基序列ATCG和相应质量，以及相应fastq头 常用算法压缩率 例如 3 * 10^8 的双端测序150bp 总碱基数量为90Gb，测序文件大小约为72GB 估计测序成本 测序文件大小 = 测序read数量 * read长度 * 单端双测序系数 * 系数(&lt; 10/GigaBase) NOTE mega giga tera 分别对应 million, billion, trillion 测序仪：Re... ]]></description>
    <pubDate>Thu, 05 Mar 2026 12:17:05 GMT</pubDate>
  </item><item>
    <title>effect size</title>
    <link>https://chenghui03.github.io/effect-size</link>
    <guid>https://chenghui03.github.io/effect-size</guid>
    <description><![CDATA[ 设想我们对比两种质谱预处理方法，目标是验证改进后的方法（Group 1）是否能比经典方法（Group 2）鉴定到更多的 Precursor。我们收集了如下实验数据： Group1 = [28136, 29054, 28910] Group2 = [13575, 16308, 16912] 仅从数值层面观察，Group 1 的最低值（28136）也远高于 Group 2 的最高值（16912），两组数据在数轴上完全分离。这种差异在生物学上通常被认为具有极强的效应。然而，当我们试图用统计学语言描述这一现象时，问题出现了。由于样本量极小且不确定总体分布，我们采用非参数检验 Mann-Whitney ... ]]></description>
    <pubDate>Fri, 30 Jan 2026 06:14:00 GMT</pubDate>
  </item><item>
    <title>蛋白结构预测</title>
    <link>https://chenghui03.github.io/%E8%9B%8B%E7%99%BD%E7%BB%93%E6%9E%84%E9%A2%84%E6%B5%8B</link>
    <guid>https://chenghui03.github.io/%E8%9B%8B%E7%99%BD%E7%BB%93%E6%9E%84%E9%A2%84%E6%B5%8B</guid>
    <description><![CDATA[ fold.it ：如何把进化信息变成几何结构？ 在若干年前，研究人员曾尝试把蛋白质折叠变成一个游戏 —— Foldit。 玩家并不需要掌握量子化学，只需要拖拽、旋转、拉近、推开，就能让屏幕上蛋白结构的能量读数下降。令人惊讶的是，人类玩家常常能凭直觉找到比当时自动化算法更合理的构象。 这一点揭示了： 蛋白结构蕴含着高度直观的几何逻辑，而构象的“合理性”往往是可以被视觉捕捉的拓扑特征。 这也是蛋白质结构预测长期被称为计算生物学“圣杯问题”的原因：目标明确、物理法则已知，但计算复杂度却令人望而却步。 早期尝试：能量最小化和contact map 结构预测最初的愿望非常符合物理直觉：寻找自由能最低的构... ]]></description>
    <pubDate>Thu, 29 Jan 2026 07:59:14 GMT</pubDate>
  </item><item>
    <title>富集分析</title>
    <link>https://chenghui03.github.io/%E5%AF%8C%E9%9B%86%E5%88%86%E6%9E%90</link>
    <guid>https://chenghui03.github.io/%E5%AF%8C%E9%9B%86%E5%88%86%E6%9E%90</guid>
    <description><![CDATA[ 在处理高通量组学数据（如转录组）时，我们往往会得到成百上千个“差异基因”。面对这份冗长的清单，仅关注单个基因很难把握生物学的全貌。富集分析（Enrichment Analysis）旨在将基因按照既定的生物学功能或通路（如 KEGG, GO）进行降维，帮助我们回答一个核心问题：这些发生变化的基因，作为一个整体，暗示了什么生物学过程的改变？ 本文将梳理几种主流富集分析方法的演进逻辑。特别是各种方法在统计假设上的局限,以及其他方法是如何进一步做的,他们的使用场景等。 基本概念 前景基因 (Foreground)：感兴趣的基因列表，例如实验组对比对照组筛选出的差异表达基因。 背景基因 (Backgro... ]]></description>
    <pubDate>Tue, 27 Jan 2026 05:47:28 GMT</pubDate>
  </item><item>
    <title>peto paradox</title>
    <link>https://chenghui03.github.io/publons/peto-paradox</link>
    <guid>https://chenghui03.github.io/publons/peto-paradox</guid>
    <description><![CDATA[ Theoretical Baseline: The stochastic risk of oncogenesis should scale with an organism’s cell count and lifespan (n×Life). ]]></description>
    <pubDate>Thu, 15 Jan 2026 13:22:40 GMT</pubDate>
  </item><item>
    <title>R-统计建模</title>
    <link>https://chenghui03.github.io/R-%E7%BB%9F%E8%AE%A1%E5%BB%BA%E6%A8%A1</link>
    <guid>https://chenghui03.github.io/R-%E7%BB%9F%E8%AE%A1%E5%BB%BA%E6%A8%A1</guid>
    <description><![CDATA[ 统计建模是什么? 在生物信息学中，我们面对的是一个高维的观测空间。假设你测量了某个基因在不同样本中的表达量，这构成了一个观测向量 Y。统计建模，并不是寻找一个完美的等式，而是寻找一种解释。 为什么需要建模 生物实验中的观测值永远包含两部分：信号与噪声。信号是我们感兴趣的生物学因素（如药物处理、基因敲除），而噪声则是随机波动或技术偏差。建模的过程，就是尝试用一组已知的解释变量（Explanatory Variables）去构建一个线性子空间，并将观测向量 Y 投影到这个子空间中。 变量的解构 变量可以分为： 响应变量（Response Variable）：即我们观测到的基因表达数据。 解释变量（... ]]></description>
    <pubDate>Sun, 11 Jan 2026 07:21:48 GMT</pubDate>
  </item><item>
    <title>序列比对</title>
    <link>https://chenghui03.github.io/%E5%BA%8F%E5%88%97%E6%AF%94%E5%AF%B9</link>
    <guid>https://chenghui03.github.io/%E5%BA%8F%E5%88%97%E6%AF%94%E5%AF%B9</guid>
    <description><![CDATA[ Pattern Matching 与 Sequence Alignment Pattern Matching（模式匹配）与 Sequence Alignment（序列比对）前者关注“存在性与定位”，后者关注“演化距离”。 核心差异 Pattern Matching: 定义：在一个长文本（Text）中查找一个较短模式（Pattern）的精确或近似出现位置。 底层逻辑：字符串搜索（String Searching）。它是刚性的，通常不预设生物学模型，只关注字符的匹配状态。 典型算法：KMP, Boyer-Moore algoritm, Aho-Corasick, Suffix Tree。 例子：在... ]]></description>
    <pubDate>Mon, 05 Jan 2026 13:45:23 GMT</pubDate>
  </item><item>
    <title>基因组装配</title>
    <link>https://chenghui03.github.io/%E5%9F%BA%E5%9B%A0%E7%BB%84%E8%A3%85%E9%85%8D</link>
    <guid>https://chenghui03.github.io/%E5%9F%BA%E5%9B%A0%E7%BB%84%E8%A3%85%E9%85%8D</guid>
    <description><![CDATA[  基因组组装（Genome Assembly）在本质上是一个逆问题：我们试图从海量有噪声的观测数据（Reads）中，还原出唯一的、连续的原始信号（Genome）。 问题定义 我们首先需要定义问题。假设存在一个未知的原始基因组序列 G，其长度为 L。测序过程可以被视为一个随机采样函数，它从 G 中生成了 N 个子串（Reads），每个 Reads 的长度为 l，且 l \ll L。理想状态下，这些 Reads 覆盖了基因组的每一个碱基，且拥有足够的冗余度（Coverage）。我们的任务是寻找一个函数 A，使得 A(\{Reads\}) \approx G。 这里的核心矛盾在于“重复”。如果基因组... ]]></description>
    <pubDate>Mon, 05 Jan 2026 13:45:06 GMT</pubDate>
  </item><item>
    <title>从距离表构建树</title>
    <link>https://chenghui03.github.io/%E4%BB%8E%E8%B7%9D%E7%A6%BB%E8%A1%A8%E6%9E%84%E5%BB%BA%E6%A0%91</link>
    <guid>https://chenghui03.github.io/%E4%BB%8E%E8%B7%9D%E7%A6%BB%E8%A1%A8%E6%9E%84%E5%BB%BA%E6%A0%91</guid>
    <description><![CDATA[ motivation：距离矩阵背后的几何 在生物信息学或网络拓扑推断中，我们经常面对一个基础问题：给定 N 个对象的两两距离矩阵 D = (d_{ij})，我们能否重构出一棵树，使得树上两点间的路径长度恰好等于观察到的距离？ 这是一个反直觉的问题。通常我们认为“树”是一个组合结构（拓扑），而“距离”是一个线性代数对象（数值）。但在所有距离还原问题中，“树结构”表现出一种特殊的几何刚性。 并非所有的距离矩阵都能还原为树。能还原的矩阵，我们称之为加性矩阵 (Additive Matrix) 或树度量 (Tree Metric)。 最小例子：为什么是 4 个点？ 为了判断一个矩阵是否“合法”，并从中... ]]></description>
    <pubDate>Mon, 05 Jan 2026 13:01:14 GMT</pubDate>
  </item><item>
    <title>reads mapping</title>
    <link>https://chenghui03.github.io/reads-mapping</link>
    <guid>https://chenghui03.github.io/reads-mapping</guid>
    <description><![CDATA[ Read Mapping challenge 在生物信息学中，Read mapping（序列比对）是将测序仪产生的原始reads向基因组比对, 这是解释转录read的前提。 在mapping过程中： 输入 (Reads)：数百万甚至数十亿条短序列，每条长度通常在 100-300 bp 之间。 参考 (Reference)：如人类基因组，长度约为 30 亿 (3 \times 10^9) 个碱基。 如果采用传统的动态规划（如 Smith-Waterman 算法），将每一条 Read 与基因组进行全长比对，其时间复杂度为 O(nm)。在如此巨大的数据规模下，这种计算量是完全不可接受的。 Read ... ]]></description>
    <pubDate>Mon, 05 Jan 2026 11:08:54 GMT</pubDate>
  </item>
    </channel>
  </rss>