12-bit 3-GS/s Pipelined ADC 数字后台校准行为级仿真

复现论文：M. Gu et al., “A 12b 3GS/s Pipelined ADC with Gated-LMS-Based Piecewise-Linear Nonlinearity Calibration,” ISSCC 2025, #24.1

研究概述

本工作历时约两周（4月27日—5月5日），在MATLAB中搭建了完整的12-bit 3-GS/s Pipelined ADC行为级模型，并复现了论文中的Gated-LMS PWL（分段线性）后台数字校准算法。按四个阶段逐步推进，从论文研读到最终参数优化。

系统架构

Stage 1                  Stage 2                  Stage 3 (Backend)
3b Flash + 8-level CDAC  3b Flash + 8-level CDAC  8b TI-SAR (4通道时分交织)
   ↓ G=4 open-loop RA        ↓ G=4 open-loop RA
   ↓ 1b redundancy           ↓ 1b redundancy

分辨力：12 bit（2+2+8）
采样率：3 GS/s
残量放大器：open-loop gm-R（模型中用tanh软饱和描述）
校准方式：1-bit伪随机dither注入 + Gated-LMS PWL后台校准

Pipelined ADC 基本原理

为什么需要流水线架构

高速高精度ADC面临速度与精度的根本矛盾。Flash ADC可在单周期完成转换但每增加1bit分辨力比较器翻倍；SAR ADC硬件极简但串行比较速度受限。

流水线方案：将N-bit转换任务拆成多级，每级做M-bit粗量化后把”量化残差”放大交给下级。各级间用采样保持隔开，让各级同时处理不同采样点——就像工厂流水线。

1-bit冗余的巧妙设计

Stage 1使用3-bit Flash但名义上只贡献2 bit。额外1 bit是冗余——当比较器因失调或噪声做出错误决策时，只要残差仍落在冗余区域内，下级即可纠正。这正是数字校正技术的精髓：用数字域的余量放松模拟电路的设计要求。

非理想因素建模

残量放大器非线性压缩

Open-loop gm-R放大器没有负反馈来线性化传输特性。当输入信号偏离零点时，跨导gm下降，呈现”软饱和”。使用tanh模型描述：

$$V_{out} = A \cdot G \cdot V_0 \cdot \tanh(V_{res}/V_0)$$

tanh的Taylor展开三次项天然为负（压缩），且在大信号下有物理自然的饱和上限，不会像多项式在信号稍大时发散。当α₃ = −0.10时，残差边界处的局部增益仅压缩约5%，对应pre-cal THD ≈ −63 dB。

级间增益误差（Aerr）

放大器实际增益偏离名义值4——仅0.2%的偏差。这看似不起眼，却是隐藏的最大单一限制项。原因是级间增益误差在两级流水线中通过重建系数128放大——Stage 1的一个LSB对应Stage 2 backend的128个code，0.2%的增益误差经此放大后产生不可忽略的非线性。实验证实：仅这一项就把SFDR从98 dB砸到80 dB。

比较器失调与噪声

晶体管随机掺杂波动导致每对差分对阈值偏离设计值。5 mV标准差（28nm CMOS典型值）的独立失调分配在7个比较器上。比较器失调的作用不是纯粹加噪声——它让某些样本”误入”相邻比较器的阈值区间，把残差推到冗余区域，这也为PWL外侧slice提供LMS训练样本。

Timing Skew

在3 GS/s采样率下时钟周期仅333 ps。Flash比较器锁存Vin的时刻与CDAC开关电容实际采样的时刻之间存在5–10 ps的skew。时序失配在残差上叠加与输入信号导数成正比的扰动，输入频率越高影响越大。

Gated-LMS PWL 后台校准

PWL分段思想

将backend观察量按绝对值划分为4段，每段配独立斜率系数ki：

Slice 1：0 ≤ |Dbe| < b₀ — 中心区域，跟踪整体增益
Slice 2：b₀ ≤ |Dbe| < b₀+b₁ — 过渡区
Slice 3：b₁ ≤ |Dbe| < b₁+b₂ — 非线性补偿
Slice 4：|Dbe| ≥ b₁+b₂ — 大信号饱和修正

其中b₀ = 128 codes（用backend幅度码的2-MSB硬件分片）。

LMS更新机制

核心公式：kᵢ ← kᵢ − μ · e · sign(Dd)

dither注入在残差节点，在数字域映射为±128 codes（Stage 1）和±32 codes（Stage 2）。误差信号e定义为PWL校正后的backend码值与已知dither分量理论预期值的差。

门控机制（Gated-LMS）

LMS的更新不是对所有样本无差别进行。对slice i，只有当|e| > b_{i-1}时才更新kᵢ——让slice 1的样本去更新k₃只会注入噪声。门控用|e|而非|Dbe|是自洽选择：|e|同时编码信号幅度和当前PWL离正确解的距离，在LMS不动点附近自然沿bi分层。

阈值bi随k收敛自适应调整：bᵢ = b₀ · Σkⱼ。假设k₁=1.003、k₂=1.010、k₃=1.028、b₀=128，则b₁=128.4、b₂=257.7、b₃=389.2。

级联校准

Stage 1的LMS观察器不使用原始backend输出，而是使用已经过Stage 2 PWL校正并去除dither后的净信号。这消除了跨级耦合——Stage 2的残余非线性不会污染Stage 1的LMS梯度。

μ衰减策略

前50%训练样本用大步长（μ=1×10⁻⁷）快速收敛，后50%用衰减步长（μ=1×10⁻⁸）锁定稳态精度。

校准效果

v6冠军版（α₃=−0.10, dither=1/8, 5M训练样本，120 MHz近DC输入）：

指标	Pre-cal	Post-cal	提升
SNDR	56.05 dB	71.36 dB	+15.31 dB
SFDR	68.63 dB	95.81 dB	+27.19 dB
SNR	57.06 dB	71.70 dB	+14.64 dB
THD	−62.88 dB	−82.66 dB	−19.77 dB
ENOB	9.02 bit	11.56 bit	+2.54 bit

SFDR离12-bit理想极限98 dB仅2.2 dB，ENOB达11.56 bit——接近分辨力上限。

核心发现

将dither幅度从Vfs/(G·16)加大到Vfs/(G·8)是决定性优化。dither不是简单的加性噪声——它是LMS的”参考信号”。增大dither虽让pre-cal SNDR恶化，但LMS的相关SNR翻倍后k系数更准，post-cal SFDR飙升至95.81 dB。

Timing Skew 与 PWL Slice 4 训练

论文§II.C指出”考虑到timing skew等非理想，残差电压摆幅增加到±100 mV”。我们构造了显式timing-skew模型：Vres ≈ ideal_Vres + Δt · dVin/dt（一阶线性化）。

Skew扫描结果（b₀=128，论文值）

| T_skew (ps) | |e₁|_max (codes) | hits_s1_4 | SNDR_post (dB) | |-------------|----------------|------------|----------------| | 0 | 281 | 0 | 68.53 | | 8 | 391 | 43 | 67.80 | | 12 | 448 | 4,200 | 67.04 | | 20 | 551 | 63,000 | 57.15 ❌ |

保持论文b₀=128，T_skew需≥12 ps才能让slice 4有显著训练，但此时SNDR已跌至67 dB以下。

最终折中方案（T_skew=5 ps + B0_SCALE=0.7）

在5 ps现实工艺skew + 小幅b₀调整（90 codes）下，4个PWL切片全部进入正常训练区：

k_s1 = [1.000, 1.005, 1.014, 1.028] 单调递增 ✓
SNDR_post = 68.19 dB, ENOB = 11.03 bit

已积累的核心认知

dither是LMS的参考信号而非单纯噪声——增大dither让LMS更准
|e|门控是PWL-LMS的自洽选择——任何改用|Dbe|的尝试都会导致发散
0.2%级间增益误差足以毁掉18 dB SFDR——行为级仿真中最易被忽视的瓶颈
Timing skew对残量摆幅的影响是样本级均匀的——与比较器offset的机制完全不同
两阶段训练（先S2后联合）与全程联合训练最终不动点一致——但前者调试更清晰

后续计划

优先级	方向	预期效果
★1	Nyquist输入测量 (fin≈1.45 GHz)	让timing-skew研究中的k₄训练成果真正反映在SNDR上
★2	N_TRAIN从5e6推到1e7	hit率2%的Stage 1 slice 4充分收敛
★3	输入端2-bit线性化dither	与timing-skew互补，残差谱更均匀
★4	PVT corner扫描（−40/27/85°C）	重现论文Fig.25的温度电压曲线

总结

两周内完成从零到一的完整复现：搭建12-bit 3-GS/s Pipelined ADC行为级模型，实现Gated-LMS PWL校准算法并达到71.36 dB SNDR（ENOB=11.56 bit），SFDR提升至95.81 dB。通过三组消融实验定位性能瓶颈，显式建模timing skew对PWL切片训练的影响并找到物理合理的折中配置。