Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

URL

标题是 “用于端到端分层序列建模的动态分块” ，实际上包含了不少信息量：
- “端到端”：意味着 token free，真正的端到端语言模型，输入输出都是字节流，不需要 tokenization 过程
- “分层”：意味着 H-Net 模型结构是递归的，H-Net 模型由 encoder + main network + decoder 组成，其中 main network 还可以是 H-Net 模型
- “动态分块”：意味着 H-Net 模型可以动态地调整 chunk 的大小，可以理解为维护了一个隐式的动态 tokenizer，模型会在学习过程中找到最优的隐式分词方法
本质是一个基于 SSM + Transformer 结构的大模型，抛弃了 tokenization 过程，直接在字节流上进行训练和推理

当前主流语言模型（如 ChatGPT ）依赖预定义的分词器（如 BPE ），存在以下问题：
- 语义割裂：分词器基于统计规则，无法根据上下文动态调整边界（如将 “product” 错误拆分为 “pro-duct” ）
- 跨语言/模态适配性差：在中文、代码或 DNA 序列等缺乏显式分隔符的领域表现不佳
直接字节级建模（如 MambaByte ），计算开销巨大，且性能低于分词模型
一些启发式分块规则（如 MegaByte 和 SpaceByte）依赖启发式分块规则（如固定步长或空格分隔），无法学习数据驱动的分块策略，限制了模型对复杂信息的表达能力

三级模块
- 编码器（E）：处理原始字节（小规模 SSM 层，高效捕获细粒度特征）
- 主网络（M）：处理压缩后的语义块（大规模 Transformer 层，学习高层抽象）
- 解码器（D）：恢复原始分辨率（SSM 层）
递归扩展：主网络可嵌套 H-Net 自身，形成多级抽象（如字符 → 词 → 短语）