关于“Token”中文翻译方案的评估,总结与理论最优解
本文在制作过程中参考了网络讨论和部分资料,并借助多个大模型工具对各个翻译选项进行检验。部分优缺点评估来源于网络信息;其中“词元”为已有的技术文档用法,其余为候选。本文选取具有代表性的 Token / Tokenizer / Tokenization 翻译方案,在统一约束条件下进行翻译测评。
❀ 不推荐翻译成“新智元”
❀ 本文为实验性文章,并非转行
Token(/ˈtoʊkən/)
- 形容词:标志性的、表示性的、象征性的、名义上的
- 名词:代币、代金券、令牌、标记
约束条件
- 为保持一致性,所有量词强制统一使用“个”,以避免省略量词带来的发音通顺性
- 不使用“分词器”的翻译,所有 Tokentizer 的翻译写作 Token 翻译结果的衍生词,从而验证译词的衍生性能
一:语料、语料转换器、语料转换/语料化
通过借用语言学中的既有术语实现翻译。“语料”指按照一定规则收集的大规模数据集合,且可延伸至图像、视频等非语言数据,适用于多模态模型。“语料化”一定程度具象化了 Tokenization 的技术原理。
造句
- 生成这个视频耗费了 10 万个语料,不过语料的价格倒是不贵。
- 大模型通过语料转换器来编解码自然语言。
- 通过语料转换处理,一句话会被拆分成单词和与其对应的标识序号,也就是语料化。
评估:失败
术语冲突,语义错位
“语料”(Corpus)的固有定义是“集合”(复数 / Plural)。这无法指代单个最小单元。
- 造句 1 “生成这个视频耗费了 10 万个语料”将集合概念强行可数化
- Tokenization 的结果是“元素序列”,而非“语料”
DeepSeek:量词影响
- “个”暴露了迫使“语料”被当作个体名词使用的“惨状”,与其集合属性形成鲜明冲突
结论:与既有术语出现严重冲突,不适合作为翻译
二:词元、词元转换器、词元转换/词元化
该方案是技术文档中较为常见,且在学术界受用的译法。“词元”明确指代 Tokenization 后的切分后的基本单元/标记(如子词、单词或标识符)。
造句
- 生成这个视频耗费了 10 万个词元,不过词元的价格倒是不贵。
- 大模型通过词元转换器来编解码自然语言。
- 通过词元转换处理,一句话会被拆分成单词和与其对应的标识序号,也就是词元化。
评估:成功
准确而自洽
- 造句 1 “生成这个视频耗费了 10 万个词元”——“词元”可以稳定指代 Token 这一离散单位
- 造句 3 “词元化”对应 Tokenization,语义基本匹配
可自然扩展出“词元表”“词元嵌入”等术语
DeepSeek:量词影响
- 使用“个词元”略显冗余(技术圈习惯省略量词说“10万词元”),但语法正确、逻辑通顺,未造成歧义
术语撞词
- 与 Morpheme、Lexeme 撞词,但实际使用可以通过语境区分
向后兼容差
- 并不能兼容“代币”等翻译,但问题不大
德不配位
- “词元”的价值过高,可以被理解为“语言的来源”,形同了大模型对语言的统治性地位
ChatGPT:语义偏差
- “词元”的“词”使人联想到“以词为单位”,但 Token 指代的最小单位可以小于词,也可以大于词
- Token 的分词规则与“元”的含义相悖,容易造成误解
结论:
- 效果不俗。该方案在准确性、自洽性、可扩展性方面表现良好
- 若放宽量词限制,通顺度将进一步提升
三:吐根、吐根转换器、吐根转换/吐根化
尝试结合音译和意译。“吐”指输入输出内容,“根”可被解释为基本单位(Root),效仿了“沙发”“咖啡”等成功音译词的路径。同时,“吐根”在发音上与 Token 足够相似,因此相比其它选项,“吐根”有向后兼容网页应用“令牌”的效果。
造句
- 生成这个视频耗费了 10 万个吐根,不过吐根的价格倒是不贵。
- 大模型通过吐根转换器来编解码自然语言。
- 通过吐根转换处理,一句话会被拆分成单词和与其对应的标识序号,也就是吐根化。
评估:失败
跨领域撞词
- “吐根”在中文中指代一种药用灌木植物 Ipecac,其根具有催吐作用,其化学成分具有特殊意义——被专门定义为“吐根碱”,且产生了“吐根糖浆”等派生词,被泛用于医药领域与文献。
- 造句 1 “生成这个视频耗费了 10 万个吐根”——“10 万条根茎”、“10 万次催吐”、“10 万服药”,显得离谱且变态
DeepSeek:量词影响
- 量词强化了实物感——“一个吐根”听着就像是根茎,放大了歧义
对“音译词最终会被接受”的反驳
- 沙发、咖啡等音译词成功进入中文时,所指代的物体在中文中并无现存同名实物
- “吐根”已有数百年医药史,强行兼容是学术不端的
向后兼容差
- 并不能兼容“代币”等翻译
ChatGPT:发音诡辩
- 发音实际上差的很远,“音译”的论证站不住脚
结论
- 尽管巧妙,但歧义张冠李戴,且无法通过长期使用消除
四:语片、语片转换器、语片转换/语片化
该方案是对“词元”的重构,为新造词。“语片”可理解为“语言片段”、“语言分片”、“语言切片”,强调 Tokenization 将连续文本切分为离散片段的过程,以及不同分词规则和语境下的不同分词结果(不同食材选择切厚片或切薄片)。简洁易懂且优雅。
造句
- 生成这个视频耗费了 10 万个语片,不过语片的价格倒是不贵。
- 大模型通过语片转换器来编解码自然语言。
- 通过语片转换处理,一句话会被拆分成单词和与其对应的标识序号,也就是语片化。
评估:成功
无撞词风险
- 与“语料”(Corpus)、“语素”(Morpheme)、“语篇”(Discourse)等既有术语均有区分,不会混淆。
全新词
- 缺点:用户首次接触需要理解定义
- 优点:“片”字直观,学习成本低于“词元”(“词元”需要区分与“词”的关系)
与“令牌”的呼应较弱
- “令牌”中的“牌”是卡片、凭证,“片”是片段,二者并非直接映射
- 但这不影响,因为“语片”并不需要依附于“令牌”
与“代币”的呼应较弱
- “代币”中的“币”涉及金钱,“片”是片段,二者并非直接映射
- 但这不影响,因为“语片”可以直接作为计费单位衡量
跨领域逻辑对称
- 食品:马铃薯 → 薯片;面包 → 面包片
- 视频编码:视频帧 → 分片
- 影业:电影 → 样片
DeepSeek:量词影响
- 尽管通顺性也受到挫折,但与量词“个”的兼容性最好,无需省略以增加通顺性
- “10万个语片”、“一个语片”均自然顺畅
衍生词兼容性好
- 相比“词元化”,“语片化”能更清晰地表示切分
向后兼容差
- 并不能兼容“代币”等翻译
地位合理
- 相比“词元”避免了过高的地位,以人为本
结论
- 最优解
横向对比
DeepSeek 对比
| 评估维度 | 语料 | 吐根 | 词元 | 语片 |
|---|---|---|---|---|
| 术语冲突 | 逻辑错误(集合≠元素) | 植物/药物重名 | 与 lexeme/morpheme 重名 | 无已知冲突 |
| 概念准确性 | 错误 | 一般 | 较高(但预设“词”) | 高(形象、包容子词) |
| 量词“个”通顺度 | 通顺但逻辑错 | 荒谬 | 略显冗余 | 自然 |
| 形象直观性 | 差 | 差(歧义主导) | 中 | 优(“分片”易理解) |
| 已有使用基础 | 无 | 无 | 有(厂商文档) | 无 |
| 扩展性(派生词) | 语料库(冲突) | 吐根化(药名撞词) | 词元化、词元表 | 语片化、语片表、语片流 |
| 最终评分(满分 10) | 2 | 1 | 6 | 8.5 |
ChatGPT 对比
| 评估维度 | 语料 | 吐根 | 词元 | 语片 |
|---|---|---|---|---|
| 术语冲突 | 集合概念错位 | 医学重名 | 存在重叠 | 无明显冲突 |
| 概念准确性 | 低 | 低 | 较高 | 较高 |
| 量词“个”通顺度 | 表面通顺但语义错 | 歧义强 | 略冗余 | 自然 |
| 形象直观性 | 低 | 低 | 中 | 高 |
| 使用基础 | 无 | 无 | 有 | 无 |
| 扩展性 | 差 | 差 | 强 | 强 |
| 最终评分(满分 10) | 2 | 1 | 7 | 8.5 |