当你的CI在不同操作系统上对同一TXT吵架
国际化产品在提取中文判决书、技术符号(温度单位、数学运算符)与Emoji脚注时会遇到一个老问题:编码声明缺失导致Linux流水线正常而Windows查看器一片问号。统一UTF-8(无BOM或有BOM取决于下游API怪癖)是现代协作最低公约数,却仍要与遗留CSV入口、旧版Excel导入规则对齐。PDF内部还可能嵌入罕见Unicode私用区字符,导出后需在检视阶段决定是否规范化(NFKC)以避免同名实体看似相等却无法JOIN。Ai2Done 让你在导出阶段锁定UTF-8并展示进度,先把含有特殊符号与少数民族文字的页面试导出,用hex检视确认未出现U+FFFD替换字符泛滥。完成后在数据契约里写明「必须使用UTF-8」并在HTTP传输层附带正确Content-Type;若还要压缩归档,避免二次工具擅自转码。
UTF-8文本导出三步
- 盘点下游系统对BOM与换行符(LF/CRLF)的偏好。
- 选择UTF-8导出并试运行含特殊符号的代表页。
- 在hex或Unicode检视工具里验证关键字符,再将契约写入集成文档。
常见问题:UTF-8
Excel打开乱码?
使用导入向导指定UTF-8而非双击打开;或改用CSV UTF-8导出模板。
是否需要规范化Unicode?
检索场景常用NFKC;安全场景警惕规范化改变哈希。
体积变大?
UTF-8对ASCII友好但对某些东亚符号比UTF-16冗长——权衡可读性与存储。