PDF 转文字

从 PDF 文件中提取文字内容

拖拽 PDF 文件到此处或点击上传

拖拽 PDF 文件到此处

文件过大（最大 100MB）

当你的CI在不同操作系统上对同一TXT吵架

国际化产品在提取中文判决书、技术符号（温度单位、数学运算符）与Emoji脚注时会遇到一个老问题：编码声明缺失导致Linux流水线正常而Windows查看器一片问号。统一UTF-8（无BOM或有BOM取决于下游API怪癖）是现代协作最低公约数，却仍要与遗留CSV入口、旧版Excel导入规则对齐。PDF内部还可能嵌入罕见Unicode私用区字符，导出后需在检视阶段决定是否规范化（NFKC）以避免同名实体看似相等却无法JOIN。Ai2Done 让你在导出阶段锁定UTF-8并展示进度，先把含有特殊符号与少数民族文字的页面试导出，用hex检视确认未出现U+FFFD替换字符泛滥。完成后在数据契约里写明「必须使用UTF-8」并在HTTP传输层附带正确Content-Type；若还要压缩归档，避免二次工具擅自转码。

UTF-8文本导出三步

盘点下游系统对BOM与换行符（LF/CRLF）的偏好。
选择UTF-8导出并试运行含特殊符号的代表页。
在hex或Unicode检视工具里验证关键字符，再将契约写入集成文档。

常见问题：UTF-8

Excel打开乱码？

使用导入向导指定UTF-8而非双击打开；或改用CSV UTF-8导出模板。

是否需要规范化Unicode？

检索场景常用NFKC；安全场景警惕规范化改变哈希。

体积变大？

UTF-8对ASCII友好但对某些东亚符号比UTF-16冗长——权衡可读性与存储。

JSON 格式化

Base64 编码

URL 编码

YAML 格式化

XML 格式化

SQL 格式化

JWT 解码器

合并 PDF

压缩 PDF

拆分 PDF

编辑 PDF

PDF 转 Word

Word 转 PDF

PDF 转 JPG

去背景

压缩图片

调整尺寸

超分辨率

人脸修复

图片去糊

HEIC 转 JPG

AI 深度翻译

段落写作

智能邮件助手

句子改写

文本摘要

语法修正

代码注释

压缩视频

视频转 GIF

裁剪视频

MP4 转 MP3

音频转文字

调整视频尺寸

提取音频

CSV 转 Excel

Excel 转 PDF

XML 转 JSON

拆分 Excel

拆分 CSV

XML 转 Excel

Excel 转 XML

PDF 转文字

当你的CI在不同操作系统上对同一TXT吵架

UTF-8文本导出三步

常见问题：UTF-8

Related Tools