转录

拖拽视频文件到这里或点击上传

拖拽视频文件到这里

最大文件大小:500 MB

为什么大家一边搜「语音转文字在线」一边又怕把会议录音随便丢上公网?

高频检索词背后其实是两类焦虑:一是「会议录音转文字」「访谈整理」「网课做笔记」要把声波变成可检索、可引用、可写纪要的文本;二是「客户名单、报价、病历口述、未成年人声音」能不能离开本机。Ai2Done 这条音频转文字链路在浏览器里用 Web Audio 把音轨解码并重采样到十六千赫兹单声道,再在模块 Web Worker 里加载 Whisper tiny 的 ONNX 权重做分段与时间戳输出,模型与推理运行时从本站静态路径拉取而非外跳陌生 CDN,适合作为「先出底稿、再人工校对」的日常工具。它救的是反复拖进度条的隐性工时:把行动项、数字、专名先钉在纸上,再进飞书文档或 CRM。也要诚实写清边界:tiny 体量对嘈杂会议室、重口音、密集英文缩写与行业黑话会提高词错率;中英夹杂、同音专名、串话抢话仍要靠人眼抽检。另可配合搜「自动生成字幕稿」「SRT 导出」「Whisper 语音识别」等长尾词理解能力范围:导出 TXT 或 SRT 只是格式,不等于法务认可的逐字纪要。涉密与强合规场景仍以公司数据分级与离线方案为准,别把「没上传业务服务器」自动等同「已通过安全评审」。

如何在浏览器里把一段录音收成「带时间戳、可导出」的文字底稿

  1. 在桌面浏览器打开音频转文字,选取本机音频或含对白的视频,先对照页面单文件大小上限与进度提示;若素材含客户敏感信息,先走内控审批再在本机操作,并关闭无关录屏与扩展以免误采集旁路音频。
  2. 按需预加载模型或直接开始转写,在 Worker 跑通前保持标签页活跃并选择与实际口播一致的语言;长文件可先裁片头静音或先转写争议片段做词错率抽检,再决定是否全量跑完以免浪费一次长等待。
  3. 在右侧分段结果里核对数字、专名与同音字,复制全文到纪要模板或导出 `.txt` / `.srt`;对外发送前在文档中标注「机转待复核」并绑定原始录音哈希与版本号,涉法涉证段落禁止仅凭自动稿定稿。

音频转文字常见问答

同样一小时会议,为什么有时转写几乎不用改,有时专名和数字整段飘红,这和麦克风位置、混响还是模型体量关系更大?
远端会议室混响、手机外放拾音、多人叠话会把有效信噪比拉垮,tiny 模型在弱监督下更容易把数字串成近似音;应先改善录音链路与说话人分离策略,再用词表与人工抽检专名段落,而不是盲目重复转写同一烂源。
中英文夹杂、产品代号与拼音缩写混在一起时,怎样在不大改模型的情况下把「能用的底稿」稳定交付给内容同事?
应在转写后统一术语表与大小写规范,用查找替换批量修正常错词,并对关键句保留时间戳回听原片;对外稿件仍要母语者或业务 owner 过一遍,别把机转稿直接当发布终稿。
公司信息部说「浏览器本地推理」也不等于默认可用于绝密项目,音频转文字在内控上通常还要卡哪几道闸?
仍要评估录屏软件、浏览器同步插件、共享磁盘与剪贴板审计策略;绝密与个人信息保护法下的特殊类别数据应走获批的离线机或私有化 ASR,本页流程只覆盖一般办公风险自担场景。
导出 SRT 后丢进剪辑软件发现时间轴与画面差半秒,是帧率问题还是分段边界太粗,应如何最小成本对齐?
应在剪辑里以波形对齐关键板点或拍手声做锚点,必要时微调首条字幕入点;若整段系统性偏移,应回到源容器检查是否可变帧率或存在前置静音被裁掉,再决定是否重新导出分段策略。
五百兆上限内一段三小时培训录像,转写中途浏览器提示内存不足,是分片转写更稳还是换机器更省事,团队应怎么写进操作手册?
应在手册里写明「先本地切段或先降采样导出纯音频再转写」的推荐路径,并在工单记录浏览器版本与可用内存;超长任务仍建议拆成议程章节分别跑,最后再用文本合并与时间码平移拼接。
More versions