#4878 我的需求:将中文短视频(30秒左右,中国达人带货,介绍女士饰品或者包包,视频带有硬字幕烧录在视频上面)翻译成英文,需要英文字幕,并将中文字幕去掉。需要克隆达人音色,语速上匹配。需要输出字幕文件包含具体到时间的(以便我后续借用国内ai软件生成

113.118* Posted at: 3 hours ago

我的需求:
将中文短视频(30秒左右,中国达人带货,介绍女士饰品或者包包,视频带有硬字幕烧录在视频上面)翻译成英文,需要英文字幕,并将中文字幕去掉。需要克隆达人音色,语速上匹配。需要输出字幕文件包含具体到时间的(以便我后续借用国内ai软件生成地道且适配tiktok平台且适配达人语速的英文翻译供pyvideotrans使用)
对于我的这种需求,我应该怎样使用pyvideotrans,怎样设置

5 Replies

对于您的需求,核心挑战是:

  1. 硬字幕无法擦除 – pyVideoTrans 只能处理音频中的语音,无法识别或抹除视频画面上已有的文字(烧录的硬字幕)。如需去除,需借助其他视频编辑工具(如剪映、达芬奇)进行模糊、覆盖或裁剪。
  2. 音色克隆 – 软件支持 clone 角色,可自动以原始说话人语音片段作为参考音频进行配音。
  3. 输出时间轴精确的字幕文件 – 您可以在处理过程中提取原始语音 ASR 字幕(中文),或翻译后的英文字幕 SRT。

推荐操作步骤(分两阶段)

第一阶段:生成中文稿并获取时间轴(供您自己或AI优化英文翻译)

  1. 打开软件 → 选择 “翻译视频或音频” 模块。
  2. 选择视频 – 点击“选择音频或视频”,选取您的 30 秒短视频(建议先取消“文件夹”)。
  3. 设置音频语言发音语言选择 简体中文(不要用 auto)。
  4. 语音识别渠道 – 推荐 Qwen-ASR(本地)字节语音大模型极速版(对中文带货语音识别更准)。
  5. 翻译渠道 – 随意选一个免费渠道(如 Google 翻译),因为您后续要用 AI 修改英文文本,这里只是生成一个初始英文 SRT 供参考。
    如果您暂时不想输出配音,也可以选择 不配音:将“配音角色”设为 No
  6. 不嵌入字幕 – 勾选 不嵌入字幕(您不需要最终视频,只需要字幕文件)。
  7. 执行 – 点击“开始执行”。

结果

  • 处理完成后,在视频目录下的 _video_out/视频名-mp4 文件夹中,会生成 zh-cn.srt(中文原始字幕)和 en.srt(翻译后的英文字幕)。
  • 您可以使用这个 en.srt,用国内 AI 工具(如 DeepSeek、GPT)重写为更地道的 TikTok 英文带货文案,保持时间轴不变。

第二阶段:用您修改后的英文字幕 + 克隆音色合成最终视频

  1. 准备字幕文件 – 将您优化后的英文 SRT 保存为 en.srt
  2. 使用“字幕多角色配音”或“翻译视频或音频”功能

    • 推荐方法:使用 “翻译视频或音频”,并利用“已有字幕”功能。
    • 前提:确保视频路径相同,且 _video_out/视频名-mp4 文件夹内已存在 en.srt(您修改后的)。
    • 软件配置

      • 选择同一视频文件。
      • 语音识别 可关(或保持默认,但软件若检测到已有字幕会跳过识别)。
      • 翻译渠道 可随意(不影响,因为您已有目标字幕)。
      • 配音渠道:选择支持 clone 的渠道,如 F5-TTS(本地API) / CosyVoice(本地API) / OmniVoice-TTS(本地)
      • 配音角色:选择 clone(自动用原视频声音进行克隆)。
      • 目标语言:英语。
      • 字幕设置:取消“不嵌入字幕”,选择 嵌入软字幕(单英文),如果您希望保留中文硬字幕但被英文字幕覆盖?实际上原硬字幕仍在画面;如果您想覆盖,需要后期或选择硬字幕区域模糊。
      • 音画同步:勾选 音频加速(以便配音时长匹配原时长,语速会自动调整)。
      • 清理已生成:勾选(确保不读缓存)。
  3. 执行 – 开始任务。软件会跳过识别和翻译,直接使用您提供的 en.srt 进行配音和合成。

注意

  • 使用 clone 时,建议在“设置更多参数”中将 最短语音持续毫秒 设为 3000最长语音持续秒数 设为 10,并勾选 Whisper预分割音频合并过短字幕到相邻,以保证配音质量。
  • 最终输出的视频中,原中文硬字幕依然存在(无法去除)。您需要使用外部软件(如剪辑工具)进行遮盖或叠加新字幕遮挡。

关于硬字幕去除的替代方案

如果非要移除原中文字幕,您可以使用另一个工具 本地离线提取视频硬字幕并去除(基于 OCR),但此处无法集成到 pyVideoTrans 中。

请查阅相关文档:

以下是我得到的一个中文字幕文件。请你评估一下,以及帮我看看怎样优化,才能提取到合适的字幕,使得我后续发给其他ai软件的时候能够更好得转化成英文
1
00:00:00,000 --> 00:00:04,912
感觉重点来了,你看它是这样敞开的,你会觉得,嗯,它怎么戴,对吧?它这个装饰

2
00:00:04,912 --> 00:00:09,136
是这个地方是可以这样子拉伸的,直接把它往上一带,上面

3
00:00:09,136 --> 00:00:13,360
很好看又很特别,然后它这个地方的长度你是可以自己去调节的,你

4
00:00:13,360 --> 00:00:17,632
想要这个吊坠放在哪里都可以,你也可以把它放到上面锁骨这个地方

5
00:00:17,632 --> 00:00:21,904
也是没问题的哦,这条好好看哦,出来的氛围就是那种很简单,但是很有气

6
00:00:21,904 --> 00:00:27,760
质感很有高级感的感觉,我觉得这个就是不仅是搭配一些简单的衣服了,即使是一些连衣裙搭它也会特别好看,因为它的

7
00:00:27,760 --> 00:00:32,020
线条是这种细细的,然后底下又是这种垂垂的,很飘逸的感觉。哦,这一堆饰品非常

您提供的中文字幕文件整体可用,但存在以下问题,会影响后续 AI 翻译的质量和配音同步:

  1. 句子过长且语义混杂
    第1行(0-4.9秒)包含了三个完整句子:“感觉重点来了...”、“你看它是这样敞开的...”、“嗯,它怎么戴,对吧?”以及“它这个装饰”。一行内混合多个独立语义,AI 翻译时可能丢失重点或产生奇怪断行。
  2. 第7行末尾截断
    “这一堆饰品非常” 明显不完整(可能是识别过程中被截断),需要补全或重新识别该段落。
  3. 标点符号缺失或错误
    例如第1行中的“嗯,”后缺少逗号分隔;第2行“装饰”后有空格;第6行“很有气”实际应为“很有气”后接“质”?原文显示“很有气”单独一行,可能是换行错误。
  4. 时间轴边界不够合理
    部分字幕结束/开始时间与语音暂停点不完全对齐(例如第4行“锁骨这个地方”与第5行“也是没问题的哦”之间可能应该合并或更细拆分)。

优化建议(三个方法,推荐按顺序尝试)

方法一:调整软件参数重新进行语音识别(最佳方案)

在 pyVideoTrans 中对同一视频 重新进行语音识别(不翻译、不配音),勾选 清理已生成,并按如下设置:

参数位置推荐值
语音识别渠道Qwen-ASR(本地)字节语音大模型极速版(中文带货识别最准)
识别模型默认(若为 faster-whisper 请选 large-v3
降噪勾选(背景音乐或环境音会干扰断句)
默认断句 / LLM重新断句选择 LLM重新断句(需在菜单→工具→高级选项→通用设置中配置 DeepSeek 或 OpenAI 渠道,并填入 API Key)
高级选项→语音识别参数→最长语音持续秒数设为 4 或 5(强制单句更短)
高级选项→静音分割持续毫秒设为 150-200(在更短的静音处分割)
高级选项→最短语音持续毫秒设为 1000(避免出现极短碎片,但保留完整词)
高级选项→合并过短字幕到邻近取消勾选(保证每句独立)
高级选项→Whisper预分割音频勾选(改善断句效果)

执行后生成的中文 SRT 将得到明显优化,句子完整且边界合理。

方法二:手动编辑现有字幕文件

直接用文本编辑器修改您提供的 SRT 文件,例如:

  • 将第1行拆分为3~4行:

    00:00:00,000 --> 00:00:01,500
    感觉重点来了,
    
    00:00:01,500 --> 00:00:02,800
    你看它是这样敞开的,
    
    00:00:02,800 --> 00:00:04,912
    你会觉得,嗯,它怎么戴,对吧?它这个装饰
  • 补全第7行末尾(根据语音判断,可能是“这一堆饰品非常精美”之类的)。
  • 统一标点:每句末尾加句号,疑问句加问号。

方法三:使用单视频交互模式分段编辑

如果只处理一个视频,在识别完成后弹出编辑窗口时手动调整每行文字和时间轴,这是最灵活的方式。


后续 AI 翻译提示

当您将优化后的中文 SRT 发送给国内 AI(如 DeepSeek、Kimi)进行英化时,建议附带以下指令:

“请将以下中文带货文案逐行翻译为地道且适合 TikTok 平台、语速自然、富有感染力的英文。每行按原时间轴输出 SRT 格式。注意保留“它”、“这个”、“你看”等口语化表达,使用短句和促成交的语调。”

这样能最大限度地保留原视频的带货节奏和情感。

在批量语音转字幕的过程中,出现以下问题:
语音识别阶段出错[Qwen-ASR(本地)] None
Traceback (most recent call last):

File "videotrans\task\job.py", line 54, in run

File "videotrans\task\job.py", line 119, in process_task

File "videotrans\task\speech2text.py", line 125, in recogn

File "videotrans\recognition\__init__.py", line 190, in run

File "videotrans\recognition\_base.py", line 93, in run

File "videotrans\recognition\_qwenasrlocal.py", line 35, in _exec

File "videotrans\recognition\_base.py", line 194, in cut_audio

File "videotrans\recognition\_base.py", line 180, in _vad_split

File "videotrans\configure\base.py", line 252, in _new_process

videotsk


.excsk
: None
TaskCfgSTT(uuid='41f3c0518f', name='C:/Users/AL/Desktop/淘宝视频批量下载/AB230302.mp4', dirname='C:/Users/AL/Desktop/淘宝视频批量下载', noextname='AB230302', basename='AB230302.mp4', ext='mp4', target_dir='D:/01ruanjian-install/37pyvideotrans-v4.00-528/output/recogn', cache_folder='D:/01ruanjian-install/37pyvideotrans-v4.00-528/tmp/19436/41f3c0518f', is_cuda=True, sosk
=None, sosk
_code=None, source_sub=None, source_wav=None, source_wav_output=None, task
=None, task
_code=None, target_sub='D:/01ruanjian-install/37pyvideotrans-v4.00-528/output/recogn/AB230302.srt', target_wav=None, target_wav_output=None, desk
='zh-cn', recogn_type=2, model_name='1.7B', shibie_audio='D:/01ruanjian-install/37pyvideotrans-v4.00-528/tmp/19436/41f3c0518f/AB230302-1780394954.286482.wav', remove_noise=True, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=True)

错误核心原因:子进程执行 Qwen-ASR 模型时返回了空异常(None),通常由以下原因之一导致:

  1. 模型未完整下载 – 1.7B 模型较大,首次使用时可能下载中断或不完整。
  2. 文件路径含中文字符 – 您的视频路径 C:/Users/AL/Desktop/淘宝视频批量下载/ 中的“淘宝视频批量下载”是中文,可能导致 ffmpeg 或子进程调用异常。
  3. 显存不足 – 1.7B 模型 + CUDA + 降噪同时开启,对显存要求较高。
  4. 降噪模块异常remove_noise=True 会在识别前额外运行降噪模型,可能与其冲突。

快速解决(按优先级尝试)

1. 关闭降噪,切换小模型

  • 在主界面取消勾选 降噪
  • 将识别模型从 1.7B 改为 basesmall(更轻量)。
  • 重新执行任务。

2. 移动视频到纯英文路径

  • D: 盘根目录创建英文文件夹(如 D:\videos)。
  • 将视频文件 AB230302.mp4 复制进去。
  • 在软件中选择这个新路径的视频,重新执行。

3. 检查模型完整性

  • 关闭软件,进入软件根目录下的 models 文件夹。
  • 确认是否存在 Qwen-ASR 相关子文件夹(如 qwen_asrQwen 等)。如果文件夹为空或缺失,删除后重新运行,软件会重新下载。
  • 如果网络下载缓慢,可手动从 HuggingFace 下载并放入 models 文件夹(需按规范命名)。

4. 强制清理缓存

  • 勾选主界面 清理已生成,避免使用旧的临时文件。

5. 更换识别渠道

  • 如果以上无效,将语音识别渠道更换为 faster-whisper(本地),选择 large-v3 模型(对中文准确且稳定),同时关闭降噪。

参考文档

如果尝试上述步骤后仍然报错,请提供 logs/ 目录下最新日志文件的底部 30 行内容,以便进一步定位。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Related resource