#4878 我的需求：将中文短视频（30秒左右，中国达人带货，介绍女士饰品或者包包，视频带有硬字幕烧录在视频上面）翻译成英文，需要英文字幕，并将中文字幕去掉。需要克隆达人音色，语速上匹配。需要输出字幕文件包含具体到时间的（以便我后续借用国内ai软件生成

113.118* Posted at: 1 month ago

我的需求：
将中文短视频（30秒左右，中国达人带货，介绍女士饰品或者包包，视频带有硬字幕烧录在视频上面）翻译成英文，需要英文字幕，并将中文字幕去掉。需要克隆达人音色，语速上匹配。需要输出字幕文件包含具体到时间的（以便我后续借用国内ai软件生成地道且适配tiktok平台且适配达人语速的英文翻译供pyvideotrans使用）
对于我的这种需求，我应该怎样使用pyvideotrans，怎样设置

Floor #1 DeepSeek reply at 1 month ago

对于您的需求，核心挑战是：

硬字幕无法擦除 – pyVideoTrans 只能处理音频中的语音，无法识别或抹除视频画面上已有的文字（烧录的硬字幕）。如需去除，需借助其他视频编辑工具（如剪映、达芬奇）进行模糊、覆盖或裁剪。
音色克隆 – 软件支持 clone 角色，可自动以原始说话人语音片段作为参考音频进行配音。
输出时间轴精确的字幕文件 – 您可以在处理过程中提取原始语音 ASR 字幕（中文），或翻译后的英文字幕 SRT。

关于硬字幕去除的替代方案

如果非要移除原中文字幕，您可以使用另一个工具本地离线提取视频硬字幕并去除（基于 OCR），但此处无法集成到 pyVideoTrans 中。

请查阅相关文档：

Floor #2 113.118* reply at 1 month ago

以下是我得到的一个中文字幕文件。请你评估一下，以及帮我看看怎样优化，才能提取到合适的字幕，使得我后续发给其他ai软件的时候能够更好得转化成英文
1
00:00:00,000 --> 00:00:04,912
感觉重点来了，你看它是这样敞开的，你会觉得，嗯，它怎么戴，对吧？它这个装饰

2
00:00:04,912 --> 00:00:09,136
是这个地方是可以这样子拉伸的，直接把它往上一带，上面

3
00:00:09,136 --> 00:00:13,360
很好看又很特别，然后它这个地方的长度你是可以自己去调节的，你

4
00:00:13,360 --> 00:00:17,632
想要这个吊坠放在哪里都可以，你也可以把它放到上面锁骨这个地方

5
00:00:17,632 --> 00:00:21,904
也是没问题的哦，这条好好看哦，出来的氛围就是那种很简单，但是很有气

6
00:00:21,904 --> 00:00:27,760
质感很有高级感的感觉，我觉得这个就是不仅是搭配一些简单的衣服了，即使是一些连衣裙搭它也会特别好看，因为它的

7
00:00:27,760 --> 00:00:32,020
线条是这种细细的，然后底下又是这种垂垂的，很飘逸的感觉。哦，这一堆饰品非常

Floor #3 DeepSeek reply at 1 month ago

您提供的中文字幕文件整体可用，但存在以下问题，会影响后续 AI 翻译的质量和配音同步：

句子过长且语义混杂：
第1行（0-4.9秒）包含了三个完整句子：“感觉重点来了...”、“你看它是这样敞开的...”、“嗯，它怎么戴，对吧？”以及“它这个装饰”。一行内混合多个独立语义，AI 翻译时可能丢失重点或产生奇怪断行。
第7行末尾截断：
“这一堆饰品非常” 明显不完整（可能是识别过程中被截断），需要补全或重新识别该段落。
标点符号缺失或错误：
例如第1行中的“嗯，”后缺少逗号分隔；第2行“装饰”后有空格；第6行“很有气”实际应为“很有气”后接“质”？原文显示“很有气”单独一行，可能是换行错误。
时间轴边界不够合理：
部分字幕结束/开始时间与语音暂停点不完全对齐（例如第4行“锁骨这个地方”与第5行“也是没问题的哦”之间可能应该合并或更细拆分）。

优化建议（三个方法，推荐按顺序尝试）

方法一：调整软件参数重新进行语音识别（最佳方案）

在 pyVideoTrans 中对同一视频 重新进行语音识别（不翻译、不配音），勾选 清理已生成，并按如下设置：

参数位置	推荐值
语音识别渠道	Qwen-ASR(本地) 或字节语音大模型极速版（中文带货识别最准）
识别模型	默认（若为 faster-whisper 请选 `large-v3`）
降噪	勾选（背景音乐或环境音会干扰断句）
默认断句 / LLM重新断句	选择 LLM重新断句（需在菜单→工具→高级选项→通用设置中配置 DeepSeek 或 OpenAI 渠道，并填入 API Key）
高级选项→语音识别参数→最长语音持续秒数	设为 4 或 5（强制单句更短）
高级选项→静音分割持续毫秒	设为 150-200（在更短的静音处分割）
高级选项→最短语音持续毫秒	设为 1000（避免出现极短碎片，但保留完整词）
高级选项→合并过短字幕到邻近	取消勾选（保证每句独立）
高级选项→Whisper预分割音频	勾选（改善断句效果）

执行后生成的中文 SRT 将得到明显优化，句子完整且边界合理。

方法二：手动编辑现有字幕文件

直接用文本编辑器修改您提供的 SRT 文件，例如：

将第1行拆分为3～4行：

00:00:00,000 --> 00:00:01,500
感觉重点来了，

00:00:01,500 --> 00:00:02,800
你看它是这样敞开的，

00:00:02,800 --> 00:00:04,912
你会觉得，嗯，它怎么戴，对吧？它这个装饰

补全第7行末尾（根据语音判断，可能是“这一堆饰品非常精美”之类的）。
统一标点：每句末尾加句号，疑问句加问号。

方法三：使用单视频交互模式分段编辑

如果只处理一个视频，在识别完成后弹出编辑窗口时手动调整每行文字和时间轴，这是最灵活的方式。

后续 AI 翻译提示

当您将优化后的中文 SRT 发送给国内 AI（如 DeepSeek、Kimi）进行英化时，建议附带以下指令：

“请将以下中文带货文案逐行翻译为地道且适合 TikTok 平台、语速自然、富有感染力的英文。每行按原时间轴输出 SRT 格式。注意保留“它”、“这个”、“你看”等口语化表达，使用短句和促成交的语调。”

这样能最大限度地保留原视频的带货节奏和情感。

Floor #4 113.118* reply at 1 month ago

在批量语音转字幕的过程中，出现以下问题：
语音识别阶段出错[Qwen-ASR(本地)] None
Traceback (most recent call last):

File "videotrans\task\job.py", line 54, in run

File "videotrans\task\job.py", line 119, in process_task

File "videotrans\task\speech2text.py", line 125, in recogn

File "videotrans\recognition\__init__.py", line 190, in run

File "videotrans\recognition\_base.py", line 93, in run

File "videotrans\recognition\_qwenasrlocal.py", line 35, in _exec

File "videotrans\recognition\_base.py", line 194, in cut_audio

File "videotrans\recognition\_base.py", line 180, in _vad_split

File "videotrans\configure\base.py", line 252, in _new_process

videotsk

.excsk

: None
TaskCfgSTT(uuid='41f3c0518f', name='C:/Users/AL/Desktop/淘宝视频批量下载/AB230302.mp4', dirname='C:/Users/AL/Desktop/淘宝视频批量下载', noextname='AB230302', basename='AB230302.mp4', ext='mp4', target_dir='D:/01ruanjian-install/37pyvideotrans-v4.00-528/output/recogn', cache_folder='D:/01ruanjian-install/37pyvideotrans-v4.00-528/tmp/19436/41f3c0518f', is_cuda=True, sosk

=None, sosk

_code=None, source_sub=None, source_wav=None, source_wav_output=None, task

=None, task

_code=None, target_sub='D:/01ruanjian-install/37pyvideotrans-v4.00-528/output/recogn/AB230302.srt', target_wav=None, target_wav_output=None, desk

='zh-cn', recogn_type=2, model_name='1.7B', shibie_audio='D:/01ruanjian-install/37pyvideotrans-v4.00-528/tmp/19436/41f3c0518f/AB230302-1780394954.286482.wav', remove_noise=True, enable_diariz=False, nums_diariz=0, rephrase=0, fix_punc=True)

Floor #5 DeepSeek reply at 1 month ago

错误核心原因：子进程执行 Qwen-ASR 模型时返回了空异常（None），通常由以下原因之一导致：

模型未完整下载 – 1.7B 模型较大，首次使用时可能下载中断或不完整。
文件路径含中文字符 – 您的视频路径 C:/Users/AL/Desktop/淘宝视频批量下载/ 中的“淘宝视频批量下载”是中文，可能导致 ffmpeg 或子进程调用异常。
显存不足 – 1.7B 模型 + CUDA + 降噪同时开启，对显存要求较高。
降噪模块异常 – remove_noise=True 会在识别前额外运行降噪模型，可能与其冲突。

快速解决（按优先级尝试）

1. 关闭降噪，切换小模型

在主界面取消勾选降噪。
将识别模型从 1.7B 改为 base 或 small（更轻量）。
重新执行任务。

2. 移动视频到纯英文路径

在 D: 盘根目录创建英文文件夹（如 D:\videos）。
将视频文件 AB230302.mp4 复制进去。
在软件中选择这个新路径的视频，重新执行。

3. 检查模型完整性

关闭软件，进入软件根目录下的 models 文件夹。
确认是否存在 Qwen-ASR 相关子文件夹（如 qwen_asr 或 Qwen 等）。如果文件夹为空或缺失，删除后重新运行，软件会重新下载。
如果网络下载缓慢，可手动从 HuggingFace 下载并放入 models 文件夹（需按规范命名）。

4. 强制清理缓存

勾选主界面 清理已生成，避免使用旧的临时文件。

5. 更换识别渠道

如果以上无效，将语音识别渠道更换为 faster-whisper(本地)，选择 large-v3 模型（对中文准确且稳定），同时关闭降噪。

参考文档

如果尝试上述步骤后仍然报错，请提供 logs/ 目录下最新日志文件的底部 30 行内容，以便进一步定位。

5 Replies

推荐操作步骤（分两阶段）

第一阶段：生成中文稿并获取时间轴（供您自己或AI优化英文翻译）

第二阶段：用您修改后的英文字幕 + 克隆音色合成最终视频