#4690 500 错误: API服务端内部错误 Error code: 500 - {'code': 60009, 'message': 'Request failed: Unknown error.', 'data': None}

119.237* Posted at: 20 days ago

500 错误: API服务端内部错误 Error code: 500 - {'code': 60009, 'message': 'Request failed: Unknown error.', 'data': None}


=
system:Windows-10-10.0.26200-SP0
version:v3.97
frozen:True
language:zh
root_dir:D:/win-pyvideotrans-v3.97-0304

23 Replies

500 错误表明您调用的第三方 API 服务端内部处理异常,且错误码 60009(未知错误)。这可能由以下原因导致:

  • 网络代理未正确配置或不可用(国内访问国外服务)。
  • API 密钥无效、已过期或额度用尽。
  • 请求参数格式有误(如语言代码、模型名称不正确)。
  • 服务端临时故障。

由于错误提示模糊,无法在现有知识库中精确定位。请提供 软件根目录下 logs/ 文件夹中最新日志文件的末尾约 30 行报错信息(复制文本),以便进一步分析具体是哪一步发送的请求。

请查阅相关文档:

识别好后,我把翻译好的中文字幕,和时间轴确定好,但是生成语音后,然后再合成,顺序语音识别全乱套了,语音一开始就开始播放,语音播放完后,视频才播放到一半,我开启了删字幕间静音

您手动修改了中文字幕的时间轴,导致生成配音的时间轴与原始视频的画面时间轴不匹配。配音按照您修改后的时间生成,而视频仍按原时间播放,因此出现“语音提前放完,视频才到一半”的错位。开启“删字幕间静音”会移除配音间的静音部分,进一步缩短配音总时长,加剧不同步。

解决方案(按优先级排列):

  1. 取消勾选“删字幕间静音”(主界面或设置更多参数中),避免压缩配音时长。
  2. 启用“音频加速”(主界面勾选),允许配音自动加速以对齐原视频时长。
  3. 若加速效果不佳,改用 “视频慢速”,可让视频局部减速等待配音。
  4. 如果仍不同步,请尝试 勾选“二次识别”(主界面右上角),该功能会在配音完成后再次对配音进行语音识别,生成与配音精确对齐的新字幕,并重新合成。
  5. 最佳实践:不要在语音识别后手动大幅修改字幕时间轴。如需微调,请在单视频交互模式(仅处理一个视频)下,利用配音完成后弹出的校对框,根据波形图单独调整每句字幕的起止时间。

参考文档

这是我修正好的时间轴 ,00:00:06,832 --> 00:00:16,064
这节课我们来处理上节课做的那个简单金币对象,它现在看起来就是一个很基础的圆柱体

2
00:00:16,064 --> 00:00:31,632
换成我们在 Blender 里创建的 3D 模型,样子会好看很多,上面有个小美元符号,边缘有倒角,还会有闪亮的金属材质。做完我们从 Blender 导出

3
00:00:31,632 --> 00:00:36,000
再导入 Godot,把原来的网格换掉

4
00:00:36,000 --> 00:00:39,696
把场景里的这个对象,换成 Blender 做的这个
你会自动修改时间轴:1
00:00:00,000 --> 00:00:07,373
这节课我们来处理上节课做的那个简单金币对象,它现在看起来就是一个很基础的圆柱体

2
00:00:07,373 --> 00:00:19,757
换成我们在 Blender 里创建的 3D 模型,样子会好看很多,上面有个小美元符号,边缘有倒角,还会有闪亮的金属材质。做完我们从 Blender 导出

3
00:00:19,757 --> 00:00:22,672
再导入 Godot,把原来的网格换掉

4
00:00:22,672 --> 00:00:25,889
把场景里的这个对象,换成 Blender 做的这个

您提到的现象是正常的:软件在后续配音和合成阶段,会根据生成的配音时长自动重新计算并修改字幕时间轴,以保证配音、字幕和画面在最终视频中大致同步。您手动修正的时间轴被系统自动对齐逻辑覆盖了。

根本原因

  • 即便您手动将字幕时间轴调整得与原视频匹配,翻译后的中文配音时长通常与原音不同(中文比英文短或长)。
  • 软件内置的字幕声音对齐机制(即使未勾选“音频加速”也未勾选“视频慢速”,默认也会执行对齐)会强制让字幕的时间轴贴合配音的起始和结束时间,因此修改了您设置的时间轴。
  • 如果您勾选了二次识别,软件会在配音完成后再次识别语音生成新字幕,也会彻底覆盖您手动调整的结果。

解决方法

  1. 关闭自动对齐:在设置更多参数中,取消勾选对齐字幕声音
  2. 关闭二次识别:主界面右上角取消勾选二次识别
  3. 使用单视频交互模式手动微调:只处理单个视频,在配音完成后弹出的校对框中,您可以根据实际配音波形,逐一调整每句字幕的起止时间,软件不会自动覆盖该步骤的修改。

如果您希望完全保留手动设置的字幕时间,请采用上述第 3 种方式。

是把对齐控制全部取消吗?配音加速 视频慢速 删字幕间静音 对齐字幕声音 这些都取消勾选吗? 以前记得也没有这个问题啊,是不是勾选哪一个选项造成的

是的,要完全保留您手动修正的字幕时间轴不被软件覆盖,需要将主界面上的所有自动对齐相关选项全部取消勾选

  1. 取消勾选 配音加速(主界面)
  2. 取消勾选 视频慢速(主界面)
  3. 取消勾选 删字幕间静音(设置更多参数中)
  4. 取消勾选 对齐字幕声音(设置更多参数中)
  5. 取消勾选 二次识别(主界面右上角)

为什么以前没有这个问题?
因为旧版本可能默认未启用“对齐字幕声音”或“二次识别”,或者您之前没有手动修改时间轴。新版本中部分选项默认开启,导致手动调整被自动覆盖。您可以回忆一下是不是最近勾选了“二次识别”或“对齐字幕声音”。

特别提醒:取消所有对齐后,您的配音时长可能与原视频画面不匹配,最终视频可能出现声音先结束、画面还在播放,或画面先结束、声音还在说的情况。这是为了保留您手动时间轴付出的代价。如果需要兼顾同步性,建议使用单视频交互模式(只选一个视频),在配音完成后弹出的校对框中手动微调每句字幕的起止时间,该模式下软件不会覆盖您的手动修改。

我记得是勾选的配音加速,对齐字幕声音,没有这个问题,就是声音有些失真,后来听你的,取消配音加速,使用删除字幕间静音,就造成这个原因了

您遇到的问题根本原因是:“删字幕间静音”缩短了配音总时长,而 “对齐字幕声音”又强制把字幕时间轴拉长匹配原视频,两者一冲突,导致语音早就播完,画面还在继续。

  • “删字幕间静音”:移除每条配音前后的静音缓冲,配音总时长大幅缩短,比原视频短很多。
  • “对齐字幕声音”:强制让字幕时间轴和配音的实际播出时间对齐,于是软件会把你手动调整过的精确时间轴重新覆盖成更短的时间轴(因为配音变短了,字幕也得跟着短),这就造成了你看到的“顺序乱套”—字幕时间被软件改短,而画面还在按原视频播放,所以语音先播完,画面后结束。

以前没这个问题:因为你之前同时勾选了“配音加速”+“对齐字幕声音”,配音加速会强制拉长配音(加速后时长不变或更长),不会产生时长缩短的错位,只是声音失真。现在你取消了加速,改用“删字幕间静音”,配音变短但画面没加速,自然不同步。


解决方案(选一个最适合你的)

方案操作(勾选/取消)效果不足
A:保留手动时间轴,彻底关闭所有同步(推荐如果你非常在意微调的时间轴)取消全部:配音加速、视频慢速、删字幕间静音、对齐字幕声音、二次识别完全保留你手动修正的时间轴,配音不切静音,时长接近原音配音和画面可能仍然不同步(如果配音时长和原音差异大)
B:用“视频慢速”替代“配音加速”(最平衡的方案)勾选 视频慢速,取消配音加速、删字幕间静音、对齐字幕声音、二次识别视频画面放慢等待配音播完,无失真,同步好最终视频体积会增大数倍,且较耗时
C:重新启用“配音加速”,但降低加速倍数(如果你能接受轻微失真)勾选 配音加速、对齐字幕声音;取消视频慢速、删字幕间静音、二次识别;
并进入 菜单→工具→高级选项→字幕声音画面对齐,将“音频加速最大倍数”从100改为50或30
配音加速幅度小,失真减轻,同步仍可能有轻微变调,但好过100倍

最佳实践建议:如果您只处理单个视频,推荐改用单视频交互模式:只选一个视频,在配音完成后弹出的校对框中,根据实际配音波形手动微调每句字幕的起止时间,这样既保留手动时间轴的精确性,又能实现自然同步(软件不会自动覆盖)。

如果但视频交互模式,通过手动调整,工作量太大了,有没有比较好的,推荐一点的方案,因为首次识别的英语,肯定需要二次调整和优化的,尽量做到声音同步,有没有最优的方案

针对您需求的最佳方案(兼顾同步与失真,同时减少手动调整量): 启用视频慢速,搭配限制幅度的配音加速,并关闭所有可能覆盖时间轴的选项

这套组合能让软件自动处理绝大部分同步问题,您只需在必要环节全局校对一次,无需逐句微调。

推荐配置

选项设置说明
配音加速勾选保留有限加速,用于弥补微小差异
视频慢速勾选当配音仍然偏长时,画面自行降速等待,这是保持自然语速的关键
删字幕间静音不勾选避免因移除静音导致配音整体缩短
对齐字幕声音不勾选让软件不再强制修改字幕时间轴,允许手动调整的时间轴被保留(如果后续不手动调时间轴,此项可忽略)
二次识别不勾选避免配音后软件重新生成字幕覆盖您的手动修正
高级选项→音频加速最大倍数设为 3050(默认100)大幅限制加速幅度,减轻失真

操作顺序建议

  1. 主界面:勾选“配音加速” + “视频慢速”,取消“删字幕间静音”和“对齐字幕声音”。
  2. 菜单→工具→高级选项→字幕声音画面对齐:将“音频加速最大倍数”改为 30(数值可调,越小越保真,但可能仍有部分不同步)。
  3. 语音识别:选择高质量ASR模型(如对于英文视频首选 faster-whisper(本地)+large-v3),若背景嘈杂可开启“降噪”。
  4. 翻译:选用AI翻译(如DeepSeek、OpenAI),并勾选“发送完整字幕”,能有效提升翻译准确性与语言流畅性,减少后期二次校正的需求。
  5. 配音:选择Edge-TTS免费渠道,角色按需选择。如需更自然效果可考虑本地TTS(如F5-TTS、CosyVoice等),但会增加处理时间。
  6. 交互编辑:单视频模式下,软件在翻译后、配音后均会弹出编辑框。您可以只在字幕翻译后的编辑框中快速检查整体翻译是否恰当(而非调整时间轴),确认无误后直接继续。

额外优化(可选但推荐)

  • 恢复断句:如识别字幕有断句不佳,可尝试在“菜单→工具→高级选项→语音识别参数”中启用 LLM重新断句每批字幕行数 并用AI重新断句,能大幅提升字幕语句完整性。
  • 不使用自动时间轴修改:若您已有精确的中文时间轴,请在主界面不勾选“二次识别”,且确保“对齐字幕声音”已关闭,这样软件只会调整配音时长对应的变速/慢放,不会改写字幕时间。

最后提醒

这套方案能自动化处理95%以上的同步问题,偶尔可能会有轻微不同步(因加速倍数限制),但基本不会出现语音早于画面结束的严重错位。如果最终输出仍有个别片段不理想,可使用单视频交互模式在配音完成后弹出的校对框中对那几处手动微调,工作量极小。

VAD有两种模式,选择哪一种

VAD 的选择取决于您的视频场景和断句需求:

  • 默认 ten-vad(推荐用于大多数干净语音):对常规视频断句效果稳定,分割规则相对保守,每句字幕时长适中。
  • silero VAD(适合背景噪声较多或需要更灵敏分割):对语音起始检测更敏感,能捕捉更短的语音片段,但可能误将噪声切片为短字幕,导致字幕过碎。

操作建议
先在“菜单→工具→高级选项→语音识别参数”中选择默认 ten-vad 处理一次;如果感觉断句不理想(如字幕过长或过短),再切换为 silero 重新试一次。

请查阅相关文档:

whisper预分割 勾选还是取消?

根据您的场景(不使用声音克隆配音,且希望保留手动时间轴并追求同步),建议取消勾选“Whisper预分割音频”。取消后,Whisper 会自动处理音频,通常能获得更自然的断句效果,避免因预切分导致的字幕过碎或边界不准确,从而减轻后续手动调整的负担。若您后续需要使用 clone 配音角色,届时再重新勾选并设置最短/最长语音时长即可。

好的,我的流程是让你先识别英语语音,我会根据识别的语音,二次人工翻译,有的时候可能把相邻的两句进行合并,然后再语音识别,给我推荐最佳的设置参数,包括高级选项里面的设置

根据您先识别英语、再人工翻译合并流程,推荐以下参数以获得清晰可编辑的初始字幕:

主界面设置

  • 发音语言:手动选 English(不用 auto)
  • 目标语言:Chinese(用于后续配音,翻译渠道可关闭或任选)
  • 配音加速:不勾选(您后续会手动调整时间轴)
  • 视频慢速:不勾选
  • 删字幕间静音:不勾选
  • 对齐字幕声音:不勾选
  • 二次识别:不勾选
  • Whisper预分割音频:取消勾选
  • 单视频模式:每次只处理一个视频(默认即单视频)

高级选项(菜单 → 工具 → 高级选项 → 语音识别参数)

参数推荐值说明
VADsilero更灵敏分割,便于人工合并相邻句子
语音阈值0.5默认
最短持续时间/毫秒1000避免极短碎片,也方便您合并
最长语音持续秒数6断句适中
静音分割持续毫秒200较灵敏分割,相邻句子不易粘连
合并过短字幕到邻近勾选减少碎片,降低您合并的工作量
CUDDA加速(若有N卡)勾选加速识别

最佳操作流程

  1. 载入视频 → 设置参数 → 启动。
  2. 语音识别完成后弹出英文字幕编辑框,直接在此框内手动合并、翻译为中文(修改文字和时间轴),保存。
  3. 软件自动进行中文配音和合成,生成最终视频。

这样既避免二次识别覆盖您的时间轴,又最大化自动化程度。如果出现轻微不同步,可在单视频配音完成后的校对框中按需微调极少数条目。

但是,全部手工调整,工作量太大了,因为我每天的工作量是翻译大量课程的。

明白,您需要处理大量课程视频,完全靠手工调整时间轴不现实。下面给出完全自动化、适合批量处理且同步效果较好的参数方案,您设置好后即可批量运行,无需每步手动干预。


最终推荐方案(直接使用,无需逐句调整)

1. 主界面设置

选项设置说明
发音语言手动选择 English不要用auto
目标语言Chinese Simplified
配音加速☑ 勾选限制幅度避免严重失真(见高级选项)
视频慢速☑ 勾选自动降速等待配音,保持语速自然
删字幕间静音取消勾选防止配音总时长缩短
对齐字幕声音取消勾选让加速/减速处理,不强制改时间轴
二次识别取消勾选不覆盖已有字幕,节省时间
Whisper预分割取消勾选避免字幕过碎
单视频交互不开启批量处理时无需暂停

2. 高级选项(菜单→工具→高级选项)

语音识别参数

参数推荐值说明
VADten-vad稳定,适合批量
语音阈值0.5默认
最短持续时间/毫秒1000避免过短碎片
最长语音持续秒数6适中长度
静音分割持续毫秒500不易粘连
合并过短字幕到邻近☑ 勾选减少碎片
CUDA数据类型float16(N卡16系以下可选int8)加速+省显存
beam_size5(或3如果显存不足)精度优先
best_of5(或3)精度优先
启用上下文感知True改善断句质量

字幕声音画面对齐

参数推荐值说明
音频加速最大倍数50(范围30~50)限制加速幅度,失真可接受
视频慢放最大倍数10(默认)保留最大慢放能力

字幕翻译调整(如果使用AI翻译)

参数推荐值
AI翻译渠道每批字幕行数20
发送完整字幕☑ 勾选
AI翻译一次性翻译所有字幕行建议勾选(需对应模型支持超长上下文)
翻译后暂停秒建议设为1~2(避免限流)

3. ASR与翻译渠道选择(英语→中文)

  • ASRfaster-whisper(本地) + large-v3模型(若显存≥8GB),若显存不足则用medium
  • 翻译:推荐 DeepSeekOpenAI ChatGPT(质量最好,勾选“发送完整字幕”),其次可选免费的 微软翻译Google翻译(国内需代理)

4. 批量处理建议

  • 主界面:可选择多个视频(Ctrl多选)或勾选“文件夹”批量处理
  • 高级选项 → 通用设置 → 勾选 批量翻译时强制串行(避免资源耗尽)
  • 高级选项 → 通用设置 → 批量翻译视频时每批数量 设为 1(稳妥)

效果预期

  • 同步性:通过有限加速(最多50%)+视频慢速(最多10倍),绝大多数字幕能与配音自然对齐,不会出现“语音播完画面还在跑”的严重问题。
  • 音质:加速限制在50倍,失真轻微,远好于100倍加速。
  • 操作量:配置一次后,后续只需将视频拖入软件,点击“开始任务”,即可批量完成。您只需在翻译完成后快速浏览一遍字幕(如有必要可稍作文字修正),无需调整时间轴。

如果仍有极少数片段效果不理想,可单独对该视频启用单视频交互模式,仅针对那几处校对,工作量极小。

faster-whisper(本地) + large-v3 turbo 模型

large-v3 turbo 是在 large-v3 基础上通过架构优化(如减少解码层数)实现的加速版本,识别精度相比原版略有下降,但处理速度可提升 2~3 倍,显存占用也更低。对于您的批量课程翻译场景(每天大量视频),推荐使用 large-v3 turbo,它能够在保证可接受准确率的前提下显著提升效率。如果发现某些视频识别结果不理想(例如专业术语或口音较重),可以再回退到完整 large-v3 单独处理。若您始终不满,建议在语音识别后开启一次 LLM 重新断句(高级选项→语音识别参数→选择 AI渠道并设置每批行数),可大幅改善识别文本的断句质量。总结:对于批量自动化处理,优先选 large-v3 turbo;追求极致准确率时用 large-v3。

我看到有个参数,配音语速+% 这和对齐没有关系吧

配音语速+% 直接影响对齐,因为它会改变每句配音的播放时长。增加语速(正值,如 +20%)会缩短配音总时长,减少与画面的延迟;降低语速(负值,如 -20%)会延长配音,可能加剧不同步。在您目前使用 配音加速 + 视频慢速 的方案中,建议保持配音语速为 0(默认),让加速/慢速功能自动处理时长差异。除非您发现所有配音普遍偏快或偏慢,否则手动调整语速会与自动加速机制冲突,导致不可控的结果。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update. Dondate: ko-fi.com/jianchang512

Related resource