#4129 v3.98升至v3.99后，语音识别和翻译结果怎么比之前更差？

2409:8a55* Posted at: 2 months ago

比如3.98版本的翻译结果是：想要创建清晰的线条和丝滑流畅的动作？
3.99版本的翻译结果：线条流畅，动作丝滑。

Floor #1 DeepSeek reply at 2 months ago

升级后翻译质量下降通常与“发送完整字幕”和“AI翻译渠道每批字幕行数”等高级设置的变动有关。v3.99版本可能调整了默认参数或引入了新的处理逻辑，导致AI模型接收的上下文信息不同，从而影响了翻译的完整性和准确性。

请按以下步骤检查和调整设置：

检查并调整“发送完整字幕”选项：
- 在主界面，确保已勾选 “发送完整字幕”。此选项会将带时间轴的完整SRT字幕发送给AI，有助于利用上下文提高翻译质量。
- 同时，进入 菜单 -> 工具/选项 -> 高级选项，在【字幕翻译调整】区域，确认 “AI翻译附带完整原字幕” 选项也已勾选。
调整“AI翻译渠道每批字幕行数”：
- 在 菜单 -> 工具/选项 -> 高级选项 -> 【字幕翻译调整】 中，找到 “AI翻译渠道每批字幕行数”。
- 将该值调大（例如设为 100 或更大），以确保AI在一次请求中能接收到更完整的上下文，从而生成更连贯、准确的翻译。注意：此设置要求您使用的AI模型（如GPT-4、DeepSeek-V3等）支持超长上下文。
验证翻译渠道和模型：
- 确认您使用的AI翻译渠道（如DeepSeek、ChatGPT）和模型名称在升级后没有发生变化或配置错误。可在 菜单 -> 翻译设置 中检查对应渠道的API密钥和模型设置。
尝试重新处理：
- 在调整上述设置后，返回主界面，勾选左上角的 “清理已生成” 复选框，然后重新处理视频，以强制软件使用新设置重新进行识别和翻译，而不是读取旧的缓存结果。

如果调整后问题依旧，可能是特定版本在处理某些提示词或上下文时存在差异。您可以提供更详细的日志信息以便进一步分析。

请查阅相关文档：

Floor #2 2409:8a55* reply at 2 months ago

语音识别也是，识别的不准确，甚至离谱

Floor #3 DeepSeek reply at 2 months ago

语音识别不准确可能由多种因素导致，包括模型选择、参数设置、音频质量或环境噪音。请按以下步骤排查和优化：确保选择正确的“发音语言”：在主界面“发音语言”下拉菜单中，必须明确选择与视频中人物说话语言一致的选项。不要依赖“自动检测”（该功能在视频翻译中已移除），错误的选择会严重影响识别率。选择合适的语音识别模型和配置：对于中文视频，推荐使用 “qwen-asr(本地)” 渠道。对于非中文视频（尤其是英语），推荐使用 “faster-whisper(本地)” 并选择 “large-v3” 模型。在菜单 -> 工具/选项 -> 高级选项 -> 【语音识别参数】中，进行如下优化设置：将 “语音阈值” 设为 0.5。将 “最短语音持续毫秒” 设为 3000（如果后续使用克隆配音，此值必须≥3000）。将 “最长语音持续秒数” 设为 6（不要大于30）。将 “静音分割持续毫秒” 设为 500。如果视频背景噪音较大，可在主界面勾选 “降噪” 选项。如果希望识别出的字幕更短小，可适当降低 “最长语音持续秒数”（如设为3），并考虑开启主界面的 “二次识别”（在配音完成后会再次识别生成精准字幕）。检查CUDA加速和显存：如果使用本地模型（如faster-whisper），请确保主界面已勾选 “CUDA加速”，并且您的NVIDIA显卡已正确安装CUDA 12.8环境。如果遇到显存不足错误，请尝试使用更小的模型（如将large-v3换为medium），或参考FAQ调整高级选项中的CUDA数据类型、beam_size等参数。尝试重新处理：在调整设置后，返回主界面，务必勾选左上角的 “清理已生成” 复选框，然后重新选择视频进行处理，以确保软件使用新配置重新识别，而不是读取旧的错误缓存。如果以上步骤均无法解决问题，可能是音频本身质量极差或含有特殊口音/术语。请提供软件 logs 文件夹中最新日志文件的底部约30行报错或警告信息，以便进一步分析。请查阅相关文档：语音识别模型介绍与选择总是提示显存不足优化断句效果，调整语音识别时的字幕时长

Floor #4 2409:8a55* reply at 2 months ago

关键是这两个版本我特意把所有参数设置都同步统一了，也就是完全相同的配置

Floor #5 DeepSeek reply at 2 months ago

在参数完全一致的情况下，v3.98与v3.99版本在语音识别和翻译质量上出现显著差异，最可能的原因是软件内部依赖的底层AI模型库或处理逻辑在升级时发生了变动。这并非用户配置问题，而是软件更新引入的潜在变化。

核心原因分析：

模型版本更新：faster-whisper、openai-whisper 或 qwen-asr 等本地识别模型，以及用于翻译的AI接口库（如 openai、requests 等）可能在v3.99中更新到了新版本。新版本模型在断句、语义理解或API响应解析上可能存在细微差异，导致输出结果不同。
内部处理逻辑调整：v3.99可能优化或修改了字幕预处理、文本发送格式、后处理（如标点恢复、繁简转换）等内部代码，这些改动虽未体现在用户界面参数上，但会直接影响最终结果。
随机性因素：某些AI模型（特别是大语言模型）本身具有随机性（由“温度”参数控制）。即使参数相同，两次独立运行的输出也可能不完全一致。

解决方案：

验证并回退模型：检查软件 models/ 目录下的模型文件日期。如果v3.99自动下载了新版模型，可以尝试手动替换为v3.98使用的相同版本模型文件（需确保文件夹命名正确）。
调整高级参数以适配新版本：虽然界面参数“同步”了，但新版本可能对某些参数的敏感度不同。请尝试进行针对性调整：
- 针对语音识别：在菜单 -> 工具/选项 -> 高级选项 -> 【语音识别参数】中，尝试微调 语音阈值（如从0.5调整为0.3或0.6）、no speech threshold（减小可降低幻觉）、重复惩罚（增大该值减少重复）。
- 针对AI翻译：在同一高级选项的【字幕翻译调整】中，尝试调整 AI翻译模型温度值（降低温度如设为0.1可减少随机性，但可能使译文呆板）。
提交反馈：如果差异严重影响使用，且非模型随机性导致，这可能是新版本的Bug。请通过软件报错弹窗的“报告错误”功能，或复制 logs 目录下最新日志文件（包含任务ID和详细处理记录）的底部内容，向开发者反馈此“版本升级后结果不一致”的问题。
临时使用旧版本：如果v3.98的结果更符合您的需求，且v3.99的改动对您非必需，可暂时继续使用v3.98版本，并关注后续版本更新日志中是否修复了此问题。

请查阅相关文档：

Floor #6 2409:8a55* reply at 2 months ago

重复惩罚多少合适

Floor #7 DeepSeek reply at 2 months ago

“重复惩罚”参数的合适值取决于具体任务和模型，没有绝对标准。它是一个需要根据输出效果进行微调的实验性参数。参数说明与建议范围：参数作用：“重复惩罚”用于抑制模型生成重复的词汇或短语。增大该值可以减少重复，但设置过高可能导致生成不流畅或遗漏合理重复的内容。建议范围：默认值通常为 1.0。调整范围一般在 1.0 到 1.5 之间。您可以以 0.1 或 0.2 为步进进行尝试。操作步骤：打开菜单 -> 工具/选项 -> 高级选项。在【语音识别参数】区域找到 “重复惩罚”。如果当前识别结果重复词句过多，尝试将该值从默认的 1.0 逐步提高，例如设为 1.1 或 1.2。每次修改后，务必在主界面勾选 “清理已生成”，然后重新处理视频以观察效果。注意事项：此参数主要影响使用本地 Whisper 系列模型（faster-whisper, openai-whisper）时的识别结果。对于其他识别渠道（如在线API），此参数可能无效。调整此参数时，建议同步关注 “文本压缩率” 参数（减小该值也有利于减少重复）。如果识别结果的主要问题是准确度低（乱码、错误）而非重复，则应优先检查“发音语言”选择、模型大小、音频质量或“语音阈值”等更基础的设置。最佳实践是先解决基础识别率问题，再使用“重复惩罚”进行微调。请查阅相关文档：优化断句效果，调整语音识别时的字幕时长

#4129 v3.98升至v3.99后，语音识别和翻译结果怎么比之前更差？

7 Replies

请查阅相关文档：

Post Your Reply

Related resource