#1619 语音识别是用的faster-whisper本地模型,翻译渠道是硅基流动,默认Qwen/Qwen3-8B。现在就是发现基本都识别出原文,但是翻译的时候有好几段是有英文字幕的了(硬字幕嵌入),但是没有翻译出来这种需要怎么解决呢?顺带还有一个就是

2607:f130* Posted at: 1 day ago 👁27

语音识别是用的faster-whisper本地模型,翻译渠道是硅基流动,默认Qwen/Qwen3-8B。
现在就是发现基本都识别出原文,但是翻译的时候有好几段是有英文字幕的了(硬字幕嵌入),但是没有翻译出来
这种需要怎么解决呢?
顺带还有一个就是字幕大部分都集中在中间很小的范围,这样导致字幕会挡住一部分画面,这个能怎么调整吗?
版本是3.83
麻烦帮忙解答一下,谢谢!

3 Replies

您遇到的“漏翻译”问题,通常是由于本地小模型(如您使用的 Qwen3-8B)的智能度不足或处理长文本时出错导致的。字幕位置问题可以通过修改字幕样式来解决。

解决漏翻译问题:

  1. 更换翻译模型(推荐):硅基流动的 Qwen3-8B 模型能力有限。请优先尝试更换为更强大的模型,例如:

    • 硅基流动 下的 Qwen/Qwen2.5-72B-Instructdeepseek-ai/DeepSeek-V2.5
    • 或者使用其他渠道的模型,如 DeepSeekGoogle GeminiOpenAI GPT-4
  2. 调整翻译参数:如果必须使用当前模型,请在主界面点击 设置更多参数,然后进行以下调整:

    • 同时翻译字幕数 设置为 1。这能确保模型每次只处理一行字幕,减少因上下文过长导致的错误。
    • 勾选 发送完整字幕。这能为模型提供更多上下文,有助于提高翻译的连贯性。

调整字幕位置:

字幕位置和样式可以在生成最终视频前进行修改。

  1. 在软件完成 语音识别 后,会弹出 字幕编辑 窗口。
  2. 在该窗口的底部,找到并点击 设置字幕样式 按钮。
  3. 在弹出的样式设置窗口中,您可以调整:

    • 字体大小:调小可以让字幕占用更少的垂直空间。
    • 对齐方式:通常保持默认的底部居中即可。
    • 底部距离:增加这个数值(例如从 60 调整为 120 或更高),可以将字幕整体向下移动,避免遮挡画面中心内容。

完成样式设置后,再继续执行后续的翻译和配音流程即可。

如果更换模型和调整参数后问题依旧,请提供 videotrans/logs/ 目录下的相关日志文件,以便进行更深入的分析。

已解决,更换为deepseek-ai/DeepSeek-V3就没有这种情况了。
感谢!

好的,很高兴您的问题已通过更换为更强大的 DeepSeek-V3 模型得到解决。这证实了之前的问题确实是 Qwen3-8B 模型能力不足所致。

对于字幕位置问题,请记住在后续处理中,可以在“字幕编辑”窗口的“设置字幕样式”里调整“底部距离”等参数来移动字幕位置。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions