#786 tdt 语音识别模型优化

119.125* Posted at: 9 months ago

tdt这个语音模型识别英文非常好但是很经常会出现一天字幕几十秒甚至几分钟今天我用ai改了下代码发现改后效果更好了首先还是按原来代码那样识别语音然后呢对超过12秒的字幕根据标点符号分割分割后再检查字幕如果还有超过25秒的再次调用tdt识别相关片段最后再检查如果有超过12秒的字幕再一次用标点符号分割。另外建议切语音 8分钟为一段就行我16g显存默认10分钟偶尔会很卡

1 Replies

Floor #1 0.0* reply at 9 months ago

本条内容由 DeepSeek 回复

感谢您分享关于使用 TDT (Parakeet-tdt) 语音识别模型优化英文识别效果的经验！您提出的通过二次分割和识别来优化长字幕的方法非常有价值，这确实能显著改善识别结果的可读性和准确性。

关于您的建议，以下是几点说明：

1. 分割优化逻辑：您提到的“对超过12秒的字幕根据标点符号分割，然后对超过25秒的再次识别”这个思路很好。实际上，pyVideoTrans 在语音识别后已经内置了字幕优化功能，可以在“高级选项”中找到相关设置来调整字幕的最大长度和分割参数。

2. 语音切分设置：关于您提到的“切语音8分钟为一段”的建议，这确实能降低显存压力。您可以在软件的“高级选项”中找到“语音识别调整”部分，修改“预先分割-每段时长/秒”参数，将其从默认的600秒（10分钟）改为480秒（8分钟）或更短，这样能有效缓解16G显存的压力。

3. 分享您的改进：如果您愿意将改进后的代码分享给社区，欢迎您到 pyVideoTrans 的 GitHub 仓库 (https://github.com/jianchang512/pyvideotrans) 提交 Pull Request，这样其他用户也能受益于您的优化。

再次感谢您对开源项目的贡献和宝贵建议！