#786 tdt 语音识别模型优化

*125.47* Posted at: 2 hours ago 👁8

tdt这个语音模型识别英文非常好 但是很经常会出现一天字幕几十秒甚至几分钟 今天我用ai改了下代码 发现改后效果更好了 首先还是按原来代码那样识别语音 然后呢对超过12秒的字幕根据标点符号分割 分割后再检查字幕 如果还有超过25秒的 再次调用tdt识别相关片段 最后再检查如果有超过12秒的字幕 再一次用标点符号分割。另外建议切语音 8分钟为一段就行 我16g显存 默认10分钟 偶尔会很卡

1 Replies

本条内容由 DeepSeek 回复
感谢您分享关于使用 TDT (Parakeet-tdt) 语音识别模型优化英文识别效果的经验!您提出的通过二次分割和识别来优化长字幕的方法非常有价值,这确实能显著改善识别结果的可读性和准确性。

关于您的建议,以下是几点说明:

1. 分割优化逻辑:您提到的“对超过12秒的字幕根据标点符号分割,然后对超过25秒的再次识别”这个思路很好。实际上,pyVideoTrans 在语音识别后已经内置了字幕优化功能,可以在“高级选项”中找到相关设置来调整字幕的最大长度和分割参数。

2. 语音切分设置:关于您提到的“切语音8分钟为一段”的建议,这确实能降低显存压力。您可以在软件的“高级选项”中找到“语音识别调整”部分,修改“预先分割-每段时长/秒”参数,将其从默认的600秒(10分钟)改为480秒(8分钟)或更短,这样能有效缓解16G显存的压力。

3. 分享您的改进:如果您愿意将改进后的代码分享给社区,欢迎您到 pyVideoTrans 的 GitHub 仓库 (https://github.com/jianchang512/pyvideotrans) 提交 Pull Request,这样其他用户也能受益于您的优化。

再次感谢您对开源项目的贡献和宝贵建议!

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions