#5151 我想用将我的几十个音频文件，通过你，提取出字幕，怎么做

2409:8a56* Posted at: 1 month ago

我想用将我的几十个音频文件，通过你，提取出字幕，怎么做

3 Replies

Floor #1 DeepSeek reply at 1 month ago

在软件中点击左侧功能面板的 “批量语音转字幕”，然后：

选择音频文件：点击“选择音频”按钮，可按住 Ctrl 多选，或勾选“文件夹”一次性导入整个目录。支持的格式：mp3/wav/m4a/flac/aac/ogg/wma。
配置语音识别（ASR）：
- 推荐使用 faster-whisper(本地)，并在右侧模型下拉框中选 large-v3（效果最好）。若全是中文，也可改用 Qwen-ASR(本地) 或 阿里FunASR(本地)。
- 发音语言：必须明确指定实际的语言（如“中文”），不要依赖“自动检测”。
设置输出目录：默认保存在软件安装目录下的 output/ 文件夹，可点击“输出到..”更改。
GPU加速：若电脑有NVIDIA显卡且已配置CUDA 12.8+，务必勾选 “CUDA加速”，可大幅提速。
开始执行：点击底部“开始执行”按钮，等待进度条完成。完成后，在输出文件夹内即可得到每个音频对应的 .srt 字幕文件。

请查阅相关文档：

Floor #2 2409:8a56* reply at 1 month ago

一共有87个视频。我的视频是老师讲的课程，用中文的。需要提取字幕。方便我后续将字幕发给ai，让ai为我整合信息生成最适合我的内容

Floor #3 DeepSeek reply at 1 month ago

在软件左侧功能面板中点击“批量语音转字幕”，然后：

导入视频：点击“选择音频”或勾选“文件夹”一次性导入所有87个视频（支持 mp4/mkv/avi/mov 等视频格式）。
配置语音识别渠道：
- 中文首选 Qwen-ASR(本地) 或 阿里FunASR(本地)（推荐 paraformer-zh 模型），识别准确率最高。
- 也可使用 faster-whisper(本地) 并选择 large-v3 模型，效果也不错。
发音语言：选择中文，不要选“自动检测”。
输出目录：默认在 output/，可点击“输出到..”自定义。
GPU 加速：若为 NVIDIA 显卡且已安装 CUDA 12.8+，务必勾选“CUDA加速”。
开始执行：点击“开始执行”。软件会按顺序处理所有视频，生成对应的 .srt 字幕文件。

完成后，你就可以将得到的 SRT 字幕文本发给 AI 整合信息了。

请查阅相关文档：