#2300 语音识别：阿里FunASR（本地）中paraformer-zh,sensevoicesmall,fun-Asr-nano-2512哪个好

240e:36a* Posted at: 2 months ago 👁169

语音识别：阿里FunASR（本地）中paraformer-zh,sensevoicesmall,fun-Asr-nano-2512哪个好

Floor #1 DeepSeek AI reply at 2 months ago

在阿里FunASR（本地）的模型中，选择哪个更好主要取决于您的具体需求：

paraformer-zh：这是最推荐的选项。它是专门为中文语音识别优化的模型，在中文场景下准确率最高，效果最好。如果您处理的视频主要是中文，应优先选择此模型。
sensevoicesmall：这是一个多语言模型，支持中、英、日等多种语言。如果您处理的视频包含多种语言混合（例如中英夹杂），或者不确定视频语言，可以选择此模型。它在多语言场景下表现更均衡。
fun-Asr-nano-2512：这是一个更轻量级的模型，体积小，识别速度可能更快，但准确率相对较低。如果您的设备性能较弱（如CPU较慢、内存较小），或者对识别速度有极高要求且可以接受一定的准确率损失，可以考虑此模型。

总结建议：

纯中文视频 -> 选 paraformer-zh。
多语言/不确定语言 -> 选 sensevoicesmall。
设备性能差，追求速度 -> 选 fun-Asr-nano-2512。

您可以在软件中分别尝试这几个模型，对比识别结果的准确性。

相关文档链接：阿里FunASR中文识别

Floor #2 240e:36a* reply at 2 months ago

只要字幕并保留原视频声音

Floor #3 DeepSeek AI reply at 2 months ago

您需要的是“仅生成字幕文件，不改变原视频声音”的功能。请按以下步骤操作：

在软件主界面，点击顶部菜单栏的工具。
在下拉菜单中选择 工具箱。
在弹出的工具箱窗口中，选择 转录并翻译字幕 功能。
在该功能界面中：
- 导入您的视频文件。
- 配置好 语音识别 和翻译设置。
- 不要配置 任何配音（TTS）设置。
- 点击开始按钮。

软件将仅执行语音识别和翻译，最终在视频同目录下生成 .srt 格式的字幕文件，而不会修改原视频的声音或生成新的配音视频。

相关文档链接：翻译字幕功能

Floor #4 240e:36a* reply at 2 months ago

原视频有中文字幕及中文发音，我想在新视频中保留原视频声音，并配上英文字幕

Floor #5 DeepSeek AI reply at 2 months ago

您需要“保留原视频的中文声音，同时生成并嵌入英文字幕”。请按以下步骤操作：在主界面，导入您的视频。在第2行：语音识别 (ASR) 中，选择识别模型（例如 faster-whisper），并将发音语言设置为中文 (zh)。在第3行：翻译设置中，选择翻译渠道（例如 Google），将目标语言设置为英语 (en)。在第4行：配音 (TTS) 中，不要选择任何配音角色，保持为“No”。在第5行：同步与字幕显示中，将字幕形式设置为嵌入硬字幕或嵌入软字幕。确保配音加速和视频慢速都未勾选。在第6行：执行与编辑中，点击开始。软件将识别原视频的中文语音，翻译成英文字幕，然后将英文字幕嵌入到原视频中，同时保留原始的中文声音。相关文档链接：视频翻译功能

Floor #6 240e:36a* reply at 2 months ago

语音识别，对中文语音识别最好的模型是哪个？至少比阿里FunASR（本地）好

Floor #7 DeepSeek AI reply at 2 months ago

根据官方文档和社区反馈，对于中文语音识别，目前效果最好的模型是 阿里FunASR（本地） 中的 paraformer-zh 模型。它专门针对中文进行了深度优化，在中文场景下的准确率通常优于其他通用模型。

如果您想寻找比 FunASR 的 paraformer-zh 效果更好的选择，可以考虑以下 在线API渠道，它们通常基于更大的数据和模型，效果可能更优，但需要网络和API密钥：

阿里百炼 Qwen3-ASR：这是阿里云最新的语音识别大模型，效果非常出色。
字节火山语音识别大模型极速版：字节跳动的模型，对中文支持很好。
OpenAI Whisper API：效果稳定，支持多种语言，中文识别准确率高。
Google Speech Recognition：需要网络代理，效果也不错。

总结建议：

追求最佳本地效果：坚持使用 阿里FunASR（本地）的 paraformer-zh。
追求极致在线效果：尝试 阿里百炼 Qwen3-ASR 或 字节火山 的在线API。

您可以在软件的“语音识别”设置中选择这些在线渠道，并前往对应平台申请API密钥进行测试对比。

Floor #8 240e:36a* reply at 2 months ago

阿里FunASR（本地）把人声和动物声都揉到一起了

Floor #9 DeepSeek AI reply at 2 months ago

阿里FunASR（本地）模型将人声和动物声识别在一起，通常是因为 VAD（语音活动检测）参数设置过于灵敏，导致非人声也被当作有效语音片段截取。请按以下步骤调整：

调整VAD参数（核心解决步骤）：
- 在软件主界面，点击工具 -> 选项 -> 高级选项。
- 找到 Faster/OpenAI/Whisper 语音识别微调 区域。
- 调整以下两个关键参数：
  - 语音阈值：调高此值（例如从默认的 0.45 改为 0.6 或更高）。数值越大，对“什么是语音”的判断越严格，能更好过滤掉动物叫声等背景噪音。
  - 静音分割持续毫秒：可以适当调大（例如从 140 改为 200 或 300）。这会让模型在更长的静音后才进行切分，避免将短暂的动物叫声单独切为一个片段。
启用降噪预处理：
- 在主界面 第7行：快速参数 中，勾选降噪选项。这会在识别前对音频进行预处理，削弱背景噪音。
考虑使用“人声分离”功能：
- 如果动物叫声持续且干扰严重，可以勾选 第7行 的 人声分离。此功能会尝试将人声和背景音（包括动物声）分离，仅对人声部分进行识别。注意：此功能处理耗时较长。
更换识别模式：
- 在主界面 第2行，将识别模式从 整体识别 切换到 批量推理。后者按固定时长切分音频，有时能减少VAD误判带来的影响。

调整后，请重新处理视频观察效果。如果问题依旧，可能需要检查音频本身是否动物声与人声重叠度过高。

Floor #10 240e:36a* reply at 2 months ago

一般2M的文件用阿里FunASR（本地）要610秒

Floor #11 DeepSeek AI reply at 2 months ago

处理一个2MB的文件需要610秒（约10分钟），这个速度对于阿里FunASR（本地）来说非常不正常，通常意味着运行环境或配置存在问题。请按以下步骤排查和解决：检查CUDA加速是否启用：在主界面第6行，确保 CUDA加速 已勾选。如果没有NVIDIA显卡或CUDA环境，此选项应保持未勾选状态，软件会自动使用CPU。但CPU模式也会比这个速度快。检查模型是否已正确下载：首次使用FunASR时，需要下载模型文件。请观察软件运行时的日志窗口，看是否有模型下载进度或错误提示。模型文件较大，如果网络慢或下载中断，会导致后续识别异常缓慢。您可以尝试手动下载模型。检查是否与其他进程冲突：在任务管理器（Windows）或活动监视器（Mac）中，查看CPU和内存占用情况。确保没有其他大型程序（如游戏、视频编辑软件）在后台占用大量资源。尝试重启软件和电脑。使用更轻量的模型：在阿里FunASR（本地）的模型选择中，尝试切换到更小的模型，例如 fun-Asr-nano-2512。这个模型体积小，推理速度会快很多，虽然准确率略有牺牲。检查音频文件格式：虽然文件只有2MB，但如果音频编码非常特殊或采样率极高，也可能影响处理速度。您可以尝试用格式工厂等工具将音频转换为标准的 WAV（PCM 16kHz） 格式再试。查看详细日志：打开软件目录下的 logs 文件夹，查看最新的日志文件，里面可能有更详细的错误或警告信息。如果以上步骤无法解决，请提供日志文件内容以便进一步分析。相关文档链接：阿里FunASR中文识别

Floor #12 240e:36a* reply at 2 months ago

CUDA加速已勾选

Floor #13 DeepSeek AI reply at 2 months ago

CUDA加速已勾选但处理速度极慢，这通常指向CUDA环境配置问题或模型加载异常。请按以下步骤排查：

验证CUDA和cuDNN安装：
- 打开命令提示符（CMD），输入 nvidia-smi 查看CUDA版本。
- 确保安装的CUDA版本与PyTorch等深度学习库兼容。FunASR通常需要CUDA 11.8或更高版本。
- 关键步骤：访问官方文档，按照指引重新安装或验证CUDA及cuDNN：windows上安装CUDA12.6和cuDNN9.8。
检查PyTorch是否为GPU版本：
- 在软件运行后，查看日志窗口或 logs 文件夹内的日志。搜索“CUDA”、“GPU”等关键词，确认PyTorch是否成功检测到GPU。
- 如果日志显示“Running on CPU”，则说明PyTorch是CPU版本，需要重新安装GPU版本的PyTorch。
降低模型精度以提升速度：
- 在 工具 -> 选项 -> 高级选项 中，找到 Faster/OpenAI/Whisper 语音识别微调 区域。
- 将 CUDA数据类型 从 float32 改为 float16 或 int8。这能显著减少显存占用并提升推理速度。
尝试其他模型或识别渠道：
- 暂时切换到 faster-whisper(本地) 模型（如 small 或 medium），并勾选CUDA加速，测试速度是否正常。这有助于判断问题是FunASR特有还是全局CUDA问题。
- 或者，暂时取消勾选CUDA加速，使用CPU运行FunASR，对比速度。如果CPU速度反而更快，则强烈表明GPU驱动或库存在问题。
查看任务管理器：
- 处理时打开任务管理器，在“性能”选项卡中查看GPU（通常是“GPU 0-3D”或“GPU 0-Copy”）的利用率。如果利用率始终很低（例如低于20%），则GPU未有效工作。

请优先执行第1步和第2步。如果重新配置CUDA环境后问题依旧，请提供 logs 文件夹下最新日志文件的内容。

#2300 语音识别：阿里FunASR（本地）中paraformer-zh,sensevoicesmall,fun-Asr-nano-2512哪个好

13 Replies

Post Your Reply

Related resource