#2300 语音识别:阿里FunASR(本地)中paraformer-zh,sensevoicesmall,fun-Asr-nano-2512哪个好

240e:36a* Posted at: 2 hours ago 👁18

语音识别:阿里FunASR(本地)中paraformer-zh,sensevoicesmall,fun-Asr-nano-2512哪个好

13 Replies

在阿里FunASR(本地)的模型中,选择哪个更好主要取决于您的具体需求:

  1. paraformer-zh:这是最推荐的选项。它是专门为中文语音识别优化的模型,在中文场景下准确率最高,效果最好。如果您处理的视频主要是中文,应优先选择此模型。
  2. sensevoicesmall:这是一个多语言模型,支持中、英、日等多种语言。如果您处理的视频包含多种语言混合(例如中英夹杂),或者不确定视频语言,可以选择此模型。它在多语言场景下表现更均衡。
  3. fun-Asr-nano-2512:这是一个更轻量级的模型,体积小,识别速度可能更快,但准确率相对较低。如果您的设备性能较弱(如CPU较慢、内存较小),或者对识别速度有极高要求且可以接受一定的准确率损失,可以考虑此模型。

总结建议

  • 纯中文视频 -> 选 paraformer-zh
  • 多语言/不确定语言 -> 选 sensevoicesmall
  • 设备性能差,追求速度 -> 选 fun-Asr-nano-2512

您可以在软件中分别尝试这几个模型,对比识别结果的准确性。

相关文档链接:阿里FunASR中文识别

只要字幕并保留原视频声音

您需要的是“仅生成字幕文件,不改变原视频声音”的功能。请按以下步骤操作:

  1. 在软件主界面,点击顶部菜单栏的 工具
  2. 在下拉菜单中选择 工具箱
  3. 在弹出的工具箱窗口中,选择 转录并翻译字幕 功能。
  4. 在该功能界面中:

    • 导入您的视频文件。
    • 配置好 语音识别翻译 设置。
    • 不要配置 任何配音(TTS)设置。
    • 点击 开始 按钮。

软件将仅执行语音识别和翻译,最终在视频同目录下生成 .srt 格式的字幕文件,而不会修改原视频的声音或生成新的配音视频。

相关文档链接:翻译字幕功能

原视频有中文字幕及中文发音,我想在新视频中保留原视频声音,并配上英文字幕

您需要“保留原视频的中文声音,同时生成并嵌入英文字幕”。请按以下步骤操作:在主界面,导入您的视频。在 第2行:语音识别 (ASR) 中,选择识别模型(例如 faster-whisper),并将 发音语言 设置为 中文 (zh)。在 第3行:翻译设置 中,选择翻译渠道(例如 Google),将 目标语言 设置为 英语 (en)。在 第4行:配音 (TTS) 中,不要选择任何配音角色,保持为“No”。在 第5行:同步与字幕显示 中,将 字幕形式 设置为 嵌入硬字幕 或 嵌入软字幕。确保 配音加速 和 视频慢速 都未勾选。在 第6行:执行与编辑 中,点击 开始。软件将识别原视频的中文语音,翻译成英文字幕,然后将英文字幕嵌入到原视频中,同时保留原始的中文声音。相关文档链接:视频翻译功能

语音识别,对中文语音识别最好的模型是哪个?至少比阿里FunASR(本地)好

根据官方文档和社区反馈,对于中文语音识别,目前效果最好的模型是 阿里FunASR(本地) 中的 paraformer-zh 模型。它专门针对中文进行了深度优化,在中文场景下的准确率通常优于其他通用模型。

如果您想寻找比 FunASR 的 paraformer-zh 效果更好的选择,可以考虑以下 在线API渠道,它们通常基于更大的数据和模型,效果可能更优,但需要网络和API密钥:

  1. 阿里百炼 Qwen3-ASR:这是阿里云最新的语音识别大模型,效果非常出色。
  2. 字节火山语音识别大模型极速版:字节跳动的模型,对中文支持很好。
  3. OpenAI Whisper API:效果稳定,支持多种语言,中文识别准确率高。
  4. Google Speech Recognition:需要网络代理,效果也不错。

总结建议:

  • 追求最佳本地效果:坚持使用 阿里FunASR(本地)的 paraformer-zh
  • 追求极致在线效果:尝试 阿里百炼 Qwen3-ASR字节火山 的在线API。

您可以在软件的“语音识别”设置中选择这些在线渠道,并前往对应平台申请API密钥进行测试对比。

相关文档链接:
阿里FunASR中文识别
阿里百联Qwen3-ASR语音识别
字节语音识别大模型极速版

阿里FunASR(本地)把人声和动物声都揉到一起了

阿里FunASR(本地)模型将人声和动物声识别在一起,通常是因为 VAD(语音活动检测)参数设置过于灵敏,导致非人声也被当作有效语音片段截取。请按以下步骤调整:

  1. 调整VAD参数(核心解决步骤)

    • 在软件主界面,点击 工具 -> 选项 -> 高级选项
    • 找到 Faster/OpenAI/Whisper 语音识别微调 区域。
    • 调整以下两个关键参数:

      • 语音阈值调高此值(例如从默认的 0.45 改为 0.6 或更高)。数值越大,对“什么是语音”的判断越严格,能更好过滤掉动物叫声等背景噪音。
      • 静音分割持续毫秒:可以适当调大(例如从 140 改为 200300)。这会让模型在更长的静音后才进行切分,避免将短暂的动物叫声单独切为一个片段。
  2. 启用降噪预处理

    • 在主界面 第7行:快速参数 中,勾选 降噪 选项。这会在识别前对音频进行预处理,削弱背景噪音。
  3. 考虑使用“人声分离”功能

    • 如果动物叫声持续且干扰严重,可以勾选 第7行人声分离。此功能会尝试将人声和背景音(包括动物声)分离,仅对人声部分进行识别。注意:此功能处理耗时较长。
  4. 更换识别模式

    • 在主界面 第2行,将识别模式从 整体识别 切换到 批量推理。后者按固定时长切分音频,有时能减少VAD误判带来的影响。

调整后,请重新处理视频观察效果。如果问题依旧,可能需要检查音频本身是否动物声与人声重叠度过高。

一般2M的文件用阿里FunASR(本地)要610秒

处理一个2MB的文件需要610秒(约10分钟),这个速度对于阿里FunASR(本地)来说非常不正常,通常意味着运行环境或配置存在问题。请按以下步骤排查和解决:检查CUDA加速是否启用:在主界面 第6行,确保 CUDA加速 已勾选。如果没有NVIDIA显卡或CUDA环境,此选项应保持未勾选状态,软件会自动使用CPU。但CPU模式也会比这个速度快。检查模型是否已正确下载:首次使用FunASR时,需要下载模型文件。请观察软件运行时的日志窗口,看是否有模型下载进度或错误提示。模型文件较大,如果网络慢或下载中断,会导致后续识别异常缓慢。您可以尝试手动下载模型。检查是否与其他进程冲突:在任务管理器(Windows)或活动监视器(Mac)中,查看CPU和内存占用情况。确保没有其他大型程序(如游戏、视频编辑软件)在后台占用大量资源。尝试重启软件和电脑。使用更轻量的模型:在 阿里FunASR(本地) 的模型选择中,尝试切换到更小的模型,例如 fun-Asr-nano-2512。这个模型体积小,推理速度会快很多,虽然准确率略有牺牲。检查音频文件格式:虽然文件只有2MB,但如果音频编码非常特殊或采样率极高,也可能影响处理速度。您可以尝试用格式工厂等工具将音频转换为标准的 WAV(PCM 16kHz) 格式再试。查看详细日志:打开软件目录下的 logs 文件夹,查看最新的日志文件,里面可能有更详细的错误或警告信息。如果以上步骤无法解决,请提供日志文件内容以便进一步分析。相关文档链接:阿里FunASR中文识别

CUDA加速 已勾选

CUDA加速已勾选但处理速度极慢,这通常指向CUDA环境配置问题或模型加载异常。请按以下步骤排查:

  1. 验证CUDA和cuDNN安装

    • 打开命令提示符(CMD),输入 nvidia-smi 查看CUDA版本。
    • 确保安装的CUDA版本与PyTorch等深度学习库兼容。FunASR通常需要CUDA 11.8或更高版本。
    • 关键步骤:访问官方文档,按照指引重新安装或验证CUDA及cuDNN:windows上安装CUDA12.6和cuDNN9.8
  2. 检查PyTorch是否为GPU版本

    • 在软件运行后,查看日志窗口或 logs 文件夹内的日志。搜索“CUDA”、“GPU”等关键词,确认PyTorch是否成功检测到GPU。
    • 如果日志显示“Running on CPU”,则说明PyTorch是CPU版本,需要重新安装GPU版本的PyTorch。
  3. 降低模型精度以提升速度

    • 工具 -> 选项 -> 高级选项 中,找到 Faster/OpenAI/Whisper 语音识别微调 区域。
    • CUDA数据类型float32 改为 float16int8。这能显著减少显存占用并提升推理速度。
  4. 尝试其他模型或识别渠道

    • 暂时切换到 faster-whisper(本地) 模型(如 smallmedium),并勾选CUDA加速,测试速度是否正常。这有助于判断问题是FunASR特有还是全局CUDA问题。
    • 或者,暂时取消勾选CUDA加速,使用CPU运行FunASR,对比速度。如果CPU速度反而更快,则强烈表明GPU驱动或库存在问题。
  5. 查看任务管理器

    • 处理时打开任务管理器,在“性能”选项卡中查看GPU(通常是“GPU 0-3D”或“GPU 0-Copy”)的利用率。如果利用率始终很低(例如低于20%),则GPU未有效工作。

请优先执行第1步和第2步。如果重新配置CUDA环境后问题依旧,请提供 logs 文件夹下最新日志文件的内容。

Post Your Reply
Open source and free maintenance is not easy. If this project is helpful to you, please consider making a small donation to help the project continue to maintain and update.

Donate: https://ko-fi.com/jianchang512

Trending Questions