Fun-ASRは通義実験室が開発したエンドツーエンド音声認識大規模モデルです。数千万時間の実音声データで学習され、強力なコンテキスト理解能力と業界適応性を備えています。低遅延リアルタイム文字起こしをサポートし、31言語に対応しています。
モデルリポジトリ:ModelScope、HuggingFace
オンラインデモ: ModelScope Space、HuggingFace Space
| モデル | 対応タスク | 学習データ | パラメータ |
|---|---|---|---|
| Fun-ASR-Nano (⭐ 🤗) |
中国語・英語・日本語の音声認識。中国語は7方言・26地域アクセント対応。英語・日本語も複数地域アクセントに対応。歌詞認識・ラップ音声認識も搭載。 | 数千万時間 | 8億 |
| Fun-ASR-MLT-Nano (⭐ 🤗) |
韓国語、ベトナム語、インドネシア語、タイ語、マレー語、フィリピン語、アラビア語、ヒンディー語など31言語の音声認識。 | 数十万時間 | 8億 |
- 遠距離・高ノイズ環境対応:会議室、車内、工場など高ノイズ環境に最適化、認識精度 93% 達成
- 中国語方言・地域アクセント:7大方言 + 26地域アクセントに対応
- 31言語多言語対応:東南アジア言語に重点最適化、言語自動切替・混合認識対応
- 音楽背景下の歌詞認識:音楽干渉下での音声認識性能を強化
- ホットワード機能:ドメイン固有用語の認識精度を向上
- 話者分離:誰がいつ話したかを自動識別
- vLLM推論エンジン:バッチ推論で最大393倍リアルタイム速度
git clone https://github.com/FunAudioLLM/Fun-ASR.git
cd Fun-ASR
pip install -r requirements.txtfrom funasr import AutoModel
model = AutoModel(
model="FunAudioLLM/Fun-ASR-Nano-2512",
trust_remote_code=True,
device="cuda:0",
hub="hf"
)
result = model.generate(
input=["audio.wav"],
batch_size=1,
language="日文",
)
print(result[0]["text"])model = AutoModel(
model="FunAudioLLM/Fun-ASR-Nano-2512",
trust_remote_code=True,
device="cuda:0",
hub="hf",
vad_model="fsmn-vad",
spk_model="cam++",
punc_model="ct-punc"
)
result = model.generate(input=["meeting.wav"], batch_size=1)
for item in result:
if 'sentence_info' in item:
for sent in item['sentence_info']:
print(f"[話者{sent['spk']}] {sent['text']}")from funasr.auto.auto_model_vllm import AutoModelVLLM
model = AutoModelVLLM(
model="FunAudioLLM/Fun-ASR-Nano-2512",
tensor_parallel_size=2,
)
results = model.generate(["audio1.wav", "audio2.wav"], language="日文")詳細は vLLM推論ガイド をご参照ください。
| モデル | GPUスピード | CPUスピード | vs Whisper-large-v3 |
|---|---|---|---|
| Fun-ASR-Nano (vLLM) | 393x リアルタイム | — | 🚀 30倍高速 |
| SenseVoice-Small | 170x リアルタイム | 17x リアルタイム | 🚀 13倍高速 |
| Whisper-large-v3 | 13x リアルタイム | ❌ | 基準 |
Fun-ASR-Nanoは FunAudioLLM ファミリーの一員です:
| プロジェクト | 説明 | Stars |
|---|---|---|
| FunASR | 産業用音声認識ツールキット — VAD、ASR、句読点、話者分離 | |
| SenseVoice | 超高速ASR + 感情認識 + 音声イベント検出 | |
| CosyVoice | 自然音声生成 — 多言語、ゼロショットクローニング | |
| FunClip | AI音声認識による動画クリッピング |
