作者您好，我用BELLE-2/Belle-whisper-large-v2-zh跑实验效果还不如Systran/faster-whisper-large-v2 <

用BELLE-2/Belle-whisper-large-v2-zh识别中文音频，效果还不如Systran/faster-whisper-large-v2？ about belle HOT 12 OPEN

drilistbox commented on September 13, 2024

用BELLE-2/Belle-whisper-large-v2-zh识别中文音频，效果还不如Systran/faster-whisper-large-v2？

from belle.

Comments (12)

bigcash commented on September 13, 2024 1

我这边，使用 v2,v3转到 faster-whisper 的模型，好像也没有 vad 成功。

Name: whisperx Version: 3.1.2

Name: faster-whisper Version: 1.0.1

测试用视频：https://www.youtube.com/watch?v=we8vNy6DYMI

v2 偶尔还会出现乱码 v3 的话，就算设置了 vad 也一样是30s 一个切片片段。

model = WhisperModel(model_size, device="cuda", compute_type="float16") model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate, model.feature_extractor.n_fft, n_mels=128) segments, info = model.transcribe(file, vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500), language=language)

您好，我使用ct2-transformers-converter --model BELLE-2--Belle-whisper-large-v3-zh --output_dir BELLE-2--Belle-whisper-large-v3-zh-ct2 --copy_files preprocessor_config.json --quantization float16 这个命令将模型转换为faster-whisper格式，在加载模型时model = WhisperModel(model_size, device="cuda", compute_type="float16")提示错误：Max retries exceeded with url: /openai/whisper-tiny/resolve/main/tokenizer.json，请问为什么还要去huggingface.co下载这个tokenizer.json呀，正确的做法该怎么做呢，谢谢拉

from belle.

houmochenliu commented on September 13, 2024

from belle.

shuaijiang commented on September 13, 2024

根据上面结果，大概原因可能是使用belle-whisper没有做vad切分，所以都是按照最长30秒做的识别，这样有一定的影响。
建议把belle-whisper转为fasterwhisper模型格式，基于faster-whisper框架去做推理，faster-whisper内置了vad 模块。速度和效果都有一定保证。

from belle.

chenquan commented on September 13, 2024

根据上面结果，大概原因可能是使用belle-whisper没有做vad切分，所以都是按照最长30秒做的识别，这样有一定的影响。建议把belle-whisper转为fasterwhisper模型格式，基于faster-whisper框架去做推理，faster-whisper内置了vad 模块。速度和效果都有一定保证。

belle-whisper转为fasterwhisper模型格式，请问这个怎么处理呢？有相关的技术资料吗？

from belle.

chenquan commented on September 13, 2024

根据上面结果，大概原因可能是使用belle-whisper没有做vad切分，所以都是按照最长30秒做的识别，这样有一定的影响。建议把belle-whisper转为fasterwhisper模型格式，基于faster-whisper框架去做推理，faster-whisper内置了vad 模块。速度和效果都有一定保证。

belle-whisper转为fasterwhisper模型格式，请问这个怎么处理呢？有相关的技术资料吗？

ct2-transformers-converter --model BELLE-2/Belle-whisper-large-v2-zh --output_dir Belle-whisper-large-v2-ct2 --copy_files  preprocessor_config.json --quantization int8_float32

https://opennmt.net/CTranslate2/quantization.html#quantize-on-model-conversion

from belle.

drilistbox commented on September 13, 2024

但是whisper里默认是有vad的呀，你是指belle-whisper里把vad去掉了？

from belle.

shuaijiang commented on September 13, 2024

你说的应该是 timestamps， belle-whisper 微调时没有进一步优化timestamp。如果需要timestamps需要在推理时主动打开。faster-whisper框架有vad，切分效果更好一些。所以建议用faster-whisper框架调用belle-whisper

from belle.

drilistbox commented on September 13, 2024

多谢大佬我试试

from belle.

dogvane commented on September 13, 2024

我这边，使用 v2,v3转到 faster-whisper 的模型，好像也没有 vad 成功。

Name: whisperx
Version: 3.1.2

Name: faster-whisper
Version: 1.0.1

测试用视频：https://www.youtube.com/watch?v=we8vNy6DYMI

v2 偶尔还会出现乱码
v3 的话，就算设置了 vad 也一样是30s 一个切片片段。

model = WhisperModel(model_size, device="cuda", compute_type="float16")
model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate, model.feature_extractor.n_fft, n_mels=128)
segments, info = model.transcribe(file, vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500), language=language)

from belle.

Xuyaoyan commented on September 13, 2024

e: whispe

请问你是怎么转的，我自己用命令行转没成功

from belle.

Xuyaoyan commented on September 13, 2024

我这边，使用 v2,v3转到 faster-whisper 的模型，好像也没有 vad 成功。

Name: whisperx Version: 3.1.2

Name: faster-whisper Version: 1.0.1

测试用视频：https://www.youtube.com/watch?v=we8vNy6DYMI

v2 偶尔还会出现乱码 v3 的话，就算设置了 vad 也一样是30s 一个切片片段。

model = WhisperModel(model_size, device="cuda", compute_type="float16") model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate, model.feature_extractor.n_fft, n_mels=128) segments, info = model.transcribe(file, vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500), language=language)

你好，我现在也遇到了这个问题，转成fasterwhisper之后，设置vad无效，还是30s，请问你有解决这个问题吗

from belle.

wwfcnu commented on September 13, 2024

我这边，使用 v2,v3转到 faster-whisper 的模型，好像也没有 vad 成功。
Name: whisperx Version: 3.1.2
Name: faster-whisper Version: 1.0.1
测试用视频：https://www.youtube.com/watch?v=we8vNy6DYMI
v2 偶尔还会出现乱码 v3 的话，就算设置了 vad 也一样是30s 一个切片片段。
model = WhisperModel(model_size, device="cuda", compute_type="float16") model.feature_extractor.mel_filters = model.feature_extractor.get_mel_filters(model.feature_extractor.sampling_rate, model.feature_extractor.n_fft, n_mels=128) segments, info = model.transcribe(file, vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500), language=language)

你好，我现在也遇到了这个问题，转成fasterwhisper之后，设置vad无效，还是30s，请问你有解决这个问题吗

用whisperx，设置chunk_size可以指定vad的最大切分时长

from belle.

用BELLE-2/Belle-whisper-large-v2-zh识别中文音频，效果还不如Systran/faster-whisper-large-v2？ about belle HOT 12 OPEN

Comments (12)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent