训练ecapa_tdnn 60个epochs，最终的acc达到0.9左右，，但是loss值在第9个epochs降到1.0左右，后面就在增大，，训练完结时loss增大到4左

使用完整的数据集CN-Celeb训练ecapa_tdnn，loss变化趋势存在问题 about voiceprintrecognition-pytorch HOT 5 CLOSED

Heavenbest commented on September 3, 2024

使用完整的数据集CN-Celeb训练ecapa_tdnn，loss变化趋势存在问题

from voiceprintrecognition-pytorch.

Comments (5)

yeyupiaoling commented on September 3, 2024

你减小学习率看看，你有没有改其他什么参数吗？

from voiceprintrecognition-pytorch.

Heavenbest commented on September 3, 2024

没有改其他参数呢，都是使用的默认值。

from voiceprintrecognition-pytorch.

yeyupiaoling commented on September 3, 2024

用的是两个数据集吗？

from voiceprintrecognition-pytorch.

Heavenbest commented on September 3, 2024

是的呢，两个数据集，训练集是解压缩后的CN-Celeb_flac，CN-Celeb2_flac这两个合并的，num_speakers: 2796，评估检验的数据集是cn-celeb-test。

数据集参数

dataset_conf:

过滤最短的音频长度

min_duration: 0.5

最长的音频长度，大于这个长度会裁剪掉

max_duration: 3

是否裁剪静音片段

do_vad: False

音频的采样率

sample_rate: 16000

是否对音频进行音量归一化

use_dB_normalization: True

对音频进行音量归一化的音量分贝值

target_dB: -20

训练数据的数据列表路径

#train_list: 'dataset/train_list.txt'
train_list: '../../datasets/voiceprint/train_list.txt'

评估注册的数据列表路径

enroll_list: 'dataset/cn-celeb-test/enroll_list.txt'

评估检验的数据列表路径

trials_list: 'dataset/cn-celeb-test/trials_list.txt'

评估的数据要特殊处理

eval_conf:
# 评估的批量大小
batch_size: 1
# 最长的音频长度
max_duration: 20

数据加载器参数

dataLoader:
# 训练的批量大小
batch_size: 128
# 读取数据的线程数量
num_workers: 4

数据增强参数

aug_conf:
# 是否使用语速扰动增强
speed_perturb: True
# 使用语速增强是否分类大小翻三倍
speed_perturb_3_class: True
# 是否使用音量增强
volume_perturb: False
# 音量增强概率
volume_aug_prob: 0.2
# 噪声增强的噪声文件夹
noise_dir: 'dataset/noise'
# 噪声增强概率
noise_aug_prob: 0.2

是否使用SpecAug

use_spec_aug: True

Spec增强参数

spec_aug_args:
# 随机频谱掩码大小
freq_mask_width: [ 0, 8 ]
# 随机时间掩码大小
time_mask_width: [ 0, 10 ]

数据预处理参数

preprocess_conf:

音频预处理方法，支持：MelSpectrogram、Spectrogram、MFCC、Fbank

feature_method: 'Fbank'

设置API参数，更参数查看对应API，不清楚的可以直接删除该部分，直接使用默认值

method_args:
sample_frequency: 16000
num_mel_bins: 80

optimizer_conf:

优化方法，支持Adam、AdamW、SGD

optimizer: 'Adam'

初始学习率的大小

learning_rate: 0.001
weight_decay: !!float 1e-5

学习率衰减函数，支持WarmupCosineSchedulerLR、CosineAnnealingLR

scheduler: 'WarmupCosineSchedulerLR'

学习率衰减函数参数

scheduler_args:
min_lr: !!float 1e-5
max_lr: 0.001
warmup_epoch: 5

model_conf:
backbone:
# 所使用的池化层，支持ASP、SAP、TSP、TAP
pooling_type: 'ASP'
embd_dim: 192
classifier:
# 说话人数量，即分类大小
num_speakers: 2796
#num_speakers: 200
num_blocks: 0

loss_conf:

所使用的损失函数，支持AAMLoss、AMLoss、ARMLoss、CELoss

use_loss: 'AAMLoss'

损失函数参数

args:
margin: 0.2
scale: 32
easy_margin: False

是否使用损失函数margin调度器

use_margin_scheduler: True

margin调度器参数

margin_scheduler_args:
final_margin: 0.3

train_conf:

是否开启自动混合精度

enable_amp: False

是否使用Pytorch2.0的编译器

use_compile: False

训练的轮数

max_epoch: 60
log_interval: 100

所使用的模型

use_model: 'EcapaTdnn'

from voiceprintrecognition-pytorch.

yeyupiaoling commented on September 3, 2024

参数好像都正常，看不出什么问题，你直接用best_model就好了

from voiceprintrecognition-pytorch.

Comments (5)

数据集参数

过滤最短的音频长度

最长的音频长度，大于这个长度会裁剪掉

是否裁剪静音片段

音频的采样率

是否对音频进行音量归一化

对音频进行音量归一化的音量分贝值

训练数据的数据列表路径

评估注册的数据列表路径

评估检验的数据列表路径

评估的数据要特殊处理

数据加载器参数

数据增强参数

是否使用SpecAug

Spec增强参数

数据预处理参数

音频预处理方法，支持：MelSpectrogram、Spectrogram、MFCC、Fbank

设置API参数，更参数查看对应API，不清楚的可以直接删除该部分，直接使用默认值

优化方法，支持Adam、AdamW、SGD

初始学习率的大小

学习率衰减函数，支持WarmupCosineSchedulerLR、CosineAnnealingLR

学习率衰减函数参数

所使用的损失函数，支持AAMLoss、AMLoss、ARMLoss、CELoss

损失函数参数

是否使用损失函数margin调度器

margin调度器参数

是否开启自动混合精度

是否使用Pytorch2.0的编译器

训练的轮数

所使用的模型

Related Issues (20)

Recommend Projects

Recommend Topics

Recommend Org