Git Product home page Git Product logo

Comments (10)

nl8590687 avatar nl8590687 commented on May 19, 2024

应该是数据读入的问题,看来是THCHS30更新后的数据格式不一样了,我用的是之前的版本
0. train.word.txt

$ cat train.word.txt
A11_0 绿 是 阳春 烟 景 大块 文章 的 底色 四月 的 林 峦 更是 绿 得 鲜活 秀媚 诗意 盎然
A11_1 他 仅 凭 腰部 的 力量 在 泳道 上下 翻腾 蛹 动 蛇行 状 如 海豚 一直 以 一头 的 优势 领先
A11_10 炮眼 打好 了 炸药 怎么 装 岳 正 才 咬 了 咬牙 倏 地 脱去 衣服 光膀子 冲进 了 水 窜 洞
A11_100 可 谁知 纹 完 后 她 一 照镜子 只见 左下 眼睑 的 线 又 粗 又 黑 与 右侧 明显 不对称
A11_102 一进门 我 被 惊呆 了 这 户 名叫 庞 吉 的 老农 是 抗美援朝 负伤 回乡 的 老兵 妻子 长年 有病 家徒四壁 一贫如洗 
A11_103 走出 村子 老远 老远 我 还 回头 张望 那个 安宁 恬静 的 小院 那个 使 我 终身 难忘的 小院
  1. train.syllable.txt
$ cat train.syllable.txt
A11_0 lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2 
A11_1 ta1 jin3 ping2 yao1 bu4 de5 li4 liang4 zai4 yong3 dao4 shang4 xia4 fan1 teng2 yong3 dong4 she2 xing2 zhuang4 ru2 hai3 tun2 yi4 zhi2 yi3 yi4 tou2 de5 you1 shi4 ling3 xian1 
A11_10 pao4 yan3 da2 hao3 le5 zha4 yao4 zen3 me5 zhuang1 yue4 zheng4 cai2 yao3 le5 yao3 ya2 shu1 de5 tuo1 qu4 yi1 fu5 guang1 bang3 zi5 chong1 jin4 le5 shui3 cuan4 dong4 
A11_100 ke3 shui2 zhi1 wen2 wan2 hou4 ta1 yi1 zhao4 jing4 zi5 zhi3 jian4 zuo3 xia4 yan2 jian3 de5 xian4 you4 cu1 you4 hei1 yu3 you4 ce4 ming2 xian3 bu2 dui4 chen4 
A11_102 yi2 jin4 men2 wo3 bei4 jing1 dai1 le5 zhe4 hu4 ming2 jiao4 pang2 ji2 de5 lao3 nong2 shi4 kang4 mei3 yuan2 chao2 fu4 shang1 hui2 xiang1 de5 lao3 bing1 qi1 zi5 chang2 nian2 you3 bing4 jia1 tu2 si4 bi4 yi4 pin2 ru2 xi3 
A11_103 zou3 chu1 cun1 zi5 lao2 yuan3 lao2 yuan3 wo3 hai2 hui2 tou2 zhang1 wang4 na4 ge5 an1 ning2 tian2 jing4 de5 xiao3 yuan4 na4 ge5 shi3 wo3 zhong1 shen1 nan2 wang4 de5 xiao3 yuan4 
  1. train.wav.lst
$ cat train.wav.lst
A11_0 wav/train/A11/A11_0.WAV
A11_1 wav/train/A11/A11_1.WAV
A11_10 wav/train/A11/A11_10.WAV
A11_100 wav/train/A11/A11_100.WAV
A11_102 wav/train/A11/A11_102.WAV
A11_103 wav/train/A11/A11_103.WAV
  1. dict.txt
    (这个文件其实是我自己做的,不是下载的数据集里的,收录了大约6000个常用汉字的拼音字典,并且还针对THCHS30数据集做了专门的处理)
a1	阿啊呵腌吖锕
a2	啊呵嗄
a3	啊呵
a4	啊呵
a5	阿啊呵
ai1	哀挨埃唉哎捱锿
ai2	呆挨癌皑捱矮
ai3	矮哎蔼霭嗳
ai4	爱碍艾唉哎隘暧嗳瑷嗌嫒砹
an1	安谙鞍氨庵桉鹌广厂
an3	俺铵揞埯
an4	案按暗岸黯胺犴

如果以上确认无误后,训练时仍出现错误,那么请尝试减小batch的大小。希望能帮助到你。

from asrt_speechrecognition.

AtomicVar avatar AtomicVar commented on May 19, 2024

好的,感谢,我先试一试

from asrt_speechrecognition.

cnzdc avatar cnzdc commented on May 19, 2024

大神能不能分享下dict.txt 文件?感谢阿

from asrt_speechrecognition.

nl8590687 avatar nl8590687 commented on May 19, 2024

To @cnzdc
dict.txt 文件已经添加到仓库中了,请查看。

from asrt_speechrecognition.

areyliu6 avatar areyliu6 commented on May 19, 2024

不好意思 我剛接觸這塊領域
我下載了 THCSH30 資料是要先透過 kaldi 訓練聲學模型是嗎?
因為 train.wav.lst 等等的檔案 我在下載的THCSH30 包裡沒看到
我的壓縮包裡沒有train/doc & dev/doc & test/doc

我剛剛找到另一個資料源 http://data.cslt.org/thchs30/zip/doc.tgz
但是連結掛掉了

有詳細的執行步驟嗎? 或是可以有勞放上來嗎?
有勞大神了 謝謝

from asrt_speechrecognition.

nl8590687 avatar nl8590687 commented on May 19, 2024

To @areyliu6
本倉庫的ReadMe的鏈接下載的THCHS30是新版的語音數據,你提到的那個鏈接是原來的版本,現在已經無法下載了,而新版的數據格式有點變化。我用的是原來的版本的數據,我這裡的train/dev/test以及doc等用的還是原來的格式,而且暫時還將繼續使用。不過可以通過自己編寫程序將新的數據格式做個處理,或者直接將代碼讀入數據的部分做一些改變即可。
我們可以通過卷積神經網絡、循環神經網絡等直接訓練聲學模型,而不需要使用kaldi,通過CTC還可以直接實現端到端。
希望能對你有幫助。

from asrt_speechrecognition.

areyliu6 avatar areyliu6 commented on May 19, 2024

@nl8590687
謝大神解惑

就目前來看
我應該只需要實作出 .wav.lst .syllable.txt .word.txt
對吧?!

感恩

from asrt_speechrecognition.

nl8590687 avatar nl8590687 commented on May 19, 2024

@areyliu6
是的

from asrt_speechrecognition.

areyliu6 avatar areyliu6 commented on May 19, 2024

Hi @nl8590687
我試了一下 字詞錯誤率是100% 這樣是正常的嗎 哈哈

from asrt_speechrecognition.

nl8590687 avatar nl8590687 commented on May 19, 2024

@areyliu6
不要着急,训练一段时间就好了,loss大约降到100+的时候就能看到了 :D

from asrt_speechrecognition.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.