Git Product home page Git Product logo

Comments (3)

jty016 avatar jty016 commented on July 17, 2024

안녕하세요, 페이스북에서 뵙고 여기서 뵙게되니 반갑습니다.
제가 이해한게 맞다면 받으신 test_data_01 데이터를 연구에 사용하시던 음성인식기로
디코딩 테스트를 하셨다는 말씀이시지요?
train_data_01 을 학습에 사용 것인지 궁금해서 여쭤봅니다.

일단 질문에 답을 드리면 오픈소스로 제공되는 오디오 데이터에 특별한 전처리는 되어 있지 않습니다.
다만 녹음환경은 핸드폰 녹음으로
약간의 reverb가 존재할 수 있는 작은 방의 조용한 환경인 경우가 많이 들어있을 수 있습니다.

연구용으로 가지고 계신 인식기에서 비슷한 결과를 보시려면 (아마도)
train_data_01 를 학습데이터에 포함시키시고 RIR simulation 방식의 data augmentation 을 적용하시기를
권해드립니다. 그리고 디코딩은 test_data_01 으로 하시면 될 것 같습니다.

요즘은 음성이 들어오는 경로가 매우 다양하기 때문에 RIR 처리를 하는 것이 성능에 도움이 됩니다.

from zeroth.

mskeum avatar mskeum commented on July 17, 2024

아 네 일단 기존에 가지고 있던 인식기로 test_data_01 성능을 확인해보려고 했어요. train_data_01 은 사용하지 않았구요. 리버브가 어느정도 느껴진다고는 생각했는데 이렇게 성능에 영향이 클지는 몰랐네요. 형태소 오류가 74% 나왔습니다. ㅎㅎ 조언 감사합니다.

from zeroth.

qute012 avatar qute012 commented on July 17, 2024

@jty016
안녕하세요. 음성인식 연구중인 학생입니다.
저도 비슷한 케이스로 Ai-Hub에서 공개한 데이터로 학습한 모델(CER 8%, WER 16%)을 사용하여 Zeroth Train Data는 따로 학습하지 않고 Test Data만 평가할 때, 성능이 저조하게 나오네요. 혹시 샘플레이트가 몇 으로 녹음된지 알 수 있을까요?

Zeroth Train Data로 학습(CER 8%, WER 9%)하고 역으로 Ai-Hub 데이터를 평가할 때도 성능이 잘 나오지 않는데, 오디오 파일의 정보의 차이로 보고 있습니다.

좋은 프로젝트 감사합니다!

from zeroth.

Related Issues (16)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.