Git Product home page Git Product logo

Comments (1)

jty016 avatar jty016 commented on August 16, 2024

안녕하세요,
좋은 자료를 공유해 주셔서 감사합니다.
제가 빠르게 읽어본 바로는 독일어에서 Morfessor 를 이용한 morpheme analysis 를 했고
G2P 를 통해 phonemisation 하는경우 Morfessor가 성능이 별로 안좋은 것 같더라 하는 이야기 같습니다.

제 생각엔, 제로스 프로젝트에서도 마찬가지이지만 한국어 (음성인식)에서 꼭 G2P 를 사용해야 하는지 의문입니다.
한국어는 언어의 특성상 글자가 정해지면 소리가 정해지지요.
읽을 수있는 글자면 읽는 사람마다 소리가 달라지지 않습니다.
예를들면 아래 처럼요
Nebuchadnezzar --> 느부갓네살
Michelin --> 미슐랭

저도 Morfessor 를 사용해 보면 정확한 한국어 형태소를 찾지는 못하는 것으로 보입니다.
주어진 코퍼스를 가장 잘 설명하는 최소한의 morpheme을 찾는 방식이라 그럴 것이라 예상합니다.

그래서 저는 한국어 표준 발음법을 rule-base 로 짜두었고
Morfessor 가 찾는 morpheme boundary 정보를 활용해서
특정 형태소의 발음 다양성을 확보하는 방식으로 lexicon 을 만듭니다.
https://github.com/goodatlas/zeroth/blob/master/s5/data/local/lm/buildLM/_scripts_/buildLexicon.sh#L54-L68

G2P를 통해 phonemisation 하는 것이 목적인 경우에는
제가 생각할 때도 Morfessor의 결과가 G2P 학습을 방해할 수 있을 것 같습니다.

감사합니다.
제로스 그룹 채널이 있으니 여기로 문의를 주시면 더 좋겠습니다.
https://groups.google.com/forum/#!forum/zeroth-help

from zeroth.

Related Issues (16)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.