Git Product home page Git Product logo

cnn_multilabel_korean's Introduction

cnn_multilabel_korean

기존의 One Hot Encoding 을 통한 문장 분류 ( 0: 부정 1: 긍정 ) 모델을 개선시켜 멀티라벨 또한 인식할 수 있게 제작한 cnn 모델.

해당 프로그램의 제작 목적은 다수의 여행리뷰들로부터 부정어구들을 추출할 수 있는 Multi Label Text Classification 을 진행하기 위함이다. 하지만 현재 저장된 dataset 을 보면 알 수 있다시피 기존 긍/부정 어구보다 수기 라벨링한 테스트셋의 결과, 부정어구가 포함된 리뷰가 매우 적으며, 각 라벨들의 개수가 매우 부족하며 이를 통한 학습결과의 증진이 매우 쉽지 않다. 하지만 만일 라벨링된 테스트셋이 십수만건 이상이 된다면, 정확도를 상위권 으로 이끌어 올릴 수 있을 것 같다.

기본 Embedding Layer 및 Vocab 은 테스트셋 및 ko wiki 문장 약 2.3 기가 정도를 패스트텍스트화 하여 진행하였다. 또한 한글 형태소 분석을 진행하여 Embedding Layer 로 활용하였지만 아직 분석효율이 다수 라벨을 분석하는 텍스트의 분류를 진행하기에는 부족한 것 같다.

만일 해당 자료를 보고, 개선사항이 있을 것이라고 생각하시는 개발자는 글을 남겨주시기 바란다.

Data/reviews.cls >> 다중 클래스 분류를 위한 라벨 리스트

train.py >> trainR.csv 데이터를 통한 학습 진행

evaluation.py >> valR.csv 데이터를 통한 평가 진행

cnn_multilabel_korean's People

Contributors

iexploits avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.