Git Product home page Git Product logo

Comments (6)

heewoneha avatar heewoneha commented on August 17, 2024

여기에서 각 MainCategory별로 속성의 개수를 확인했는데, set()으로 한 리뷰 당 똑같은 속성이 중복되어 나타나는 경우를 대상으로 중복제거를 했다. 이후에 결과가 눈에 띄게 달라졌다.

MainCategory: 스킨케어
  가격: 4160
  기능/효과: 8011
  디자인: 93
  밀착력/접착력: 70
  발림성: 2757
  보습력/수분감: 7566
  사용감: 526
  색상: 142
  성분: 686
  용기: 556
  용량: 1940
  유통기한: 588
  윤기/피부(톤): 2888
  자극성: 2277
  제품구성: 2342
  제형: 1651
  지속력: 967
  커버력: 67
  탄력: 853
  편의성/활용성: 2807
  품질: 653
  피부타입: 1241
  향: 2641
  흡수력: 4088


MainCategory: 헤어/바디케어
  가격: 4274
  거품력: 826
  그립감: 8
  기능/효과: 3274
  두피보호: 290
  디자인: 98
  머릿결관리: 2831
  밀착력/접착력: 64
  발림성: 1053
  발색력: 757
  보습력/수분감: 2825
  분사력: 139
  사용감: 370
  색상: 369
  성분: 603
  세정력: 1058
  세팅력/고정력: 870
  스타일링효과: 985
  염색력: 1906
  용기: 691
  용량/사이즈: 1743
  유통기한: 518
  윤기/피부(톤): 183
  이염: 314
  자극성: 1741
  제품구성: 1194
  제형: 1233
  지속력/유지력: 1504
  청량감/쿨링감: 1110
  클렌징/제거력: 339
  탈모개선: 935
  편의성/활용성: 3051
  품질: 687
  피부타입: 341
  향/냄새: 5905
  흡수력: 1435


MainCategory: 메이크업/뷰티소품
  가격: 3317
  기능/효과: 2768
  디자인: 420
  밀착력/접착력: 1714
  발림성: 3160
  발색력: 2028
  보습력/수분감/쿨링감: 2905
  사용감: 290
  사이즈/두께: 757
  색상: 2742
  성분: 159
  용기: 1114
  용량/개수: 1057
  유통기한: 376
  윤기/피부(톤): 1716
  자극성: 409
  제품구성: 1265
  제형: 810
  지속력/유지력: 3537
  커버력: 1980
  탄력: 37
  편의성/활용성: 2585
  품질: 696
  피부타입: 330
  향: 3450
  흡수력: 1593


MainCategory: 남성화장품
  가격: 1878
  기능/효과: 1263
  디자인: 127
  밀착력/접착력: 24
  발림성: 446
  보습력/수분감/쿨링감: 1438
  사용감: 210
  색상: 34
  성분: 157
  용기: 457
  용량: 594
  유통기한: 284
  윤기/피부(톤): 238
  자극성: 661
  제품구성: 546
  제형: 481
  지속력/유지력: 581
  커버력: 4
  탄력: 9
  편의성/활용성: 1380
  품질: 328
  피부타입: 328
  향: 2419
  흡수력: 930

from nlp-project.

heewoneha avatar heewoneha commented on August 17, 2024

따라서 MainCategory마다 일의 자리 단위 수인 극성을 제거하기 위해 표로 정리해보았다.

MainCategory Aspect
스킨케어 X
헤어/바디케어 그립감
메이크업/뷰티소품 X
남성화장품 커버력, 탄력

from nlp-project.

heewoneha avatar heewoneha commented on August 17, 2024

지금 제일 데이터 개수가 적은 남성화장품 카테고리만을 대상으로 train을 시험삼아 해보고 있다.
그런데 십의 자리 수 단위인 속성(ex: 밀착력/접착력)은 f1-score가 0이 나오고 있다. 데이터가 지나치게 적어서 그런 것 같다. 이것 또한 지워줘야겠다.

from nlp-project.

heewoneha avatar heewoneha commented on August 17, 2024

따라서 각 MainCategory별로 사용할 속성 목록은 아래와 같이 정했다. 아래 목록에서 지운 속성은 데이터에서도 지웠고, 모델 학습 및 테스트에서도 사용하지 않는다.

단위: (개)

  1. MainCategory: 스킨케어
    가격: 4160
    기능/효과: 8011
    디자인: 93
    밀착력/접착력: 70
    발림성: 2757
    보습력/수분감: 7566
    사용감: 526
    색상: 142
    성분: 686
    용기: 556
    용량: 1940
    유통기한: 588
    윤기/피부(톤): 2888
    자극성: 2277
    제품구성: 2342
    제형: 1651
    지속력: 967
    커버력: 67
    탄력: 853
    편의성/활용성: 2807
    품질: 653
    피부타입: 1241
    향: 2641
    흡수력: 4088

  2. MainCategory: 헤어/바디케어
    가격: 4274
    거품력: 826
    그립감: 8
    기능/효과: 3274
    두피보호: 290
    디자인: 98
    머릿결관리: 2831
    밀착력/접착력: 64
    발림성: 1053
    발색력: 757
    보습력/수분감: 2825
    분사력: 139
    사용감: 370
    색상: 369
    성분: 603
    세정력: 1058
    세팅력/고정력: 870
    스타일링효과: 985
    염색력: 1906
    용기: 691
    용량/사이즈: 1743
    유통기한: 518
    윤기/피부(톤): 183
    이염: 314
    자극성: 1741
    제품구성: 1194
    제형: 1233
    지속력/유지력: 1504
    청량감/쿨링감: 1110
    클렌징/제거력: 339
    탈모개선: 935
    편의성/활용성: 3051
    품질: 687
    피부타입: 341
    향/냄새: 5905
    흡수력: 1435

  3. MainCategory: 메이크업/뷰티소품
    가격: 3317
    기능/효과: 2768
    디자인: 420
    밀착력/접착력: 1714
    발림성: 3160
    발색력: 2028
    보습력/수분감/쿨링감: 2905
    사용감: 290
    사이즈/두께: 757
    색상: 2742
    성분: 159
    용기: 1114
    용량/개수: 1057
    유통기한: 376
    윤기/피부(톤): 1716
    자극성: 409
    제품구성: 1265
    제형: 810
    지속력/유지력: 3537
    커버력: 1980
    탄력: 37
    편의성/활용성: 2585
    품질: 696
    피부타입: 330
    향: 3450
    흡수력: 1593

  4. MainCategory: 남성화장품
    가격: 1878
    기능/효과: 1263
    디자인: 127
    밀착력/접착력: 24
    발림성: 446
    보습력/수분감/쿨링감: 1438
    사용감: 210
    색상: 34
    성분: 157
    용기: 457
    용량: 594
    유통기한: 284
    윤기/피부(톤): 238
    자극성: 661
    제품구성: 546
    제형: 481
    지속력/유지력: 581
    커버력: 4
    탄력: 9
    편의성/활용성: 1380
    품질: 328
    피부타입: 328
    향: 2419
    흡수력: 930

from nlp-project.

heewoneha avatar heewoneha commented on August 17, 2024

분할할 때 기준은 train:validation:test = 60:20:20 이다.

(단위: 개)

MainCategory train validation test
스킨케어 9,671 3,223 3,223
헤어/바디케어 9,151 3,050 3,050
메이크업/뷰티소품 8,068 2,690 2,690
남성화장품 2,823 940 940

from nlp-project.

heewoneha avatar heewoneha commented on August 17, 2024

여기에서 전처리 이후 EDA 아래에 변경된 사항을 새롭게 정리해두었다.

from nlp-project.

Related Issues (10)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.