Git Product home page Git Product logo

Comments (5)

heewoneha avatar heewoneha commented on July 18, 2024

데이터 전처리 해야할 일

  1. 라벨링 데이터에서 다음과 같이 똑같은 Aspect가 여러 개 나타날 경우, Aspect 랜덤으로 하나만 남기고 다 버리기 - 속성은 같은데 극성이 다른 경우가 존재할 수도 있음. 이런 경우 속성 추측할 때 문제가 생김.
Sentiment Text Aspect Sentiment Polarity
향이 무지 약하네요. -1
향이 약하고 -1
지속시간도 많이 짧네요. 지속력/유지력 -1
  1. 원천, 라벨링 데이터의 불용어 제거 (ㅎㅎ, ~~ 등) - 감성 분석이기에 필요 없다고 판단.
  2. 라벨링 데이터에서 감성 극성 0(neutral) 제외 - 개수가 상대적으로 지나치게 적음.

from nlp-project.

heewoneha avatar heewoneha commented on July 18, 2024

resolve #2
EDA 결과, 화장품 관련 샘플 데이터 총 개수는 49,996개로 공표된 개수와 일치한다.
그냥 샘플 데이터라는 게, 아직 수정 또는 보완될 가능성이 존재한다는 의미였나보다.

from nlp-project.

heewoneha avatar heewoneha commented on July 18, 2024
  • MainCategory와 그에 따른 Aspect의 개수를 살펴봤다. 카테고리마다 속성이 상이하다. 어떤 카테고리는 보습력/수분감을 속성 명칭으로 사용하고 있지만, 다른 카테고리에서는 보습력/수분감/쿨링감으로 하고 있고, 심지어는 청량감/쿨링감 도 있다. 카테고리 4개(스킨케어, 헤어/바디케어, 메이크업/뷰티소품, 남성화장품)를 나눠서 진행해야 속성 맞추는 성능이 높아질 것 같다.
  • 그리고 대부분 개수가 기본 백의 자리는 넘어가는데, 일의 자리인 속성은 사전에 버리는 게 맞을 것 같다.
MainCategory: 스킨케어
  가격: 4668
  기능/효과: 11421
  디자인: 93
  밀착력/접착력: 73
  발림성: 2989
  보습력/수분감: 9704
  사용감: 543
  색상: 151
  성분: 773
  용기: 644
  용량: 2128
  유통기한: 618
  윤기/피부(톤): 3435
  자극성: 2903
  제품구성: 2645
  제형: 1835
  지속력: 1009
  커버력: 79
  탄력: 978
  편의성/활용성: 3438
  품질: 672
  피부타입: 1353
  향: 2933
  흡수력: 5621


MainCategory: 헤어/바디케어
  가격: 4775
  거품력: 905
  그립감: 9
  기능/효과: 4214
  두피보호: 353
  디자인: 108
  머릿결관리: 3576
  밀착력/접착력: 80
  발림성: 1110
  발색력: 889
  보습력/수분감: 3706
  분사력: 159
  사용감: 375
  색상: 398
  성분: 663
  세정력: 1183
  세팅력/고정력: 1019
  스타일링효과: 1145
  염색력: 2508
  용기: 859
  용량/사이즈: 1910
  유통기한: 536
  윤기/피부(톤): 199
  이염: 371
  자극성: 2052
  제품구성: 1322
  제형: 1349
  지속력/유지력: 1697
  청량감/쿨링감: 1237
  클렌징/제거력: 367
  탈모개선: 1170
  편의성/활용성: 3671
  품질: 726
  피부타입: 367
  향/냄새: 7147
  흡수력: 1761


MainCategory: 메이크업/뷰티소품
  가격: 3753
  기능/효과: 3521
  디자인: 465
  밀착력/접착력: 2072
  발림성: 3711
  발색력: 2639
  보습력/수분감/쿨링감: 3664
  사용감: 297
  사이즈/두께: 837
  색상: 3593
  성분: 173
  용기: 1309
  용량/개수: 1139
  유통기한: 408
  윤기/피부(톤): 2143
  자극성: 480
  제품구성: 1379
  제형: 914
  지속력/유지력: 4333
  커버력: 2354
  탄력: 38
  편의성/활용성: 3143
  품질: 769
  피부타입: 360
  향: 5935
  흡수력: 1949


MainCategory: 남성화장품
  가격: 2129
  기능/효과: 1652
  디자인: 137
  밀착력/접착력: 24
  발림성: 463
  보습력/수분감/쿨링감: 1959
  사용감: 210
  색상: 36
  성분: 173
  용기: 549
  용량: 630
  유통기한: 301
  윤기/피부(톤): 278
  자극성: 802
  제품구성: 584
  제형: 555
  지속력/유지력: 677
  커버력: 4
  탄력: 9
  편의성/활용성: 1675
  품질: 352
  피부타입: 361
  향: 3645
  흡수력: 1279

from nlp-project.

heewoneha avatar heewoneha commented on July 18, 2024
  • 그리고 감성 극성 0의 경우, 중간 보고서에서 제외한다고 적었지만, 막상 데이터를 실제로 살펴보니 개수가 지나치게 적다고 느껴지지 않았다. 그래서 일단 이대로 가져가기로 한다.
SentimentPolarity Counts: # 전체
-1: 48082
0: 10184
1: 126218
MainCategory SentimentPolarity Counts: # 카테고리별
MainCategory: 스킨케어
  -1: 14377
  0: 4355
  1: 41974


MainCategory: 헤어/바디케어
  -1: 14558
  0: 3316
  1: 36042


MainCategory: 메이크업/뷰티소품
  -1: 14074
  0: 1964
  1: 35340


MainCategory: 남성화장품
  -1: 5073
  0: 549
  1: 12862

from nlp-project.

heewoneha avatar heewoneha commented on July 18, 2024
  • 불용어 처리는 ㅎㅎ, ~~ 등을 제거하고자 한글만 남기는 정규표현식을 사용할 것이다. 숫자, 영어도 없앤다. 공백이 연속으로 있으면 공백 하나만 남기도록 한다.
text = '촉촉하고 사용감이 너무 무겁지 않아서 좋아요 ㅎㅎ 향기도 그렇게 진하지 않고 은은한 장미향이 납니다 ! 그냥 추천순에 뜨길래 구매한건데 좋아서 후기씁니다 ㅎㅎ'
text = re.sub(f"[^가-힣| |]+", " ", text)
cleaned_text = re.sub(' +', ' ', text).rstrip()
print(text)
# 촉촉하고 사용감이 너무 무겁지 않아서 좋아요  향기도 그렇게 진하지 않고 은은한 장미향이 납니다  그냥 추천순에 뜨길래 구매한건데 좋아서 후기씁니다 
print(cleaned_text)
# 촉촉하고 사용감이 너무 무겁지 않아서 좋아요 향기도 그렇게 진하지 않고 은은한 장미향이 납니다 그냥 추천순에 뜨길래 구매한건데 좋아서 후기씁니다

from nlp-project.

Related Issues (10)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.