Comments (5)
데이터 전처리 해야할 일
- 라벨링 데이터에서 다음과 같이 똑같은 Aspect가 여러 개 나타날 경우, Aspect 랜덤으로 하나만 남기고 다 버리기 - 속성은 같은데 극성이 다른 경우가 존재할 수도 있음. 이런 경우 속성 추측할 때 문제가 생김.
Sentiment Text | Aspect | Sentiment Polarity |
---|---|---|
향이 무지 약하네요. | 향 | -1 |
향이 약하고 | 향 | -1 |
지속시간도 많이 짧네요. | 지속력/유지력 | -1 |
- 원천, 라벨링 데이터의 불용어 제거 (
ㅎㅎ
,~~
등) - 감성 분석이기에 필요 없다고 판단. - 라벨링 데이터에서 감성 극성
0(neutral)
제외 - 개수가 상대적으로 지나치게 적음.
from nlp-project.
resolve #2
EDA 결과, 화장품 관련 샘플 데이터 총 개수는 49,996개로 공표된 개수와 일치한다.
그냥 샘플 데이터라는 게, 아직 수정 또는 보완될 가능성이 존재한다는 의미였나보다.
from nlp-project.
MainCategory
와 그에 따른Aspect
의 개수를 살펴봤다. 카테고리마다 속성이 상이하다. 어떤 카테고리는보습력/수분감
을 속성 명칭으로 사용하고 있지만, 다른 카테고리에서는보습력/수분감/쿨링감
으로 하고 있고, 심지어는청량감/쿨링감
도 있다. 카테고리 4개(스킨케어, 헤어/바디케어, 메이크업/뷰티소품, 남성화장품)를 나눠서 진행해야 속성 맞추는 성능이 높아질 것 같다.- 그리고 대부분 개수가 기본 백의 자리는 넘어가는데, 일의 자리인 속성은 사전에 버리는 게 맞을 것 같다.
MainCategory: 스킨케어
가격: 4668
기능/효과: 11421
디자인: 93
밀착력/접착력: 73
발림성: 2989
보습력/수분감: 9704
사용감: 543
색상: 151
성분: 773
용기: 644
용량: 2128
유통기한: 618
윤기/피부(톤): 3435
자극성: 2903
제품구성: 2645
제형: 1835
지속력: 1009
커버력: 79
탄력: 978
편의성/활용성: 3438
품질: 672
피부타입: 1353
향: 2933
흡수력: 5621
MainCategory: 헤어/바디케어
가격: 4775
거품력: 905
그립감: 9
기능/효과: 4214
두피보호: 353
디자인: 108
머릿결관리: 3576
밀착력/접착력: 80
발림성: 1110
발색력: 889
보습력/수분감: 3706
분사력: 159
사용감: 375
색상: 398
성분: 663
세정력: 1183
세팅력/고정력: 1019
스타일링효과: 1145
염색력: 2508
용기: 859
용량/사이즈: 1910
유통기한: 536
윤기/피부(톤): 199
이염: 371
자극성: 2052
제품구성: 1322
제형: 1349
지속력/유지력: 1697
청량감/쿨링감: 1237
클렌징/제거력: 367
탈모개선: 1170
편의성/활용성: 3671
품질: 726
피부타입: 367
향/냄새: 7147
흡수력: 1761
MainCategory: 메이크업/뷰티소품
가격: 3753
기능/효과: 3521
디자인: 465
밀착력/접착력: 2072
발림성: 3711
발색력: 2639
보습력/수분감/쿨링감: 3664
사용감: 297
사이즈/두께: 837
색상: 3593
성분: 173
용기: 1309
용량/개수: 1139
유통기한: 408
윤기/피부(톤): 2143
자극성: 480
제품구성: 1379
제형: 914
지속력/유지력: 4333
커버력: 2354
탄력: 38
편의성/활용성: 3143
품질: 769
피부타입: 360
향: 5935
흡수력: 1949
MainCategory: 남성화장품
가격: 2129
기능/효과: 1652
디자인: 137
밀착력/접착력: 24
발림성: 463
보습력/수분감/쿨링감: 1959
사용감: 210
색상: 36
성분: 173
용기: 549
용량: 630
유통기한: 301
윤기/피부(톤): 278
자극성: 802
제품구성: 584
제형: 555
지속력/유지력: 677
커버력: 4
탄력: 9
편의성/활용성: 1675
품질: 352
피부타입: 361
향: 3645
흡수력: 1279
from nlp-project.
- 그리고 감성 극성 0의 경우, 중간 보고서에서 제외한다고 적었지만, 막상 데이터를 실제로 살펴보니 개수가 지나치게 적다고 느껴지지 않았다. 그래서 일단 이대로 가져가기로 한다.
SentimentPolarity Counts: # 전체
-1: 48082
0: 10184
1: 126218
MainCategory SentimentPolarity Counts: # 카테고리별
MainCategory: 스킨케어
-1: 14377
0: 4355
1: 41974
MainCategory: 헤어/바디케어
-1: 14558
0: 3316
1: 36042
MainCategory: 메이크업/뷰티소품
-1: 14074
0: 1964
1: 35340
MainCategory: 남성화장품
-1: 5073
0: 549
1: 12862
from nlp-project.
- 불용어 처리는
ㅎㅎ
,~~
등을 제거하고자 한글만 남기는 정규표현식을 사용할 것이다. 숫자, 영어도 없앤다. 공백이 연속으로 있으면 공백 하나만 남기도록 한다.
text = '촉촉하고 사용감이 너무 무겁지 않아서 좋아요 ㅎㅎ 향기도 그렇게 진하지 않고 은은한 장미향이 납니다 ! 그냥 추천순에 뜨길래 구매한건데 좋아서 후기씁니다 ㅎㅎ'
text = re.sub(f"[^가-힣| |]+", " ", text)
cleaned_text = re.sub(' +', ' ', text).rstrip()
print(text)
# 촉촉하고 사용감이 너무 무겁지 않아서 좋아요 향기도 그렇게 진하지 않고 은은한 장미향이 납니다 그냥 추천순에 뜨길래 구매한건데 좋아서 후기씁니다
print(cleaned_text)
# 촉촉하고 사용감이 너무 무겁지 않아서 좋아요 향기도 그렇게 진하지 않고 은은한 장미향이 납니다 그냥 추천순에 뜨길래 구매한건데 좋아서 후기씁니다
from nlp-project.
Related Issues (10)
- 프로젝트 주제 HOT 5
- 데이터 개방 관련 HOT 5
- 데이터 사전 가공 HOT 6
- GPU 문제 HOT 5
- 데이터 사전 가공과 관련한 문제 HOT 5
- 디스크 용량 부족 문제 HOT 5
- 중간 Report 이후로 바뀐 점 정리 HOT 5
- 워드 클라우드 HOT 5
- 모델의 성능과 속도 HOT 5
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from nlp-project.