Comments (2)
안녕하세요,
Vocab 갯수가 3만은 경험적으로 지정한 측면이 있습니다.
다만 한국어같은 경우는 자소단위가 아닌 이상 한 글자 단위도 무척 많아서, 해당 부분을 모두 커버하고 + 유의미한 단어 단위로 자르기 위해서는 3만개 정도는 필요하다고 생각합니다.
물론 3만개의 Vocab도 완벽한것은 아니기 때문에 한계는 있습니다 :)
Finetune을 Downstream task에 사용하시려는 것일까요? 아니면 갖고 계시는 데이터로 Pretrain을 좀 더 하시려는걸까요? 그것에 따라서 달라집니다.
전자의 경우라면 본문의 Colab링크를 참고하시면 Classification 예시가 있고,
후자의 경우라면 좀더 복잡한 방법이 필요합니다.
from kcbert.
아 3만개 지정은 그런 이유이시군요 감사합니다.
음.. 전자쪽이 맞을 것 같습니다.
가지고 있는 dataset을 이용해서
- Tokenizer word 부터 다시 셋팅
- 셋팅된 tokenizer로 fine tune 하는 수준
으로 생각하고 있었습니다.
말씀해주신 자료 보면서 이것저것 조사를 해봐야겠네요 ㅎㅎ 감사합니다!
from kcbert.
Related Issues (15)
- 안녕하세요, colab코드에 대해 질문이 있습니다.
- Pre-train 시 코퍼스 파일 문서 나누기 HOT 2
- optuna를 통합 매개변수 최적화와 모델 앙상블 HOT 1
- predictions_tr = trainer.predict(dataloaders=model.val_dataloader()) 부분 오류 문의 HOT 1
- 파일이 없는 것 같습니다. HOT 1
- pre-train시 학습 데이터
- pretraining 관련 문의 HOT 1
- IndexError: Target 2 is out of bounds. 오류 질문드립니다. HOT 8
- pooler_num_attention_heads 문의 HOT 3
- ckpt 에서 BERT 모델 로드하는 방법 HOT 4
- kcbert-large colab에서 오류가 발생합니다 HOT 3
- predict 시에 데이터가 증가하는 현상 HOT 10
- kcbert-large에서의 predict방법
- KcBERT Pre-Training Corpus (Korean News Comments)
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from kcbert.