beomi / kcbert Goto Github PK

View Code? Open in Web Editor NEW

460.0 19.0 42.0 747 KB

🤗 Pretrained BERT model & WordPiece tokenizer trained on Korean Comments 한국어 댓글로 프리트레이닝한 BERT 모델과 데이터셋

Home Page: https://huggingface.co/beomi/kcbert-base

License: MIT License

bert-model korean-nlp bert nlp transformers

kcbert's Introduction

KcBERT: Korean comments BERT

** Updates on 2022.11.07 **

KcELECTRA v2022 학습에 사용한, 확장된 텍스트 데이터셋(v2022.3Q)를 공개합니다.
https://github.com/Beomi/KcBERT/releases/tag/v2022.3Q
기존 11GB -> 신규 45GB, 기존 0.9억건 -> 신규 3.4억건으로 기존 v1 데이터셋 대비 약 4배 증가한 데이터셋입니다.

** Updates on 2022.10.08 **

KcELECTRA-base-v2022 (구 dev) 모델 이름이 변경되었습니다.
기존 KcELECTRA-base(v2021) 대비 대부분의 downstream task에서 ~1%p 수준의 성능 향상이 있습니다.

** Updates on 2022.09.14 **

emoji의 v2.0.0 업데이트됨에 따라 Preprocessing 코드가 일부 변경되었습니다.

** Updates on 2021.04.07 **

KcELECTRA가 릴리즈 되었습니다!🤗
KcELECTRA는 보다 더 많은 데이터셋, 그리고 더 큰 General vocab을 통해 KcBERT 대비 모든 태스크에서 더 높은 성능을 보입니다.
아래 깃헙 링크에서 직접 사용해보세요!
https://github.com/Beomi/KcELECTRA

** Updates on 2021.03.14 **

KcBERT Paper 인용 표기를 추가하였습니다.(bibtex)
KcBERT-finetune Performance score를 본문에 추가하였습니다.

** Updates on 2020.12.04 **

Huggingface Transformers가 v4.0.0으로 업데이트됨에 따라 Tutorial의 코드가 일부 변경되었습니다.

업데이트된 KcBERT-Large NSMC Finetuning Colab:

** Updates on 2020.09.11 **

KcBERT를 Google Colab에서 TPU를 통해 학습할 수 있는 튜토리얼을 제공합니다! 아래 버튼을 눌러보세요.

Colab에서 TPU로 KcBERT Pretrain 해보기:

텍스트 분량만 전체 12G 텍스트 중 일부(144MB)로 줄여 학습을 진행합니다.

한국어 데이터셋/코퍼스를 좀더 쉽게 사용할 수 있는 Korpora 패키지를 사용합니다.

** Updates on 2020.09.08 **

Github Release를 통해 학습 데이터를 업로드하였습니다.

다만 한 파일당 2GB 이내의 제약으로 인해 분할압축되어있습니다.

아래 링크를 통해 받아주세요. (가입 없이 받을 수 있어요. 분할압축)

만약 한 파일로 받고싶으시거나/Kaggle에서 데이터를 살펴보고 싶으시다면 아래의 캐글 데이터셋을 이용해주세요.

Github릴리즈: https://github.com/Beomi/KcBERT/releases/tag/TrainData_v1

** Updates on 2020.08.22 **

Pretrain Dataset 공개

캐글: https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments (한 파일로 받을 수 있어요. 단일파일)

Kaggle에 학습을 위해 정제한(아래 clean처리를 거친) Dataset을 공개하였습니다!

직접 다운받으셔서 다양한 Task에 학습을 진행해보세요 :)

공개된 한국어 BERT는 대부분 한국어 위키, 뉴스 기사, 책 등 잘 정제된 데이터를 기반으로 학습한 모델입니다. 한편, 실제로 NSMC와 같은 댓글형 데이터셋은 정제되지 않았고 구어체 특징에 신조어가 많으며, 오탈자 등 공식적인 글쓰기에서 나타나지 않는 표현들이 빈번하게 등장합니다.

KcBERT는 위와 같은 특성의 데이터셋에 적용하기 위해, 온라인 뉴스에서 댓글과 대댓글을 수집해, 토크나이저와 BERT모델을 처음부터 학습한 Pretrained BERT 모델입니다.

KcBERT는 Huggingface의 Transformers 라이브러리를 통해 간편히 불러와 사용할 수 있습니다. (별도의 파일 다운로드가 필요하지 않습니다.)

KcBERT Performance

Finetune 코드는 https://github.com/Beomi/KcBERT-finetune 에서 찾아보실 수 있습니다.

	Size (용량)	NSMC (acc)	Naver NER (F1)	PAWS (acc)	KorNLI (acc)	KorSTS (spearman)	Question Pair (acc)	KorQuaD (Dev) (EM/F1)
KcBERT-Base	417M	89.62	84.34	66.95	74.85	75.57	93.93	60.25 / 84.39
KcBERT-Large	1.2G	90.68	85.53	70.15	76.99	77.49	94.06	62.16 / 86.64
KoBERT	351M	89.63	86.11	80.65	79.00	79.64	93.93	52.81 / 80.27
XLM-Roberta-Base	1.03G	89.49	86.26	82.95	79.92	79.09	93.53	64.70 / 88.94
HanBERT	614M	90.16	87.31	82.40	80.89	83.33	94.19	78.74 / 92.02
KoELECTRA-Base	423M	90.21	86.87	81.90	80.85	83.21	94.20	61.10 / 89.59
KoELECTRA-Base-v2	423M	89.70	87.02	83.90	80.61	84.30	94.72	84.34 / 92.58
DistilKoBERT	108M	88.41	84.13	62.55	70.55	73.21	92.48	54.12 / 77.80

*HanBERT의 Size는 Bert Model과 Tokenizer DB를 합친 것입니다.

*config의 세팅을 그대로 하여 돌린 결과이며, hyperparameter tuning을 추가적으로 할 시 더 좋은 성능이 나올 수 있습니다.

How to use

Requirements

pytorch <= 1.8.0
transformers ~= 3.0.1
- transformers ~= 4.0.0 도 호환됩니다.
emoji ~= 0.6.0
soynlp ~= 0.0.493

from transformers import AutoTokenizer, AutoModelWithLMHead

# Base Model (108M)

tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-base")

model = AutoModelWithLMHead.from_pretrained("beomi/kcbert-base")

# Large Model (334M)

tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-large")

model = AutoModelWithLMHead.from_pretrained("beomi/kcbert-large")

Pretrain & Finetune Colab 링크 모음

Pretrain Data

Pretrain Code

Colab에서 TPU로 KcBERT Pretrain 해보기:

Finetune Samples

KcBERT-Base NSMC Finetuning with PyTorch-Lightning (Colab)

KcBERT-Large NSMC Finetuning with PyTorch-Lightning (Colab)

위 두 코드는 Pretrain 모델(base, large)와 batch size만 다를 뿐, 나머지 코드는 완전히 동일합니다.

Train Data & Preprocessing

Raw Data

학습 데이터는 2019.01.01 ~ 2020.06.15 사이에 작성된 댓글 많은 뉴스 기사들의 댓글과 대댓글을 모두 수집한 데이터입니다.

데이터 사이즈는 텍스트만 추출시 약 15.4GB이며, 1억1천만개 이상의 문장으로 이뤄져 있습니다.

Preprocessing

PLM 학습을 위해서 전처리를 진행한 과정은 다음과 같습니다.

한글 및 영어, 특수문자, 그리고 이모지(🥳)까지!

정규표현식을 통해 한글, 영어, 특수문자를 포함해 Emoji까지 학습 대상에 포함했습니다.

한편, 한글 범위를 ㄱ-ㅎ가-힣 으로 지정해 ㄱ-힣 내의 한자를 제외했습니다.
댓글 내 중복 문자열 축약

ㅋㅋㅋㅋㅋ와 같이 중복된 글자를 ㅋㅋ와 같은 것으로 합쳤습니다.
Cased Model

KcBERT는 영문에 대해서는 대소문자를 유지하는 Cased model입니다.
글자 단위 10글자 이하 제거

10글자 미만의 텍스트는 단일 단어로 이뤄진 경우가 많아 해당 부분을 제외했습니다.
중복 제거

중복적으로 쓰인 댓글을 제거하기 위해 중복 댓글을 하나로 합쳤습니다.

이를 통해 만든 최종 학습 데이터는 12.5GB, 8.9천만개 문장입니다.

아래 명령어로 pip로 설치한 뒤, 아래 clean함수로 클리닝을 하면 Downstream task에서 보다 성능이 좋아집니다. ([UNK] 감소)

pip install soynlp emoji

아래 clean 함수를 Text data에 사용해주세요.

import re
import emoji
from soynlp.normalizer import repeat_normalize

pattern = re.compile(f'[^ .,?!/@$%~％·∼()\x00-\x7Fㄱ-ㅣ가-힣]+')
url_pattern = re.compile(
    r'https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)')

def clean(x): 
    x = pattern.sub(' ', x)
    x = emoji.replace_emoji(x, replace='') #emoji 삭제
    x = url_pattern.sub('', x)
    x = x.strip()
    x = repeat_normalize(x, num_repeats=2)

    return x

Cleaned Data (Released on Kaggle)

원본 데이터를 위 clean함수로 정제한 12GB분량의 txt 파일을 아래 Kaggle Dataset에서 다운받으실 수 있습니다 :)

https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments

Tokenizer Train

Tokenizer는 Huggingface의 Tokenizers 라이브러리를 통해 학습을 진행했습니다.

그 중 BertWordPieceTokenizer 를 이용해 학습을 진행했고, Vocab Size는 30000으로 진행했습니다.

Tokenizer를 학습하는 것에는 1/10로 샘플링한 데이터로 학습을 진행했고, 보다 골고루 샘플링하기 위해 일자별로 stratify를 지정한 뒤 햑습을 진행했습니다.

BERT Model Pretrain

KcBERT Base config

{
    "max_position_embeddings": 300,
    "hidden_dropout_prob": 0.1,
    "hidden_act": "gelu",
    "initializer_range": 0.02,
    "num_hidden_layers": 12,
    "type_vocab_size": 2,
    "vocab_size": 30000,
    "hidden_size": 768,
    "attention_probs_dropout_prob": 0.1,
    "directionality": "bidi",
    "num_attention_heads": 12,
    "intermediate_size": 3072,
    "architectures": [
        "BertForMaskedLM"
    ],
    "model_type": "bert"
}

KcBERT Large config

{
    "type_vocab_size": 2,
    "initializer_range": 0.02,
    "max_position_embeddings": 300,
    "vocab_size": 30000,
    "hidden_size": 1024,
    "hidden_dropout_prob": 0.1,
    "model_type": "bert",
    "directionality": "bidi",
    "pad_token_id": 0,
    "layer_norm_eps": 1e-12,
    "hidden_act": "gelu",
    "num_hidden_layers": 24,
    "num_attention_heads": 16,
    "attention_probs_dropout_prob": 0.1,
    "intermediate_size": 4096,
    "architectures": [
        "BertForMaskedLM"
    ]
}

BERT Model Config는 Base, Large 기본 세팅값을 그대로 사용했습니다. (MLM 15% 등)

TPU v3-8 을 이용해 각각 3일, N일(Large는 학습 진행 중)을 진행했고, 현재 Huggingface에 공개된 모델은 1m(100만) step을 학습한 ckpt가 업로드 되어있습니다.

모델 학습 Loss는 Step에 따라 초기 200k에 가장 빠르게 Loss가 줄어들다 400k이후로는 조금씩 감소하는 것을 볼 수 있습니다.

Base Model Loss

Large Model Loss

학습은 GCP의 TPU v3-8을 이용해 학습을 진행했고, 학습 시간은 Base Model 기준 2.5일정도 진행했습니다. Large Model은 약 5일정도 진행한 뒤 가장 낮은 loss를 가진 체크포인트로 정했습니다.

Example

HuggingFace MASK LM

HuggingFace kcbert-base 모델 에서 아래와 같이 테스트 해 볼 수 있습니다.

물론 kcbert-large 모델 에서도 테스트 할 수 있습니다.

NSMC Binary Classification

네이버 영화평 코퍼스 데이터셋을 대상으로 Fine Tuning을 진행해 성능을 간단히 테스트해보았습니다.

Base Model을 Fine Tune하는 코드는 에서 직접 실행해보실 수 있습니다.

Large Model을 Fine Tune하는 코드는 에서 직접 실행해볼 수 있습니다.

GPU는 P100 x1대 기준 1epoch에 2-3시간, TPU는 1epoch에 1시간 내로 소요됩니다.
GPU RTX Titan x4대 기준 30분/epoch 소요됩니다.
예시 코드는 pytorch-lightning으로 개발했습니다.

실험결과

KcBERT-Base Model 실험결과: Val acc .8905
KcBERT-Large Model 실험 결과: Val acc .9089

더 다양한 Downstream Task에 대해 테스트를 진행하고 공개할 예정입니다.

인용표기/Citation

KcBERT를 인용하실 때는 아래 양식을 통해 인용해주세요.

@inproceedings{lee2020kcbert,
  title={KcBERT: Korean Comments BERT},
  author={Lee, Junbum},
  booktitle={Proceedings of the 32nd Annual Conference on Human and Cognitive Language Technology},
  pages={437--440},
  year={2020}
}

논문집 다운로드 링크: http://hclt.kr/dwn/?v=bG5iOmNvbmZlcmVuY2U7aWR4OjMy (*혹은 http://hclt.kr/symp/?lnb=conference )

Acknowledgement

KcBERT Model을 학습하는 GCP/TPU 환경은 TFRC 프로그램의 지원을 받았습니다.

모델 학습 과정에서 많은 조언을 주신 Monologg 님 감사합니다 :)

Reference

Github Repos

Papers

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Blogs

kcbert's People

Contributors

Stargazers

Watchers

kcbert's Issues

pre-train시 학습 데이터

안녕하세요! 좋은 모델과 코드를 열어주셔서 감사합니다.
다름이 아니라 제가 https://beomi.github.io/2021/03/15/KcBERT-MLM-Finetune/
이 사이트에 나와있는데로 추가 학습을 했었는데
제 도메인에 맞는 데이터 [mask] 예측을 잘 하지 못하는 것 같아서,
vocab.txt를 제 학습 데이터로 만들어서 변경후 추가 학습을 하려하는데 이렇게 해도 괜찮을까요 ?

안녕하세요, colab코드에 대해 질문이 있습니다.

먼저 좋은 자료 공유해 주셔서 감사합니다.
저는 아직 초보지만 딥러닝에 관심이 있는 학생입니다.

colab에서 불러오는 dataset만 제가 원하는 데이터로 수정하여 학습을 진행해 봤습니다.

처음에는, colab의 KcBERT Large에서 pretrained_model만 beomi/kcbert-base로 수정해 시도해 봤는데,
학습이 완료된 모델이 세션 저장소에서 보이지 않았습니다.

두 번째에는, colab의 kcbert-nsmc에서 dataset만 바꾸어 진행해 봤는데, Exception: Model doesn't exists! Train first!
가 나왔습니다. 또한 predict.py를 실행했을 때에는 FileNotFoundError: [Errno 2] No such file or directory: './model/training_args.bin'이 나왔습니다.

colab에서 predict.py를 실행할 때 제가 준비해야 하는 다른 무언가가 있나요?
colab에서 제가 가진 데이터로 학습한 모델을 사용하거나, 로컬에서 사용하는 방법이 궁금합니다.

predictions_tr = trainer.predict(dataloaders=model.val_dataloader()) 부분 오류 문의

안녕하세요.

kcbert를 활용해서 팀 프로젝트를 진행하고 있는 학생입니다.

예측 모델이 학습데이터에 어떤 라벨을 예측했는지 뽑아 보고 싶어서 모델 학습 후, 다음과 같은 코드를 실행했습니다.

predictions_tr = trainer.predict(dataloaders=model.val_dataloader())

하지만 아래와 같은 오류가 계속 뜨네요...
TypeError: Model.forward() takes 1 positional argument but 2 were given

bard에게 물어봐서

class Model(LightningModule): 안에

def training_step(self, batch, batch_idx):
data, labels = batch
output = self(input_ids=data, labels=labels)

def training_step(self, batch, batch_idx):
    data, labels = batch
    output = self.forward(input_ids=data, labels=labels) # self => self.forward

라고 고쳤는데 그래도 오류도 나고 어떻게 해봐도 안되네요.

해결 방법을 아시는 분들은 답변 달아주심 감사하겠습니다. ㅠㅠ

optuna를 통합 매개변수 최적화와 모델 앙상블

안녕하세요.

BERT를 이용한 텍스트 분류를 연구하는 사람입니다.

그런데 kobert나 기타 한국 check point를 사용하는 예제에서는 optuna로 하이퍼 파라미터를 최적화 하거나, 앙상블 하는 것이 안보여서요.
그다지 유용성이 없어서 예제가 없는 것인지 아니면, 다른 이유인지 궁금합니다.

혹여 예제가 있다면 업로드 해주시면 감사하겠습니다

KcBERT Pre-Training Corpus (Korean News Comments)

안녕하세요,

KcBERT Pre-Training Corpus (Korean News Comments) 관련해서 여쭤볼 게 있는데요.
이 코퍼스로 모델을 학습 시켰다고 하시는데 각 코멘트의 라벨은 안 달려있나요?

답변 미리 감사드립니다.

IndexError: Target 2 is out of bounds. 오류 질문드립니다.

안녕하세요!

NLP를 공부하고있는 학생입니다.

기사 댓글 데이터를 처리하는데 아주 적합한 KcBERT를 찾아서 매우 잘 사용하고 있습니다. 감사합니다 :)

그런데, 공유해주신 NSMC 데이터셋 fine-tuning하는 코드에서 다른 데이터셋을 사용할 때 발생한 에러를 잡지 못하고 있습니다.

처음에는 RuntimeError: CUDA error: device-side assert triggered 에러가 나서 해당 사이트에서 Runtime type을 None으로 변경하면 실제 문제를 보여준다고 합니다. 그 이후 마주친 에러는 다음과 같습니다: IndexError: Target 2 is out of bounds.

코랩환경(공유해주신 네이버 영화평 데이터셋 fine-tuning Large Model): https://colab.research.google.com/drive/1dFC0FL-521m7CL_PSd8RLKq67jgTJVhL?usp=sharing
에러: IndexError: Target 2 is out of bounds.
상황: 제공해주신 코랩 환경에서 네이버 영화평 데이터셋이 아닌 5개의 감성 클래스(매우 부정 0, 부정 1, 중립 2, 긍정 3, 매우 긍정 4)를 가지고 있는 데이터셋으로 fine-tuning 하는 과정에서 해당 에러가 계속 생깁니다.
데이터셋 개수: 댓글 데이터 train: 11,281개 / test: 1,253개
데이터셋 구성: NSMC 데이터셋과 동일하게 id, document, label로 수정하였고, tab으로 띄어쓴 txt 파일입니다.

데이터 경로만 수정하였고, 다른 부분은 건들지 않았습니다.

5개의 레이블을 가진 데이터셋을 해당 코드에서 사용하려면 어떻게 하면 좋을까요?

제가 무엇을 놓치고 있는 것인지 도움 주실수 있으실까요?

에러 코드 전문 공유드립니다.

IndexError Traceback (most recent call last)
in ()
----> 1 main()

18 frames
in main()
18 # tpu_cores=args.tpu_cores if args.tpu_cores else None,
19 )
---> 20 trainer.fit(model)

/usr/local/lib/python3.6/dist-packages/pytorch_lightning/trainer/states.py in wrapped_fn(self, *args, **kwargs)
46 if entering is not None:
47 self.state = entering
---> 48 result = fn(self, *args, **kwargs)
49
50 # The INTERRUPTED state can be set inside the run function. To indicate that run was interrupted

/usr/local/lib/python3.6/dist-packages/pytorch_lightning/trainer/trainer.py in fit(self, model, train_dataloader, val_dataloaders, datamodule)
1082 self.accelerator_backend = CPUBackend(self)
1083 self.accelerator_backend.setup(model)
-> 1084 results = self.accelerator_backend.train(model)
1085
1086 # on fit end callback

/usr/local/lib/python3.6/dist-packages/pytorch_lightning/accelerators/cpu_backend.py in train(self, model)
37
38 def train(self, model):
---> 39 results = self.trainer.run_pretrain_routine(model)
40 return results

/usr/local/lib/python3.6/dist-packages/pytorch_lightning/trainer/trainer.py in run_pretrain_routine(self, model)
1237
1238 # CORE TRAINING LOOP
-> 1239 self.train()
1240
1241 def _run_sanity_check(self, ref_model, model):

/usr/local/lib/python3.6/dist-packages/pytorch_lightning/trainer/training_loop.py in train(self)
392 # RUN TNG EPOCH
393 # -----------------
--> 394 self.run_training_epoch()
395
396 if self.max_steps and self.max_steps <= self.global_step:

/usr/local/lib/python3.6/dist-packages/pytorch_lightning/trainer/training_loop.py in run_training_epoch(self)
489 # TRAINING_STEP + TRAINING_STEP_END
490 # ------------------------------------
--> 491 batch_output = self.run_training_batch(batch, batch_idx)
492
493 # only track outputs when user implements training_epoch_end

/usr/local/lib/python3.6/dist-packages/pytorch_lightning/trainer/training_loop.py in run_training_batch(self, batch, batch_idx)
842 opt_idx,
843 optimizer,
--> 844 self.hiddens
845 )
846 using_results_obj = isinstance(opt_closure_result.training_step_output, Result)

/usr/local/lib/python3.6/dist-packages/pytorch_lightning/trainer/training_loop.py in optimizer_closure(self, split_batch, batch_idx, opt_idx, optimizer, hiddens)
1013 else:
1014 training_step_output = self.training_forward(split_batch, batch_idx, opt_idx,
-> 1015 hiddens)
1016
1017 # ----------------------------

/usr/local/lib/python3.6/dist-packages/pytorch_lightning/trainer/training_loop.py in training_forward(self, batch, batch_idx, opt_idx, hiddens)
1224 # CPU forward
1225 else:
-> 1226 output = self.model.training_step(*args)
1227
1228 is_result_obj = isinstance(output, Result)

in training_step(self, batch, batch_idx)
15 def training_step(self, batch, batch_idx):
16 data, labels = batch
---> 17 loss, logits = self(input_ids=data, labels=labels)
18 preds = logits.argmax(dim=-1)
19

/usr/local/lib/python3.6/dist-packages/torch/nn/modules/module.py in _call_impl(self, *input, **kwargs)
720 result = self._slow_forward(*input, **kwargs)
721 else:
--> 722 result = self.forward(*input, **kwargs)
723 for hook in itertools.chain(
724 _global_forward_hooks.values(),

in forward(self, **kwargs)
11
12 def forward(self, **kwargs):
---> 13 return self.bert(**kwargs)
14
15 def training_step(self, batch, batch_idx):

/usr/local/lib/python3.6/dist-packages/transformers/modeling_bert.py in forward(self, input_ids, attention_mask, token_type_ids, position_ids, head_mask, inputs_embeds, labels, output_attentions, output_hidden_states, return_dict)
1340 else:
1341 loss_fct = CrossEntropyLoss()
-> 1342 loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))
1343
1344 if not return_dict:

/usr/local/lib/python3.6/dist-packages/torch/nn/modules/loss.py in forward(self, input, target)
946 def forward(self, input: Tensor, target: Tensor) -> Tensor:
947 return F.cross_entropy(input, target, weight=self.weight,
--> 948 ignore_index=self.ignore_index, reduction=self.reduction)
949
950

/usr/local/lib/python3.6/dist-packages/torch/nn/functional.py in cross_entropy(input, target, weight, size_average, ignore_index, reduce, reduction)
2420 if size_average is not None or reduce is not None:
2421 reduction = _Reduction.legacy_get_string(size_average, reduce)
-> 2422 return nll_loss(log_softmax(input, 1), target, weight, None, ignore_index, None, reduction)
2423
2424

/usr/local/lib/python3.6/dist-packages/torch/nn/functional.py in nll_loss(input, target, weight, size_average, ignore_index, reduce, reduction)
2216 .format(input.size(0), target.size(0)))
2217 if dim == 2:
-> 2218 ret = torch._C._nn.nll_loss(input, target, weight, _Reduction.get_enum(reduction), ignore_index)
2219 elif dim == 4:
2220 ret = torch._C._nn.nll_loss2d(input, target, weight, _Reduction.get_enum(reduction), ignore_index)

IndexError: Target 2 is out of bounds.

파일이 없는 것 같습니다.

안녕하세요! 좋은 모델 너무 감사합니다!
다름이 아니라 제가 가진 데이터셋으로 추가 학습시키려고 하는데 run_mlm.py 파일이 없는 것 같습니다.
혹시 실례가 안된다면 파일을 받을 수 있을까요 ? ㅜㅜ
감사합니다.

Pre-train 시 코퍼스 파일 문서 나누기

안녕하세요!
코퍼스 및 코드를 공개해주셔서 정말 감사합니다.

공개해주신 코퍼스로 KcBERT를 직접 한번 만들어 보려고 하는데요.

BERT 공식 github(https://github.com/google-research/bert)의 pre-training 설명에 따르면
| Here's how to run the data generation. The input is a plain text file, with one sentence per line. (It is important that these be actual sentences for the "next sentence prediction" task). Documents are delimited by empty lines.

라고 언급하고 있습니다. 특히 인용한 부분의 마지막 문장은 코퍼스가 여러 문서로 이루어져 있을 경우 문서와 문서 사이에 빈 행을 넣어 구분하라고 하고 있습니다.

공개해주신 코퍼스도 단일한 문서가 아니라 여러 가지 문서를 하나의 파일로 병합하신 것으로 보입니다.

그런데 공개해주신 코퍼스에는 문서를 구분하기 위한 빈 행이 보이지 않습니다.
혹시 모델을 만드실 때 코퍼스 내의 각 문서를 따로 구분하신 후 진행하셨는지, 아니면 공개된 대로 문서와 문서를 구분하지 않고 모델을 만드셨는지 궁금합니다!

pooler_num_attention_heads 문의

안녕하세요, 모델과 하이퍼파라미터 공유해주셔서 감사합니다.
해당 내용을 참고하여 학습을 진행하려고 하는데, 아래 두 항목은 Huggingface의 BertConfig 문서에는 보이지 않아 질문드리고자 합니다.

"pooler_size_per_head": 128,
"pooler_num_attention_heads": 12,

BERT에서의 pooler는 Transformer Encoder의 output 이후에 보통 FC를 사용하여 downstream task에 맞게 projection 되는 것으로 이해했습니다.
하지만 올려주신 BertConfig에는 pooler가 multi head attention layer를 타는듯한 항목이 보이는데요, https://huggingface.co/transformers/model_doc/bert.html#transformers.BertConfig이나 다른 문서에서도 확인이 힘들어 질문드리게 되었습니다.

huggingface issue에도 huggingface/transformers#788 와 같이 유사한 질문이 올라왔던 것 같으나, 답변이 달리지 않았네요.

pretraining 관련 문의

안녕하세요.
먼저 좋은 프로젝트 및 데이터 공유해주셔서 감사합니다!

캐글에 올려주신 데이터 확인해보니 댓글들 간에 맥락은 따로 없는 것처럼 보여서
기본 버트의 NSP나 알버트의 SOP는 사용하기 어려울것으로 보이는데,
pretraining 시, MLM만 사용하여 학습 하셨는지 여쭤보고 싶습니다.

감사합니다!

predict 시에 데이터가 증가하는 현상

안녕하세요 다시 또 이슈를 들고오게 되었네요 .. ;-;

모델에 만개의 데이터를 학습하려 했는데 계속 만개 이상의 데이터로 라벨이 나오는데, 이게 어떤 경우에 이렇게 되는건지 아시나요?

사진은 배치를 32로 했더니 계속 안되서, 배치 사이즈를 1로 바꾸고 테스트한 결과입니다.

안녕하세요! 질문이 있습니다.

안녕하세요 ~ 먼저 좋은 자료 공유해주셔서 감사합니다.
알고보니 제가 자주 갔던 블로그 주인님이시네요 ㅎㅎ

질문이 있어서 Issue 남겨드려요!
제가 초보라 질문 수준이 낮아서.. 죄송합니다 ㅠ

Tokenizer word 개수를 3만개로 지정한 이유가 있으실까요?

BERT 논문에서인가 거기서는 3만개로 했다고 본 것 같은데 그것 때문일까요?
한국어 (특히 네티즌들이 사용하는 단어)는 굉장히 다양한 단어가 있는데 3만개로 커버리지가 가능한지 궁금합니다!

Fine-tuning 하는 방법이 어떻게 될까요?

Beomi님께서 만드신 Pre-training된 model을 이용해서 제가 가지고 있는 Dataset에 Fine-tuning을 하고 싶습니다.
Model을 Fine-tuning 하는 방법과 Tokenizer tuning을(가능할지 모르겠지만) 하는 방법이 어떻게 될까요??

감사합니다!

kcbert-large에서의 predict방법

안녕하세요. 우선 kcbert 공개해주셔서 정말 감사드립니다.
이를 이용해 prediction을 해보려 하는데, 튜토리얼에는 나와있지 않은 것 같습니다.
어떻게 할 수 있을까요?
추가로, validation과정을 생략하고 싶은데, 가능할까요?
환경은 colab, gpu: t4입니다

kcbert-large colab에서 오류가 발생합니다

안녕하세요. 올려주신 코드 잘 사용하고 있습니다.

코랩에서 large 파일을 돌리려고 하는데, 일주일 전까지만 해도 잘 작동되다가 갑자기 오류가 발생하네요.
버전 오류일 수도 있다고 생각이 드는데, 계속 씨름하다가 해결 못 하겠어서 이슈 올립니다. ㅠㅠ

해결방법 아는 분들은 알려주시면 감사하겠습니다 (_ _)

ckpt 에서 BERT 모델 로드하는 방법

좋은 자료 공유 감사드립니다.

개인 데이터로 학습시킨 후, 생긴 ckpt 를 BERT 모델에 load 하는 방법에서 막혔습니다 ㅜㅜ

혹시 가이드라인을 제시해주실 수 있을까요?