Boostcamp AI Tech 3rd / Basic Paper reading w.r.t Embedding

Jupyter Notebook 99.93% Python 0.06% Shell 0.01%

boostcampaitech3-paperreading-embedding's People

Contributors

Stargazers

Watchers

Forkers

angiekang idj7183 sujeongim

boostcampaitech3-paperreading-embedding's Issues

[week2] 모델의 강인함이 무슨 말인지 궁금합니다. 그리고 만약 논문의 모델 입력에 noise가 들어가면 어떻게 처리할까요?, 논문에서 나온 모델은 강인한 모델일까요?

논문의 Intro 부분을 보게 되면, 기존의 NLP 모델이 One-hot encoding을 했던 이유 중에 모델의 강인함(robustness)에 대해 언급하고 있습니다. 모델의 강인함은 Input의 noise에 대한 강인함일까요? 잠깐 생각해보면 One-hot encoding이 Distributed에 비해 강인함을 가지고 있다 생각 됩니다. 하나의 값만 1이기 때문에 noise가 발생해도 복구가 쉽다고 생각합니다. 그런데 만약 논문에서 나온 CBOW, Skip-gram과같은 모델에서 input에 noise가 들어가 변형된 projection이 나온다면 어떻게 원래의 input으로 복구를 해줄까요?

[week1] loss in average mutual information?

mutual information과 loss in average mutual information과 다른점 ?
loss in average MI가 적은애들을 merge한다라는게 비슷한 의미를 가진 단어끼리 merge한다라고 해석하는게 맞나?
MI가 두 단어의 상관성을 나타내고, 비슷한 의미의 단어끼리 같은 클래스로 merge해야하기 때문에 MI가 큰 애들끼리는 묶어야한다고 이해할 수 있는데 loss in average MI가 적은애들끼리 merge한다고 해서 잘 이해가 안됨.

논문의 473page 두번째 문단에 정의는 돼있는데 \I_k, \I_k(i,j)의 정의에 대한 전개가 위에 쭉 있는데 그걸 놓쳐서 정확하게 이해를 못하겠음. \I_{k-1} = \I_k(i,j) 로 연결지어 생각했을 때 k 번째 sequence의 페어 i,j의 MI에서 (k-1)번째 sequence의 페어 i,j페어 의 MI를 뺀 값?으로 생각할 수 있는 것 같은데..

[Week 7] 어떻게 Naive Bayes 와 함께 사용했다는 것일까요?

3.5. Classification benchmarks에서,

다른 task에서는 언급되지 않았던 Naive Bayes가 나오게 되는데,
combine-skip과 Naive Bayes를 함께 사용한 combination의 성능이 가장 좋은 것으로 나타납니다.

그런데 combine-skip에 Naive Bayes를 combine했다는 것이 어떤 의미인지(수식적으로 또는 학습 방식적으로) 잘 이해가 되지 않아서 질문을 드립니다..!

[week4] 평가 지표로 Error rate을 사용한 이유?

해당 논문에서는 Error rate을 평가 지표로 사용하는데요,

왜 평가 지표로 Error rate을 사용했고, 그 수식이 어떻게 되는지는 자세히 설명이 안 나오는 것 같습니다.
특히 Sentiment classification에서는 accuracy, precision, recall, f1-score 등 다른 metric을 사용할 수도 있을 것 같은데 왜 error rate을 사용했을까에 대한 궁금증이 생겨서 질문을 올립니다.

제가 논문에서 설명을 찾지 못했을 수 있어서, 혹시 설명을 보시거나 알고 계시다면 알려주시면 감사하겠습니다!

[week2] 모델 complexity의 변천사 설명

일단 N에 대해서 설명하는 문구 이해가 정확히 안됐음(section2.1) 무슨 given time에? 그리고 active 된다는 것? N개의 sequence만 모델에 넣어주고 그때 그 단어만 학습되는 것을 이렇게 표현한건가?

As only N inputs are active at any given time, composition of the projection layer is a relatively cheap operation.

계산이나 dominant하다는 이유를 정확하게 이해 못하겠음.

NNLM : 두번째 term도 충분히 클텐데 왜 세번째 텀이 더 압도적이라는거지? 그럴려면 N* D<< V여야하는데 N은 입력 단어 갯수? D는 입력으로 들어오는 단어를 처음으로 projection 해주는 것이고? V는 전체 vocabulayr 사이즈? 라서 V가 압도적으로 크니까? 여서인가?

Q = (NxD) + (NxDxH) + (HxV)
- NxD : input layer
- (NxDxH) : hidden layer( single layer란 의미인가?)
- HxV : output layer(dominant)
허프만, hierarchical softmax 개념도 낯설다

RNNLM :

Q = (HxH) + (HxV) where D=H
- HxH : 음.. 이전 step의 데이터가 인풋으로 들어가서 다음 step에 영향을 주는 recurrent 하다는 것은 알겠고 그 맥락에서 이 식이 input과 hidden을 같이 퉁치는 것 같음. 하지만 인풋 단어 N개를 받아야하니까 NNLM처럼 input data인 N이 표현되는 식이 있어야되지 않나?
- HxV : 위랑 동일해서 대충 알겠음

CBOW : 히든 레이어 빠지고 output layer sharing

Q= NxD + Dx log_2(V)
- NxD : input layer
- Dx log_2(V) : output layer에 해당되는 계산. 주변 n 개를 통해 얻은 값으로 1개를 얻는 감소되는 과정을 log_2로 한 것 같은데 왜지??????** 왜 log2로 감소된다고 표현한거지 ?**

Skip-gram

Q=Cx(D+Dxlog_2(v))
- 이거는 log_2가 이해되면 이해될 것 같다

[week7] 가중치 함수 f(X_ij)의 진짜 기능은..??

(스터디에서 나왔던 해결되지 못한 질문입니다. 제가 잘 정리를 했는지는 모르겠네요ㅜㅎㅎ)

아래 GloVe의 Loss Function에서 가중치 함수 f(X_ij)는 X_ij의 값에 따라 가중치를 주기 위해서 이전 단계에서 유도된 Loss function에 곱해진 함수를 말합니다.

함수식과 그래프를 보았을 때,
논문에서는 X_ij=0 이면 f(X_ij) = 0 이 되기 때문에 Loss Function에서 X_ij=0일 때 log(X_ij)이 발산한다는 문제를 해결할 수 있다고 설명한 것 같습니다.

하지만 f(X_ij) = 0이 될 경우 Loss Function이 그냥 0이 되어 버린다고 설명하는데,
이러한 현상이 실제 X_ij=0에 해당하는 word vector들의 학습 또는 update과정에서 어떻게 영향을 미치는지에 대해서는 자세히 나와 있지 않아서 이 부분이 궁금합니다.

[week5] TODO

word2vec의 cbow, skip-gram 구현 방법 및 구현 차이
genism 모듈을 이용한 wod2vec 사용 및 간단한 소개?
doc2vec 구현 간단한 설명(참고 : https://github.com/inejc/paragraph-vectors)
negative sampling & subsampling 구적 설명 : 차이 및 동작 방식, 결과적으로 어떤 점이 유리한지
hierarchical softmax 좀더 설명 + 구현이 어떻게 되는지?
Noise Contrastive Estimation(NCE) 추가 설명

[Week 7] 목적함수에 log를 취하는 이유

이 논문의 목적함수 뿐만 아니라 다른 논문, 데이터 분석에서도 자꾸 log를 취하는데 장점이 뭘까요? 값을 작게 해줌으로써 얻을 수 있는 점들이 궁금합니다.

~~수학적 지식이 부족한 사람의 조금 기초적인 질문이긴 하지만 이때 아니면 언제 알아보겠어 하는 마음에 올립니다.~~

[week1] discussion동안 나온 질문

notation 에서 혼동옴 : small t 와 large T 가 의미하는 것과 n, n-1이 의미하는 것의 차이?
bleu score에서 나온 n-gram과 본 논문이 제안하는 n-gram class model이 연관성이 있나?

[week4] paragraph vector 의 크기

논문에서 paragraph vector 에 대한 설명을 해주는데요.

every paragraph is mapped to a unique vector, represented by a column in matrix D and every word is also mapped to a unique vector, represented by a column in matrix W .

여기서 **unique vector, represented by a column in matrix D ** 에서 paragraph 의 sentence 마다 vector 를 만들어서 paragraph matrix를 만들었다는 것인지? 아니면 paragraph를 하나의 vector로 만들었다는 것인가요?

두번째 방법 경우, paragraph를 다른 Word vector와 동일한 dimension 으로 응축시킨다면 정보 손실이 꽤 클 것 같은데.. 그럼에도 불구하고 현재 BERT에서 쓰는 CLS 토큰이랑 비슷한 역할을 한다는 느낌을 받았습니다.

[Week 7] 데이터 셋의 편향성이 정말로 없는가?

논문에서 수집한 데이터에 대한 설명으로 "The dataset has books in 16 different genres, e.g., Romance (2,865 books), Fantasy (1,479), Science fiction (786), Teen (430), etc." 라고 적혀있습니다. 그런 다음에 "Furthermore, with a large enough collection the training
set is not biased towards any particular domain or application."라고 언급하였는데, 이게 맞는 언급인지 궁금합니다.. 마지막 문장 생성 예시도 로맨스 쪽에 가까운데 편향성이 정말 없는지 궁금합니다..

[week2] 성능 평가를 위한 Task(질문을 주고 답변하는 task) 수행 절차와 학습 input, output 어떻게 되는것인지?

본 논문에서는Semantic question과 syntactic question을 맞추는 방식으로 성능 평가를 진행합니다.(논문 4.1 Sec.) 각 질문들이 생성되는 방식은 아래와 같은데요..
- 비슷한 단어 페어 생성
- 두 단어로 구성된 pair로 질문지가 생성
질문은 어떻게 모델이 이해하게 주어지는 것이죠?.. 아니면 질문을 직접 적으로 주는건 아니고, 두 개의 페어를 받으면(pair1: athens, greece & pair2: oslo, norway) 각 페어를 구성하는 단어끼리 더 가까운 단어로 구성된 페어를 모델이 정답으로 뱉으면 맞다고 처리하는건가요?

CBOW랑 skip-gram 어떻게 학습위한 데이터셋 구성이 어떻게 되는지 찾아봐야겠음

[week 2] continuous distributed representation의 의미

본 논문은 sparse representation의 단점을 보완하고자 새로운 두 가지 distributed representation인 CBOW와 Skip-gram을 제안하는데요, continuous distributed representation과 distributed representation은 다른 의미인가요?

논문에서는 둘을 구분해서 사용하는 것 같지는 않은데, 동일한 의미인지 궁금합니다.
다른 의미라면 continuous 하다는게 벡터 안의 값이 continuous한 것일까요? 아니면 입력으로 continuous 단어들을 받는다는 의미일까요?

[Week3] Test data set 구성은 어떻게 하는 걸까요? 그리고 test data 자체의 의의가 궁금합니다.

이번 페이퍼는 좀 기술적인 요소가 많아서 물어볼 거리가 적네요 ㅜ

지난 skip gram 때는 그냥 넘어갔는데 문득 들은 생각이 test data를 대체 어떻게 만들었을까 입니다. (글 올리고나서 보니 비슷한 질문을 소연님이 해주셨네요)

논문에 보면 어떻게 만들었다 얘기는 없고 자기들이 원래 있던 셋에서 발전시켰다 나옵니다.
To evaluate the quality of the phrase vectors, we developed a test set of analogical
reasoning tasks that contains both words and phrases.
만약 train data set에 있는 단어들을 추출해서 휴리스틱한 방식으로 test data를 만든다고 하면 존재 의의가 조금 궁금합니다.. 그냥 word2vec이 주어진 dataset에서 단어들간의 관계를 잘 만들어요~ 이게 끝이면 완전 새로운 데이터에 대해선 완전히 능력이 없는 셈이 되는거란 느낌이 듭니다.

예를 들어서 어떤 제품에 대해 긍정적인 반응에 대한 글로 학습을 쭉 한 다음에 부정적인 반응에 대한 글로 test를 한다면 전혀 의미가 없을 것 같은데.. 대체 test data를 어떻게 구성했길래 이 당시에 저처럼 생각하는 사람들을 납득시켰을까요?

[week2] CBOW와 Skip-gram의 syntactic task와 semantic task의 성능 차이 나는 이유가 학습 방식과 어떤 관련이 있을까요?

논문 4.3 section 3번째 문단입니다.

The CBOW architecture works better than the NNLM on the syntactic tasks, and about the same on the semantic one. Finally, the Skip-gram architecture works slightly worse on the syntactic task than the CBOW model (but still better than the NNLM), and much better on the semantic part of the test than all the other models.

CBOW 은 NNLM 대비 syntactic에서 높은 성능냈지만 semantic 측면에서는 비슷
Skip-gram은 syntactic task는 NNLM보다는 높지만 CBOW보다 낮음. 반면에 semantic에서는 가장 높음

CBOW는 주변 단어를 참고해서 현재 단어를 예측하고, skip-gram은 현재 단어로 주변 단어를 예측하는 방식으로 학습되는데요. 이런 학습 방식의 syntactic, semantic 테스크의 성능 차이로 이어지는 것일까요?

[Week2] multiple degrees of similarity를 갖는다는게 무슨 의미일까요?

Word2Vec 논문 2페이지에 보면
We use recently proposed techniques for measuring the quality of the resulting vector representations, with the expectation that not only will similar words tend to be close to each other, but that words can have multiple degrees of similarity [20]
라는 부분이 나옵니다.
단어 유사성을 이해하는 것이 목적이라는 것은 알겠는데 multiple degrees of similarity가 무슨 의미인지 잘 이해가 되지 않습니다.
아래 예시와 같은 생각으로 일단 이해하고 넘어갔는데, 정확한 의미에 대해 알고 싶어서 질문합니다.

( Korea는 Seoul과 Similarity를 가지고 있음과 동시에, Kimchi와도 Similarity를 가지고 있으니 multiple degreses of similarity를 가지고 있는건가? 라고 일단은 이해하고 넘어갔습니다)

[week 2] Projection Layers 과 Projection Matrix의 차이

CBOW 설명 부분의 두번째 줄에서
projection layer is shared for all words. (not just the projection matrix) 라고 되어 있는데,
projection matrix가 이전에 사용하던 matrix인지, 그렇다면 projection matrix는 projection layer와 어떻게 다르게 동작하는지 궁금합니다.

(아니면 그냥 'matrix가 아니고 layer다'라는 말을 하고 싶었던 걸까요..?

[week 8] 단어의 subword와 특정 단어가 겹칠 때의 embedding 이 겹치면?

논문에서 사용한 예시 where를 생각하면, <wh, whe, her, ere, re> 가 됩니다. 이때 her 라는 단어는 대명사인 her 과 겹치게 되는게요. 본 논문을 읽었을 때 원래 단어의 subword와 겹치는 단어(즉, where의 3-gram인 her과 대명사 her)를 다르게 처리하는 과정은 없는 것 같습니다.

그렇다면 where를 학습할 때 her 라는 3-gram vector값이 where의 단어 벡터를 구성하는데 좋은걸까요? 오히려 어떤 단어들에 대해서는 노이즈로 작동할수도?

[Week3] Numerical Probability는 무엇일까?

논문에서 Negative Sampling은 NCE를 단순화한 방식이라고 합니다.
이 둘의 가장 큰 차이점에 대해서 논문은 아래와 같이 설명했는데요,

The main difference between the Negative sampling and NCE is that NCE needs both
samples and the numerical probabilities of the noise distribution, while Negative sampling uses only
samples. And while NCE approximately maximizes the log probability of the softmax, this property
is not important for our application.

여기에서 Negative Sampling에서는 필요하지 않은 것이 numerical probability라고 하는데,
이 numerical probability의 의미가 무엇인지 잘 모르겠습니다.
정확히 말하면 NCE에서 NEG로 단순화하는 과정에서 무엇이 빠졌다는 것인지 잘 모르겠습니다..!

[week3] Noise Contrastive Estimation (NCE)란 무엇일까?

Introduction, 2페이지 상단에

In addition, we present a simplified variant of Noise Contrastive Estimation (NCE) [4] for training the Skip-gram model that results in faster training and better vector representations for frequent words, compared to more complex hierarchical softmax that was used in the prior work [8].

라고 Noise Contrastive Estimation(NCE) 개념이 등장합니다. NCE란 어떤 개념일까요?

[week2] Projection Layer가 정확히 뭘까요?

본 논문에서 training complexity를 계산하는 수식에서 Q가 등장합니다. Q는 모델마다 다르게 정의하기로 하는데, 이 수식 연산에서 자주 등장하는 것이 projection layer (matrix) 입니다.
정확하게 projection layer(matrix)가 뭔지 모르겠네요....?
가장 비슷한건 embedding layer (matrix)가 떠오르는데 정확히 embedding이란 용어를 쓰진 않았으니...

[Week 7] Vocab matrix가 학습단계에서 어떤 방식으로 활용되고 조정되는지 궁금합니다.

학습과정이 잘 이해되지 않아서 물어봅니다. 제가 이해한 학습 방식은 Encoder 단계에선 문장 단위의 hidden state vector를 학습하고, Decoder 단계에서 (이거도 start of sentence가 되어야하는데 표기는 eos네요)부터 한 단어 씩 hidden state vector와 vocab matrix를 활용하여 추론하는 방식입니다. Encoder 단계에서는 vocab matrix값이 활용이 안되는건가요?

만약에 아예 처음 등장하는 단어가 나오면 어떤 방식으로 추론이 되는건가요??

[Week 7] un-regularized L2 linear regression loss의 의미

2.2. Vocabulary expansion 내용에서,

f : V_w2v -> V_rnn 을 만족하는 mapping function을 구축하기 위해 행렬 W를 학습시킨다는 얘기가 나옵니다.

이 때 W 학습을 위해 un-regularized L2 linear regression loss를 사용한다는 설명이 나오는데, 이 loss를 그냥 일반적인 RMSE와 유사한..? loss로 봐도 괜찮은지, 아니면 RMSE와는 완전히 다른 Loss인지 궁금합니다.

[week3] Negative sampling 과 subsampling의 차이

본 논문에서 subsampling 이야기가 나오는데요. 둘의 차이에 대해서 정리하는 용으로 이슈 남겨둡니다.
논문 등장 내용

NCE(Noise Contrastive Estimation) posits that a good model should be able to differentiate data from noise by means of logistic regression.
We define Negative sampling (NEG) by the objective which is used to replace every log P (wO |wI ) term in the Skip-gram objective. Thus the task is to distinguish the target word wO from draws from the noise distribution Pn(w) using logistic regression, where there are k negative samples for each data sample.

헷갈리는 포인트
- negative sampling의 목표가 두가지로 보여진다. 첫번째는 이상한 값을 넣어주더라도 좋은 모델이면 잘 예측할 것이란게 목표고, 두번째는 이미 대부분의 데이터에서 negative sample이 훨씬 많을텐데 그걸 다 쓰는게 아니라 일부 샘플링한다는 것.
- 논문에서는 efficiency 입장에서 hierarchical softmax -> NCE로, 그리고 NCE를 효과적으로 하기 위해 negative sampling 을 하는 흐름.
- hierarchical softamx랑 NCE를 정확히 이해 못해서 그런가. 무슨 이득 때문에 NCE로 넘어간건지 이해가 안됨. NCE로 하면 accuracy가 좋다는건지 속도가 줄어든다는건지..
- NCE에서 negative sampling으로 넘어가는거는 단어 w 인풋으로 넣어줄 때 일부만 샘플링해줘서 넣어주고 noise distribution 모르고 임의의 분포(등장 고려)로 모델링해서 샘플링한다는 이득?

sub- sampling of frequent words during training results in a significant speedup
the vector representations of frequent words do not change significantly after training on several million examples.

헷갈리는 포인트
- negative sampling은 negative 라벨인 단어를 넣어줌으로써 모델 성능을 높이겠다는 것이고,
- sub sampling 은 많이 등장하는 단어일 수록 정보성이 적다. 즉, 쓸데없는 단어로 취급해서 덜 학습에 사용하겠다는 것

Summary

영상으로 이해해보겠습니다....유튜브
참고
- 기본설명
- 행렬 곱에서 전체 행렬 곱하는 것보다 해당 row를 끄집어낸다는 표현이 저번 big O complexity 때 나온 이야기와 통하는 부분이 있는 것 같아서 참고링크 공유드립니다.
임베딩이 된 단어는 30010000의 행렬이고 여기에 넣는 어떤 인풋은 100001의 행렬이죠. 이 인풋행렬은 우리가 원하는 하나의 단에에서만 1값을 가지고 나머지 9999는 0인 one-hot 벡터입니다. 이 둘의 곱으로 나온 행렬은 3001의 행렬입니다. 그런데 결국 이건 임베딩행렬에서 인풋에 해당하는 Column을 선택하는 것과 같습니다. 3001 행렬을 얻으려 300,000개의 값 299개의 0과 모두 곱하는 건 매우 비효율적입니다. 실질적으로 이런 부분은 텐서플로나 케라스 같은 프레임워크에서는 행렬을 곱하기보단 바로 해당 row를 끄집어내는 방식으로 효율적이게 구현되어 있습니다. 임베딩 행렬을 lookup 테이블로 쓰는 것이죠.

[week2] hierarchical softmax가 뭘까요?

어휘의 이진 트리 표현으로 검증되어야 하는 결과값의 크기가 log_2(V)에 가깝게 작아질 수 있다고 하는데 어떤 방식으로 이렇게 되는 걸까요?

3p, 'With binary tree representations of the vocabulary, the number of output units that need to be evaluated can go down to around $log_2(V)$.'
'the term H x V can be efficiently reduced to H x log_2(V) by using hierarchical softmax.'

[week1] word sequence가 길어질 수록 추정해야하는 파라미터가 늘어야하는 것?

word sequence가 길어질 수록 추정해야하는 파라미터가 늘어야하는 것이 잘 안와닿음.
어차피 count 로 치환해서 계산하는거면 그게 왜 늘어나는거지?
여기에서도 비슷하게 설명하는데 정확하게 와닿지는 않음.

n을 크게 선택하면 실제 훈련 코퍼스에서 해당 n-gram을 카운트할 수 있는 확률은 적어지므로 희소 문제는 점점 심각해집니다. 또한 n이 커질수록 모델 사이즈가 커진다는 문제점도 있습니다. 기본적으로 코퍼스의 모든 n-gram에 대해서 카운트를 해야 하기 때문입니다.

[week3] 오늘 요약 : hierarchical softmax, NCE,negative sampling, subsampling 좀더 생각해보자.

hierarchical softmax 참고 : https://talbaumel.github.io/blog/softmax/
NCE 참고 : https://github.com/Stonesjtu/Pytorch-NCE
word2vec skip-gram negative sampling 참고: https://direction-f.tistory.com/29
basic embedding model 참고 : https://github.com/graykode/nlp-tutorial
word2vec genism : https://github.com/RaRe-Technologies/gensim-data

다만 데이터를 먹이면서 학습 제대로 되는 예시 찾기는 어려운 것 같네요..

[week 8] 왜 이번 기법도 semantic에서는 성능이 떨어질까요?

본 논문이 제안한 방법은 형태소 단위로 단어를 쪼개고 각각의 embeding을 더했기 때문에 syntactic 테스크에서는 성능이 좋은게 자연스럽습니다.
직관적으로 생각하기에 semantic에서도 성능이 더 좋을것 같았는데 왜 안좋은걸까요?

[week 8] 본 논문에서 제안하는 character n-gram을 활용하면 접두사와 접미사에 대한 정보를 알 수 있나요?

character n-gram을 구성할 때, 첫 번째 subword에는 <를 붙이고 마지막 subword에는 >를 붙인다고 합니다.
저는 이 기호가 subword 집합의 시작과 끝을 알리는 역할이라고 생각했는데요, <과 >를 통해 해당 단어의 접두사와 접미사에 대한 정보를 알 수 있나요?

Each word w is represented as a bag of character n-gram. We add special boundary symbols < and > at the beginning and end of words, allowing to distinguish prefixes and suffixes from other character sequences.

단어 where의 character n-gram(n=3)

[week 2] Parallel training과 GPU를 학습에 사용하는 것은 같은 방식일까

본 논문 2.3 Parallel training of Neural Networks 문단에서 대용량 데이터셋을 모델에 학습시키기 위해 대용량 분산 프레임워크 DistBelief를 사용했다고 하는데요, 여기서 모델을 parallel하게 학습시키기 위한 parallel training이 GPU를 학습에 사용하는 방식과 동일한 학습 방식인가요?

gradient update를 했을 때 모든 gradient가 update된다는 점에서는 동일한 것 같은데, parallel하게 학습시키기 위해 동일한 모델의 복제본(replica)을 만드는 부분은 다른 것 같아서 질문드립니다.

The framework(DistBelief) allows us to run multiple replicas of the same model in parallel, and each replica synchronizes its gradient updates through a centralized server that keeps all the parameters.
For this parallel training, we use mini-batch asynchronous gradient descent with an adaptive learning rate procedure called Adagrad [7].

[week8] 새로운 scoring function에서 Vc의 정체

논문에서 제시한 새로운 scoring function은 아래 사진과 같습니다.
이 식에서는 word가 아닌 각각의 n-gram vector(z_g)와 Vc를 내적한 값을 모두 더한 것을 score로 정의합니다.

여기에서 V_c는 원래 skip gram model에서의 V_wc와 같다고 생각했는데, 그러면 n-gram vector와 word vector를 모두 사용한다고 이해하면 될까요..?? 아니면 V_c도 n-gram의 조합으로 표현이 되어야 하는건지 궁금합니다.

kimcando / boostcampaitech3-paperreading-embedding Goto Github PK