공부/NLP 썸네일형 리스트형 트랜스포머에 대해 기본적인 트랜스포머는 인코더의 출력과 디코더의 셀프어텐션 값의 합을 통해 결과를 낸다 근데 BERT나 GPT는 인코더 둘 다 사용하지않고 하나만 사용한다(BERT=인코더, GPT=디코더) 왜? 이렇게 사용할까 라는 생각이 들어 찾아보니 두 모델들은 결과를 출력하는 과정을 다르게 가져갔기 때문이다. BERT는 문장의 중간 단어를 [마스킹]을 해서 마스킹된 단어를 추측해 문맥을 알아내는 방식(Auto-Encoder)GPT는 문장이 주어지면 다음 단어를 예측하는 방식(Auto-Regressive) BERT의 경우 [Mask]라는 토큰(단어)가 현실에 존재하지 않아 실제로 사용하기 어렵다고한다.(사실 문맥을 파악해서 다음 문장을 생성하는 방식에는 적합하지 않은것 같고 그나마 특정 Label의 결과를 낼수 있는 .. 더보기 트랜스포머 더보기 이전 1 다음