GPT 는 변압기를 기반으로 제안되었지만 약간 다릅니다.
문장에 있는 각 단어의 포함된 벡터
단일 변압기이고 마지막 층의 출력은 H L 입니다.
마지막 레이어의 출력에 따라 행렬 W 를 연결하고 1 의 치수를 생성한 다음 softmax 가 각 단어를 얻을 확률을 계산하여 확률을 최대화합니다. 손실 L 1 (C) 을 얻습니다. 여기서 P(u) 를 계산할 때 사전 단어의 포함된 벡터 W e 를 사용합니다. 이는 언어 모델에서 일반적으로 사용되는 기술입니다.
주어진 Text 1SEPText2, 법선 변환기는 마지막 계층의 모든 위치에서 확률을 출력할 수 있도록 자체 주의를 가리는 디코더만 유지합니다. 그런 다음 해당 다음 단어로 손실을 계산합니다.
소량의 마커 데이터를 사용하여 모델 매개변수를 미세 조정합니다.
이전 단계의 마지막 단어의 출력 h l 을 다운스트림 감독 학습의 입력으로 삼다.
감독 레이블에 따르면 손실을 계산하여 L 2 (C) 를 얻습니다.
L 2 (C) 와 L 2 (C) 를 더하면 다음 그림과 같이 이후의 손실이 발생합니다.
단방향 변환기는 현재 단어 뒤에 있는 단어의 의미를 사용할 수 없습니다. 하지만 번역된 장면은 쓸 수 없을 것 같은데 무슨 단어인지 모르겠다. 정말 그래요?