깊이 언어 모델 -GPT

OpenAI 는 20 18 에서 GPT(Generative Pre-Training) 모델을 제안했습니다. 모델은 분류, 추리, 문답, 유사 등의 작업에 사용할 수 있는 사전 훈련+미세 조정 훈련 모드를 사용합니다.

GPT 는 변압기를 기반으로 제안되었지만 약간 다릅니다.

문장에 있는 각 단어의 포함된 벡터

단일 변압기이고 마지막 층의 출력은 H L 입니다.

마지막 레이어의 출력에 따라 행렬 W 를 연결하고 1 의 치수를 생성한 다음 softmax 가 각 단어를 얻을 확률을 계산하여 확률을 최대화합니다. 손실 L 1 (C) 을 얻습니다. 여기서 P(u) 를 계산할 때 사전 단어의 포함된 벡터 W e 를 사용합니다. 이는 언어 모델에서 일반적으로 사용되는 기술입니다.

주어진 Text 1SEPText2, 법선 변환기는 마지막 계층의 모든 위치에서 확률을 출력할 수 있도록 자체 주의를 가리는 디코더만 유지합니다. 그런 다음 해당 다음 단어로 손실을 계산합니다.

소량의 마커 데이터를 사용하여 모델 매개변수를 미세 조정합니다.

이전 단계의 마지막 단어의 출력 h l 을 다운스트림 감독 학습의 입력으로 삼다.

감독 레이블에 따르면 손실을 계산하여 L 2 (C) 를 얻습니다.

L 2 (C) 와 L 2 (C) 를 더하면 다음 그림과 같이 이후의 손실이 발생합니다.

단방향 변환기는 현재 단어 뒤에 있는 단어의 의미를 사용할 수 없습니다. 하지만 번역된 장면은 쓸 수 없을 것 같은데 무슨 단어인지 모르겠다. 정말 그래요?

上篇: 호남성 익양시 혁산구 란계진 하하의 마을위원회는 어떤 것이 있습니까? 下篇: 개천이란 무슨 뜻입니까?