목록2024/11 (2)
Just Fighting

3.1. Encoder and Decoder Stacks - 인코더6개의 동일한 층으로 구성. 각 층은 2개의 서브층을 가짐서브층은 multi-head self-attention mechanism과 positionwise fully connected feed-forward network로 구성서브층 각각에 잔차 연결 residual connection 후, 정규화 진행=> 서브층의 아웃풋은 LayerNorm(x+Sublayer(x))더보기잔차연결이 x+Sublayer(x), 정규화가 LayerNorm() 인듯 함. Sublayer(x)는 주황, 파랑이 * positionwise : 위치별, 개별 위치에 대해 독립적으로. 입력 시퀀스의 각 위치에서 독립적으로 작동하는 연산* feed-forw..

'Transformer(트랜스포머)'라고 하는 간단한 네트워크 아키텍처를 새롭게 제안 반복과 컨볼루션을 완전히 없애고, 어텐션 매커니즘을 기반으로 하는 아키텍쳐=> 보다 병렬적. 학습하는 데 상당히 적은 시간 소요. 질적으로 우수함. 1. Introduction RNN, LSTM, GRN은 언어 모델링이나 기계학습과 같은 시퀀스 모델링이나 번역에 사용하는 최신 기술.이런 접근은 순환 언어 모델과 인코더-디코더 아키텍처의 경계를 계속 넓히는 중 - Recurrent Model 순환 모델입력과 출력의 시퀀스의 *심볼 위치에 따라 계산 진행이전 은닉상태 ht−1과 t시점의 입력의 함수로 ht의 시퀀스를 생성*심볼 : 처리되는 데이터의 기본 단위. 문자, 단어 등 그러나, 순환적..