목록2024/12/04 (1)
Just Fighting
[논문] Attention Is All You Need (2017) - 3
3.3. Position-wise Feed-Forward Networks 인코더, 디코더의 각각의 레이어는 각 포지션에 따로 그리고 동일하게 적용되는'fully connected feed-forward network 완전 연결 피드 포워드 네트워크'를 포함한다.FFN은 두 번의 선형 변환과 그 사이 ReLU 활성화로 구성된다. $$FFN(x) = max(0, xW_1+b_1)W_2 + b_2$$ 선형 변환이 다른 위치에서 동일하게 일어나지만, 각 층마다 다른 파라미터를 사용함.이것은 커널 사이즈가 1인 두 개의 컨볼루션이라고 묘사할 수 있음. 더보기선형 변환과 커널 사이즈 1인 컨볼루션 사진의 가운데 2X2의 행렬이 커널.커널 사이즈가 1이면 저 출력(노란색 행렬)도 입력(파란색 행렬)과 같이 3X..
카테고리 없음
2024. 12. 4. 19:44