목록2024/12/15 (1)
Just Fighting
[논문] Attention Is All You Need (2017) - 4
4. Why Self-Attention 셀프 어텐션 레이어와 순환 레이어, 컨볼루션 레이어에 대한 비교 진행=> 3가지 조건 (층별 계산 복잡성, 연속 연산, 최장 경로 길이) 1. 각 층에 대한 총 계산 복잡도 => 시퀀스의 길이가 차원보다 작으면($n recurrent layer=> 이런 상황은 최첨단 기계 번역 모델(예: word-piece, byte-pair)에 사용되는 시퀀스 표현에서 자주 발생 => separable convolution의 경우 $O(knd+nd^2)$까지 복잡성을 감소시킴=> 그러나, $k=n$일 때, separable convolution의 복잡성은 self-attention layer와 point-wise feed-forward layar의 결합과 동일 ..
카테고리 없음
2024. 12. 15. 19:52