'2024/11 글 목록

« 2024/11 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Today

Total

관리 메뉴

목록2024/11 (2)

Just Fighting

[논문] Attention Is All You Need (2017) - 2

3.1. Encoder and Decoder Stacks - 인코더6개의 동일한 층으로 구성. 각 층은 2개의 서브층을 가짐서브층은 multi-head self-attention mechanism과 positionwise fully connected feed-forward network로 구성서브층 각각에 잔차 연결 residual connection 후, 정규화 진행=> 서브층의 아웃풋은 $LayerNorm(x+Sublayer(x))$더보기잔차연결이 $x+Sublayer(x)$, 정규화가 $LayerNorm()$ 인듯 함. $Sublayer(x)$는 주황, 파랑이 * positionwise : 위치별, 개별 위치에 대해 독립적으로. 입력 시퀀스의 각 위치에서 독립적으로 작동하는 연산* feed-forw..

카테고리 없음 2024. 11. 23. 20:41

[논문] Attention Is All You Need (2017) - 1

'Transformer(트랜스포머)'라고 하는 간단한 네트워크 아키텍처를 새롭게 제안 반복과 컨볼루션을 완전히 없애고, 어텐션 매커니즘을 기반으로 하는 아키텍쳐=> 보다 병렬적. 학습하는 데 상당히 적은 시간 소요. 질적으로 우수함. 1. Introduction RNN, LSTM, GRN은 언어 모델링이나 기계학습과 같은 시퀀스 모델링이나 번역에 사용하는 최신 기술.이런 접근은 순환 언어 모델과 인코더-디코더 아키텍처의 경계를 계속 넓히는 중 - Recurrent Model 순환 모델입력과 출력의 시퀀스의 *심볼 위치에 따라 계산 진행이전 은닉상태 $h_{t-1}$과 $t$시점의 입력의 함수로 $h_t$의 시퀀스를 생성*심볼 : 처리되는 데이터의 기본 단위. 문자, 단어 등 그러나, 순환적..

카테고리 없음 2024. 11. 18. 21:31

Prev 1 Next

목록2024/11 (2)

Just Fighting

티스토리툴바