Just Fighting

[논문] Are Transformers Effective for Time Series Forecasting? (2022) - 3 본문

카테고리 없음

[논문] Are Transformers Effective for Time Series Forecasting? (2022) - 3

yennle 2025. 3. 30. 21:26
728x90

 

 

[논문] Are Transformers Effective for Time Series Forecasting? (2022) - 2

https://yensr.tistory.com/162 [논문] Are Transformers Effective for Time Series Forecasting? (2022) - 1Abstract장기 시계열 예측(Long-term Time Series Forecasting)에서 트랜스포머 기반의 솔루션이 급증하고 있다.트랜스포머는

yensr.tistory.com

 

 


 

< Self-attention schemes >

트랜스포머는 셀프어텐션을 이용해 입력 요소 간의 관계를 추출한다.

기존 모델에서는 시간복잡도와 메모리복잡도가 O(L2)으로 매우 높다.

그래서 최근 연구에선 2가지의 방법을 제안한다.

 

희소성 기반 (self-attention sparsity) 방법

 

LogTrans

logsparse 마스크를 사용해 연산량을 O(LlogL)로 감소

거리간격이 가까운 데이터만 보는 방법. 로그스케일* 사용

*로그스케일 : 처음에는 작은 간격을 유지하다가 점점 간격을 넓혀 선택. 예: 1, 2, 4, 8, 16, 32, 64, 128

 

예) "The cat sat on the mat in the living room.”

"The" → "cat" (1칸 간격)

"The" → "sat" (2칸 간격)

"The" → "mat" (4칸 간격)

"The" → "room" (8칸 간격)

 

 

Pyraformer

피라미드 어텐션(pyramidal attention)을 적용해

다중 스케일의 시간 종속성(hierarchical multi-scale temporal dependencies) 캡쳐

복잡도를 O(L)로 줄임

 

예) "The cat sat on the mat in the living room.”

1단계: (The → cat), (sat → on), (the → mat), (in → the), (living → room)

2단계: ((The-cat) → (sat-on)), ((the-mat) → (in-the)), (living-room)

3단계: (((The-cat-sat-on) → (the-mat-in-the-living-room)))

 

 

저차원 구조(low-rank property) 활용 방법

 

informer

확률적 희소성 기반 어텐션(ProbSparse self-attention)과 어텐션 증류 기법(self-attention distilling) 적용

연산량을 O(LlogL)로 감소

 

- 확률적 희소성 기반 어텐션

어텐션 점수가 높은 단어들만 선택하고,

선택된 키-값 쌍에 대해서만 Softmax 연산을 수행하여 최종 어텐션 값 계산

 

- 어텐션 증류 기법

선택된 단어를 압축해서 어텐션을 적용하는 방식

 

예) "The cat sat on the mat in the living room.”

ProbSparse self-attention : ["The", "cat", "sat", "mat", "room"] 만 선택

self-attention distilling : ["The", ("cat+sat"), ("mat+room")]

 

 

FEDformer

푸리에 변환(fourier enhanced block*)과 웨이브렛 변환(wavelet enhanced block) 활용

시계열 데이터를 푸리에 변환하여 주파수 영역에서 어텐션을 수행 주요한 패턴만 집중적으로 학습

일부 요소를 랜덤으로 선택해 복잡도를 O(L)로.

*enhanced block : 특정기능을 강화하기 위해 추가적인 연산을 포함한 네트워크 블록

 

- 푸리에 변환

시간이나 공간에 대한 함수를 시간 혹은 공간 주파수 성분으로 분해하는 변환.

전체 신호를 주파수 성분으로 변환

출처 : https://ralasun.github.io/signal%20analysis/2021/06/18/ft-vs-wt/

 

- 웨이브렛 변환

신호를 여러 크기의 웨이브렛(Wavelet)을 이용해 분석

시간 & 주파수 정보 동시 확보 (푸리에는 주파수 정보만)

 

 

Autoformer

series-wise auto-correlation(시계열 자동 상관 메커니즘)을 설계해 활용하며,

기존 셀프어텐션 레이어를 대체해 사용한다.

 

- auto-correlation

시계열 데이터가 자기 자신과 얼마나 유사한지를 측정하는 방법

특정 시간 간격(시차, lag)을 기준으로 과거 값과 현재 값의 상관 관계를 계산

값이 클수록 과거 데이터와 현재 데이터가 비슷한 패턴을 반복한다는 뜻.

푸리에변환을 사용하면 (FFT, Fast Fourier Transform) 더 효율적으로 계산할 수 있음.

 

FFT는 Divide and Conquer(분할 정복) 기법 사용한다.(작은 문제들을 푸리에 변환한 후, 빠르게 병합)

주파수 공간에서 유사한 패턴 찾기. 특정 시간 간격에서 자기 상관만 계산하며, 필요하지 않은 관계는 무시한다.

그리고 inverse FFT를 적용해 원래 시계열로 변환하는 과정을 거친다.

 

 

 

 

 

[출처 및 참고]

https://arxiv.org/abs/2205.13504

 

 

 

728x90
Comments