2021. 1. 7. 20:49ㆍEconometrics/Time Series Analysis
2장에서는 시계열 분석의 기초를 닦기 위한 다양한 개념을 배운다. 따라서 이번 포스트는 매우 많은 내용을 담고 있다. 실제로 교재에서도 다른 챕터들은 40~60 페이지로 이루어져 있으나, 이번 챕터는 80장에 이르며 그 내용들이 모두 중요하다. 비록 수식들이 복잡해 보이지만 천천히 살펴보면 모두 이해할 수 있으며, 무엇보다도 중요한 것은 각 개념과 모형이 담고 있는 Implication이다. 들어가기 에 앞서 이 페이지에서 다룰 모형의 분석은 다음의 구조를 띤다.
- 모형의 정의
- 모형의 특성(평균, 분산, 자기상관함수, 안정성 등)
- 실제 데이터에서 차수(order)를 결정하는 방법
- 기타 논의 사항
실제 데이터를 이용한 분석은 추후에 statsmodel 이나 scikit-learn을 이용할 예정이다.
2. 1 Stationarity(안정성/정상성)
시계열 분석의 기초는 stationarity(또는 stationarity process)이다. stationarity는 주로 '안정성' 또는 '정상성'으로 번역되는데, 전자가 후자에 비해 직관적인 용어이다. 간단하게 말하자면 어떤 시계열이 안정적으로 변화한다는 의미이다. 필자는 두 가지를 혼용하여 사용할 것이다. Stationarity는 Weak Stationarity(약한 안정성)와 Strict Stationarity(강한 안정성)으로 나뉜다.
Strict Stationarity
만약 시계열 $ \left\{ r_t \right\} $에 대해, 모든 $\tau$에 대하여, $(r_{t_1}, \cdots, r_{t_k})$의 결합확률분포가 $(r_{t_1+\tau}, \cdots, r_{t_k+\tau})$의 결합분포와 동일할 경우, 이 시계열은 strictly stationary하다고 일컫는다. 말하자면 강한 안정성은 결합확률분포가 시간 변화에 따라 변화하지 않는 경우이다. 이는 직관적으로도 실제로 만족되기 매우 어렵고 강한 가정이다. 따라서 더 약한 가정인 약한 정상성(weak stationarity)을 주로 가정한다.
Weak Stationarity
약한 정상성 과정 $ \left\{ r_t \right\} $은 다음의 조건을 만족한다.
- $E(r_t) = \mu$ ; 평균은 상수 $\mu$로 일정하다.
- $Cov(r_t, r_{t-l}) = \gamma_l$ ; $t$기와 $t-l$기 값의 공분산은 오로지 시차 $l$에 의해 결정된다. 즉 $l$의 함수이다.
암묵적으로 약한 안정성 조건에서 우리는 1, 2차 적률이 finite하다고 가정한다. 이러한 정의로부터, 만약 어떤 시계열이 강한 정상성을 만족하고 1, 2차 적률이 모두 finite하다면 그 시계열은 약한 정상성 조건을 만족한다. 그러나 그 역 명제는 참이 아님에 주의하자. 그러나 만약 해당 시계열이 정규분포를 따른다면 약한 정상성과 강한 정상성은 서로 동치이다. (Tsay, p.30)
우리가 $T$개의 데이터 포인트를 관측했다고 가정해보자. 약한 정상성 과정은 $T$개의 값이 특정 수준(평균)에서 일정한 분산을 가지고 변동하는 형태를 보인다. 가장 단순하고 전형적인 예는 정규분포를 따르는 iid 과정이다. 이를 그려보자.
import pandas as pd
import matplotlib.pyplot as plt
from random import gauss # gaussian distribution function
gauss(0, 1) # mu=0, sigma=1인 정규분포에서 무작위 값 하나 반환
series = pd.Series([gauss(0, 1) for _ in range(200)]) # gaussian distr에서 추출한 200개의 무작위 값
plt.plot(series)
다음과 같은 그래프가 출력되며(seed에 따라 정확한 값은 다름), 이는 평균 0을 중심으로 일정하게 변동한다. 즉, weak stationarity를 만족하는 형태이다.
2. 2 Correlation and Autocorrelation Function(상관계수와 자기상관함수)
두 확률변수 $X$와 $Y$간의 상관계수(Correlation Coefficient)는 $\rho_{X, Y}$로 표기하며 다음과 같이 정의된다.
$$ \rho_{XY} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y} \in [-1, 1] $$
상관계수는 두 확률변수 간의 선형종속성의 강도를 나타낸다. 또한, "$X, Y$가 모두 정규확률변수이고 그 상관계수가 0인 것"은 "$X, Y$가 서로 독립"일 필요충분조건이다.
표본상관계수는 다음과 같이 정의된다.
$$ \hat{\rho}_{XY} = \frac{\sum_{t=1}^T {(x_t - \bar{x})(y_t - \bar{y})} }{\sqrt{\sum_{t=1}^T (x_t - \bar{x}^2 ) \sum_{t=1}^T (y_t - \bar{y})^2}}$$
이 때 $\bar{x}$와 $\bar{y}$는 각 확률변수의 표본평균이다.
Autocorrelation Function(자기상관함수; ACF)
$r_t$와 $r_{t-1}$간의 상관계수를 $r_t$의 $l$시차 자기상관 계수(lag-$l$ autocorrelation of $r_t$)라고 부르며, 일반적으로 $\rho_l$로 나타낸다. 위에서 언급했듯 약한 정상성 가정 하에서 $\rho_l$은 오로지 $l$만의 함수이다. 구체적으로 자기상관계수를 정의하면 다음과 같다.
$$\rho_l = \frac{\text{Cov}(r_t, r_{t-l})}{\sqrt{Var({r_t})Var({r_{t-l}})}} = \frac{\text{Cov}(r_t, r_{t-l})}{Var({r_t})} = \frac{\gamma_l}{\gamma_0}$$
두 번째 등식이 성립하는 이유는 약한 정상성 가정에 의하여 $t$기의 분산과 $t-l$기의 분산이 동일하기 때문이다. $\rho_l=0$인 것은 $r_t$가 시계열 상관되지 않았다는 것과 동치이다.
- The lag-1 sample autocorrelation(1차 시차 표본 자기상관계수)
$$ \hat{\rho}_1 = \frac{\sum^T_{t=2} (r_t - \bar{r})(r_{t-1} -\bar{r}) }{\sum^T_{t=1} (r_t - \bar{r})^2}. $$
일반적인 조건 하에서, $\hat{\rho}_1$은 $\rho_1$의 일치추정량(consistent estimator)이다. 즉 $\text{plim} \hat{\rho}_1 = \rho_1$
Testing Individual ACF(개별 자기상관함수의 검정)
시계열이 특정 시차 $l$에 대하여 자기상관이 존재하는지 살펴보기 위한 검정을 실시하여 보자. 이를 위하여 귀무가설 $H_0: \rho_l =0$과 대립가설 $H_a : \rho_l \neq 0 $로 설정한다. 이때 검정 통계량은 다음과 같다.
$$ t \text{ ratio} = \frac{\hat{\rho}_l}{\sqrt{(1+2 \sum^{l-1}_{i=1})\hat{\rho}^2_i/T}}.$$
Portmanteau Test(포트만토 검정; 여러 시차에 대한 종합 검정)
위에서는 단일 시차에 대하여 자기상관성 여부를 검정하였다면, 이제는 다중 시차에 대하여 자기상관성 여부를 검정하여 보자. 이를 위한 검정통계량을 설정하는 데에는 크게 두 가지 방법이 있다. 하나는 Box-Pierce의 검정통계량이고, 다른 하나는 이를 개선하여 만든 Ljung-Box의 검정통계량이다. 귀무가설과 대립가설은 다음과 같다.
\begin{align}
H_0 : \rho_1 &= \cdots = \rho_m = 0 \\
H_a : \rho_i &\neq0 \text{ for some } i \in \{1, \dots, m\}
\end{align}
-
Box-Pierce Statistic
$$Q^*(m) = T \sum^m_{l=1} \hat{\rho}^2_l \overset{a}{\sim} \chi^2_{m, \alpha}.$$
만약 시계열 $\{ r_t \}$가 iid이고 특정 적률 조건을 만족한다면 검정통계량 $Q^*(m)$는 근사적으로 자유도가 $m$인 $\chi^2$분포를 따른다.
-
Ljung-Box Statistic
$$Q^*(m) = T(T+2) \sum^m_{l=1} \frac{\hat{\rho}^2_l}{T-l} \overset{a}{\sim} \chi^2_{m, \alpha}.$$
결국, 이는 우측 검정이므로 decision rule은 $Q(m) > \chi^2_{m, \alpha}$인 경우 $H_0$를 기각하는 것이며, 이 때 $\chi^2_{m, \alpha}$는 $100(1-\alpha)$번째 percentile 값을 의미한다. 대부분의 패키지는 이에 대한 p-value를 제공한다. 따라서 p-value가 $\alpha$와 같거나 작다면 '자기상관성이 존재하지 않는다'귀무가설을 기각한다.
실제로 자유도 $m$의 선택이 $Q(m)$ 통계량의 퍼포먼스에 영향을 줄 수도 있다. 혹자는 $m \approx \ln(T)$를 선택할 것을 제시하기도 한다.
2. 3 White Noise and Linear Time Series(백색 소음과 선형 시계열)
ASMR에 관심이 있는 사람들은 한번쯤은 '화이트 노이즈'란 단어도 들어보았을 것이다. 화이트 노이즈란 불규칙적인 소음이 아니라 일정한 주파수 내에서 균일하게 변동하는 소음을 의미한다. 시계열 분석에서의 White Noise(백색 소음)도 이러한 개념과 부합한다. 우선 White Noise의 정의부터 살펴보자. 다음의 조건을 만족하는 시계열 $r_t$를 백색 소음이라고 일컫는다.
-
$r_t \sim iid$; iid sequence이다.
-
$E(r_t) = \mu$; 평균이 finite하다. (0으로 정의하기도 함.)
-
$Var(r_t) = \sigma^2$; 분산이 finite하다.
특히 $r_t \sim iid N(0, \sigma^2)$인 경우, 이를 Gaussian White Noise라고 부른다. White Noise 시계열의 경우, 모든 ACF는 당연히 0이다. 실제로 모든 표본 ACF가 0에 가까운 경우, 해당 시계열은 백색 소음 시계열로 볼 수 있다. 그렇다면 백색 소음 시계열은 약한 정상성 시계열인지 한번 생각해보자.
2. 4 Simple Autoregressive(AR) Models (단순 자기회귀 모형)
일반선형회귀모형에서는 종속변수($y$)와 독립변수($x$)는 서로 다른 변수였다. 그러나 자기회귀모형에서는 말 그대로 '자기자신'이 종속변수이면서 동시에 독립변수로 설정된다. 물론 완전히 동일한 변수는 아니며 변수 간 시차가 존재한다. 가장 단순한 형태인 1차 자기회귀모형(이하 AR(1))을 살펴보자.
$$ r_t = \phi_0 + \phi_1 r_{t-1} + a_t .$$
이 때 $\{ a_t \}$는 백색 소음으로 가정하는 것이 일반적이다. 이제부터 백색 소음을 다음과 같이 표기한다.
$$ a_t \sim WN(0, \sigma^2_a)$$
위 회귀 모형은 $r_t$가 종속변수이고 $r_{t-1}$이 독립변수이며, $\phi_0$를 상수항으로, $a_t$를 오차항으로 갖는 단순선형회귀모형과 정확히 동일한 형태이다. AR(1) 모형은 단순선형회귀모형과 유사한 특성들을 공유하지만, 상이한 특성도 있다. 이는 나중에 자세히 다루기로 한다. 우선은 AR(1) 모형의 조건부 평균과 조건부 분산을 도출하여 보자.
$r_{t-1}$을 조건부로 하는 경우, 즉 $r_{t-1}$이 주어진 경우 조건부 평균과 조건부 분산은 어렵지 않게 도출할 수 있으며 다음과 같다.$$ E(r_t | r_{t-1} ) = \phi_0 + \phi_1 r_{t-1}, \quad Var(r_t|r_{t-1}) = Var(a_t) = \sigma^2_a .$$즉, 1기 이전의 수익률 $r_{t-1}$을 아는 경우 현재 수익률은 기대 수익률 $\phi_0 + \phi_1 r_{t-1}$을 중심으로 표준편차 $\sigma_a$의 변동성을 갖는다. 이는 Markov Property(마르코프 성질)을 띠는데, 마르코프 성질이란 $t$기의 값이 그 이전의 값[들]에만 영향을 받는 것을 의미한다.
2. 4. 1 AR(1) Model
AR(1) 모형을 조금 더 자세히 살펴보자. 이는 AR(p) 모형으로 확장하는 데에 적지 않은 도움이 될 것이다. 우선 시계열 $\{r_t\}$가 약한 정상성 조건을 만족한다고 가정하자.
- Mean
$$ r_t = \phi_0 + \phi_1 r_{t-1} + a_t ; a_t \sim WN(0, \sigma^2_a).$$
위에서 도출한 조건부 기댓값에 기댓값을 한 번 더 취하면, (Law of Iterated Expectation; LIE)반복 기댓값 법칙에 의해 다음의 식이 성립한다.
$$E(r_t) = \phi_0 + \phi_1E(r_{t-1}).$$
약한 정상성 조건 하에서 평균은 일정하고 이를 $\mu$라고 하면 다음이 성립한다.
$$ E(r_t) = \mu = \frac{\phi_0}{1-\phi_1}. $$
이 결과는 두 가지 함의를 갖는다. 첫째, $\phi_1 \neq 1$인 경우에만 $r_t$의 평균이 존재한다. 둘째, $\phi_0 = 0$일 때, 그리고 오직 그 때만 $r_t$의 평균이 0이다.
- Variance
기존의 식으로 돌아와서, 양변에서 평균 $\mu$를 빼면 다음과 같다.
$$ r_t - \mu = \phi_1(r_{t-1} - \mu) + a_t . \tag{1}$$
Repeated substitution을 이용하면 다음의 결과가 도출된다.
$$ r_t - \mu = a_t + \phi_1 a_{t-1} + \phi^2_1 a_{t-2} + \cdots = \sum_{i=0}^\infty \phi^i_1 a_{t-i}. \tag{2}$$
즉, $r_t = \mu + a_t + \phi_1 a_{t-1} + \phi^2_1 a_{t-2} + \cdots = \sum_{i=0}^\infty \phi^i_1 a_{t-i}$이고, 이를 "linear"한 형태의 시계열이라고 부른다.
식 $(1)$의 양변에 분산을 취하면 다음이 성립한다.
$$ Var(r_t) = \phi^2_1 Var(r_{t-1}) + \sigma^2_a $$
$\sigma^2_a$는 $a_t$의 분산이며, $Cov(r_{t-1}, a_t) = 0$이고, 약한 안정성 가정에 의하여 $r_t$의 분산은 일정하므로 $r_t$의 분산은 다음과 같이 정리된다.
$$ Var(r_t) = \frac{\sigma^2_a}{1-\phi^2_1} \text{, provided that } \phi^2_1 < 1.$$
이 때 $\phi^2_1 < 1 \Leftrightarrow -1<\phi_1< 1$이며, 이는 AR(1)이 약한 정상성 시계열일 필요충분조건이다.
- ACF
다시 식$(1)$의 양변에 $a_t$를 곱하고 기대값을 취하면 다음과 같다.
$$ E[a_t (r_t - \mu)] = \phi_1E[a_t(r_{t-1} - \mu)] + E(a^2_t) = E(a^2_t) = \sigma^2_a. $$
다시 식$(1)$의 양변에 $r_{t-l} - \mu$를 곱하고 기대값을 취하여 위의 결과를 이용하면 다음의 결과를 얻는다.
\begin{equation} \gamma_l = \begin{cases} \phi_1 \gamma_1 + \sigma^2_a, & \text{ if } l = 0 \\ \phi_1 \gamma_{l-1}, & \text{ if } l > 0 \end{cases} \end{equation}
이를 정리하면 다음과 같다.
$$ Var(r_t) = \gamma_0 = \frac{\sigma^2}{1-\phi^2_1} \text{ and } \gamma_l = \phi_1 \gamma_{l-1} . $$
두 번째 방정식에서 양변을 $\gamma_0$로 나누면 ACF에 관한 식이 도출된다.
$$ \rho_l = \phi_1 \rho_{l-1} .$$
이 때 $\rho_1 = 1$ 이므로, $\rho_l = \phi^l_1$이 성립한다. 결론적으로 weakly stationary AR(1)의 ACF는 $\phi_1$의 속도로 감소한다. 만약 $\phi_1$이 양의 실수라면 부호를 유지하며 서서히 감소하는 형태를 보일 것이고, $\phi_1$이 음의 실수라면 부호가 변하며 서서히 감소하는 형태를 보일 것이다.
AR(2) 모형도 AR(1) 모형과 크게 다르지 않게 분석할 수 있으므로 우선은 생략하고 AR(p)를 간단하게 살펴보자.
AR(p) Model
$$ r_t = \phi_0 + \phi_1 r_{t-1} + \phi_2 r_{t-2} + \cdots + \phi_p r_{t-p}. $$
양변에 기댓값을 취한 후 식을 적절히 변형하면 다음과 같다.
$$ E(r_t) = \frac{\phi_0}{1-phi_1 - \cdots - \phi_p}. $$
위 모형을 시차연산자 $B$를 이용하여 나타내면 다음과 같다.
$$ (1-\phi_1 B - \phi_2 B^2 - \cdots - \phi_p B^p)r_t = \phi_0.$$
따라서 특성방정식(Characteristic Equation)은 다음과 같으며, 이 방정식의 모든 근이 1보다 큰 경우 시계열 $r_t$는 안정적이다. 또한 이 근의 역수들은 모형의 특성근(Characteristic Roots)임을 상기하자. 즉, 안정성은 모든 특성근들이 1보다 작은 경우에만 만족된다.
2. 4. 2 Identifying AR Models in Practice
이제는 실제로 AR 모형의 차수 $p$를 결정하는 방법을 살펴보자. 이를 order determination 또는 order specification 이라고 부른다. 이렇게 차수를 결정하는 방법에는 크게 두 가지가 있다. 하나는 편자기상관함수(PACF)를 이용하는 방법, 다른 하나는 정보 기준(Information Criteria; IC)를 이용하는 방법이다.
Parital Autocorrelation Function(PACF; 편자기상관함수)
PACF는 위에서 다룬 ACF에서 파생된 함수이며 $AR$모형의 시차를 $p$를 결정하는 데 유용하다. 다음의 연속적인 $AR(j)$ 모형들을 살펴보자. 각 하첨자의 두 번째 요소는 $j$를 나타낸다.
\begin{align}
r_t &= \phi_{0, 1} + \phi_{1, 1}r_{t-1} + e_{1t} \\
r_t &= \phi_{0, 2} + \phi_{1, 2}r_{t-1} + \phi_{2, 2} r_{t-2} + e_{2t} \\
r_t &= \phi_{0, 3} + \phi_{1, 3}r_{t-1} + \phi_{2, 3} r_{t-2} + \phi_{3, 3}r_{t-3} + e_{3t},
\end{align}
$$\vdots$$
특성들을 정리하면 다음과 같다.
- 표본 크기 $T$가 커짐에 따라 $\hat{\phi}_{p, p}$는 $\phi_p$로 수렴한다.
- $p$보다 큰 모든 $l$에 대해서 $\hat{\phi}_{l, l}$은 0으로 수렴한다.
- $p$보다 큰 모든 $l$에 대해서 $\hat{\phi}_{l, l}$의 점근적 분산은 $1/T$로 수렴한다.
즉 $AR(p)$ 모형의 표본 PACF는 시차가 $p$보다 작거나 같은 경우 0이 아니며, $p$보다 큰 경우 0이다. 영어로는 "For an AR(p) series, the sample PACF cuts off at lag $p$."라고 표현한다.
Information Criteria
- Akaike Information Criteria(AIC)
- Bayesian Information Criteria(BIC)
2. 4. 3 Goodness of Fit
시계열 분석에서의 $R^2$는 횡단면 분석에서 $R^2$와 크게 다르지 않다.
$$R^2 = 1 - \frac{\text{Residual Sum of Squares}}{\text{Total Sum of Squares}}. $$
T개의 관측치 $\{ r_t | t =1, . . . , T \}$에 대한 sample-$R^2$는 다음과 같다.
$$R^2 = 1 - \frac{\sum^T_{t=p+1} \hat{a}^2_t}{\sum^T_{t=p+1} (r_t - \bar{r})^2}. $$
이 때 $\bar{r} = \sum^T_{t=p+1} \frac{r_t}{T-P}$이다. $R^2$가 0과 1사이의 값임을 어렵지 않게 보일 수 있다. 횡단면 분석에서와 동일하게 높은 $R^2$는 모델이 데이터에 더 적합함을 의미한다. 그러나 이는 오로지 안정적 시계열인 경우에만 성립한다. 앞에서 다룬 단위근 불안정적 시계열에서, AR(1)의 $R^2$는 표본 크기가 증가하기만 하면 1로 수렴한다.
$R^2$는 그 정의상 파라미터 수가 증가하기만 하면 그 값도 반드시 증가한다. 어렵게 말하자면, $R^2$는 파라미터 수에 대한 단조증가함수(Monotonically Increasing Function)이다. 이를 반영하기 위해서 횡단면 분석에서는 $R^2$의 두 번 째항의 분자와 분모를 적절한 값으로 나누어주었다. 이와 유사하게 시계열 모형에서의 조정된 $R^2$(Adjusted $R^2$)는 다음과 같다.
$$Adj-R^2 = 1 - \frac{\text{Variance of residuals}}{\text{variance of r_t}} = 1 -\frac{\hat{\sigma}^2_a}{\hat{\sigma}^2_r}.$$
그러나 이 값은 항상 0과 1 사이에 위치하지 않음에 주의하자.
2. 4. 4 Forecasting - 추후 서술
2. 5 Simple Moving Average(MA) Models(단순 MA 모형)
MA 모형을 이해하는 데에는 크게 두 가지 방법이 있는데, 하나는 이를 white noise 시계열의 확장으로 이해하는 것이고 다른 하나는 무한 시차 AR 모형으로 이해하는 것이다. 교재에서는 후자의 방법을 택한다.
시차가 무한인 AR 모형을 생각해 보자. 사실 선험적으로 AR 모형의 시차가 유한하다고 할 명확한 이유는 없다.
$$ r_t = \phi_0 + \phi_1 r_{t-1} + \phi_2 r_{t-2} + \cdots + a_t.$$
그러나 이러한 AR 모형은 다소 비현실적이다. 이 모형을 실용적으로 만드는 방법은 계수 $\phi_i$들이 특정한 제약을 만족한다고 가정하는 것이다. $\phi_i = -\theta^i_1 $의 제약을 부과한 모형은 그 특수한 예이다.
$$ r_t = \phi_0 - \theta_1 r_{t-1} - \theta^2_1 r_{t-2} - \theta^3_1 r_{t-3} - \cdots + a_t $$
이 모형은 $|\theta_1|<1$인 경우에만 stationary하다. 그렇지 않다면 $r_t$는 발산할 것이다. 위 모형을 적절히 조절하자.
$$ r_t + \theta_1 r_{t-1} + \theta^2_1 r_{t-2} + \cdots = \phi_0 + a_t. \tag{1}$$
$$ r_{t-1} + \theta_1 r_{t-2} + \theta^2_1 r_{t-3} + \cdots = \phi_0 + a_{t-1}. \tag{2}$$
이제 식(2)에 $\theta_1$을 곱한 후 식(1)에서 빼면 다음의 식을 얻는다.
$$r_t = \phi_0 (1-\theta_1) + a_t - \theta_1 a_{t-1}. $$
즉, $r_t$는 상수항 $\phi_0(1-\theta_1)$과 오차항의 가중평균 $a_t - \theta_1 a_{t-1}$의 합으로 이루어진다.
$MA(1)$모형의 일반적인 형태는 다음과 같다.
$$ r_t = c_0 + a_t -\theta_1 a_{t-1}. $$
이를 시차 연산자를 이용하여 표현하면 다음과 같다.
$$r_t = c_0 + (1 - \theta B)a_t.$$
이를 확장하면 $MA(q)$ 모형은 다음과 같다.
$$ r_t = c_0 + a_t - \theta_1 a_{t-1} - \cdots - \theta_q a_{t-q}.$
2. 5. 1 Properties of MA Models(MA 모형의 특성)
$MA(q)$ 모형의 특성은 $MA(1)$ 모형과 $MA(2)$ 모형의 분석을 확장하면 어렵지 않게 도출할 수 있기 때문에, 우선적으로 $MA(1), MA(2)$ 모형에 초점을 맞춘다.
Stationarity
또 다시 등장하는 정상성 여부이다. 모든 $MA$ 모형은 항상 약한 안정적 시계열이다. 왜냐하면 위에서 살펴보았듯이, 시계열 $r_t$는 상수항을 제외하면 백색 소음의 선형 결합이고, 백색 소음의 1, 2차 적률은 시간 불변(time-invariant)하기 때문이다. 위의 $MA(1)$ 모형을 다시 상기해보자.
$$ r_t = c_0 + a_t -\theta_1 a_{t-1}. $$
양변에 기댓값을 취하면, $E(r_t) = c_0$이다.
또, 양변에 분산을 취하면, $Var(r_t) = \sigma^2_a + \theta^2_1 \sigma^2_a = (1 + \theta^2_1) \sigma^2_a$이다.
두 값은 모두 시간 불변이다. 즉 약한 정상성 조건을 만족한다. (공분산 생략)
Autocorrelation Function(자기상관함수)
여전히 $MA(1)$을 기준으로 논의한다. 상수항이 있으면 식이 다소 복잡해지므로 상수항 $c_0 = 0$으로 가정하자. 양변에 $r_{t-l}$을 곱하면 다음의 식을 얻는다.
$$r_{t-l}r_t = r_{t-l}a_t - \theta_1 r_{t-l} a_{t-1}.$$
양변에 기댓값을 취하면 $l=1$에 대해서 $\gamma_1 = -\theta_1 \sigma^2_a$이고, 모든 $l>1$에 대해서 $\gamma_l = 0$이 성립한다. 또한 위에서 도출한 분산을 이용하여 상관계수를 도출하면 다음과 같다.
$$ \rho_0 = 1, \quad \rho_1 = \frac{-\theta}{1+\theta^2_1}, \quad \rho_l = 0 \text{ for } l > 1. $$
즉 $MA(1)$ 모형은 시차가 1인 ACF는 0이 아니며, 1보다 큰 시차의 ACF는 0이다. 이를 영어로는 "ACF of an MA(1) model cuts off at lag 1."이라 표현한다.
동일한 맥락에서 $MA(2)$ 모형의 ACF는 시차가 2보다 큰 경우 0이며, 아래와 같다.
$$ \rho_1 = \frac{-\theta_1 + \theta_1 \theta_2}{1 + \theta^2_1 + \theta^2_2}, \rho_2 = \frac{-\theta_2}{1 + \theta^2_1 + \theta^2_2}, \rho_l = 0 \text{ for } l>2.$$
이를 일반화하면 $MA(q)$ 모형의 ACF는 $l \leq q$인 경우 0이 아니며, $l>q$인 경우 모두 0이다. 즉 $MA(q)$ 모형은 오직 시차가 $q$인 값들과 선형관계를 가지며, 이를 "finite-memory"라고 일컫는다.
Invertibility(가역성)
$MA(1)$ 모형 $r_t = a_t - \theta_1 a_{t-1}$을 $a_t$에 대하여 정리한 후 repeated substitution을 이용하면 다음과 같다.
$$ a_t = r_t + \theta_1 r_{t-1} + \theta^2_1 r_{t-2} + \theta^3_1 r_{t-3} + \cdots.$$
식이 이상해 보일 수도 있다. 현재 시점의 오차가 과거 수익률들의 선형 결합이라니? 우선 직관적으로 과거 수익률들의 계수 $\theta^j_1$은 $j$가 커짐에 따라 반드시 0으로 수렴해야 한다. 그렇지 않으면 현재 시점의 오차에 대하여 과거의 수익률이 상당한 영향을 주기 때문이다. 즉 $|\theta_1|<1$이 성립해야 한다. 이 경우 $MA(1)$ 모형이 가역적(invertible)이라고 일컫는다. 이는 2.6절에서 다시 다룬다.
2. 6 Simple Auto Regressive Moving Average(ARMA) Models(단순 ARMA 모형)
ARMA 모형은 말 그대로 AR 모형과 MA 모형을 적절하게 혼합한 모형이다. 그렇다면 이 모형은 왜 고안되었을까? 2.4와 2.5에서 배운 AR, MA 모형은 데이터의 동태적 구조를 설명하기 위 차수 p, q를 높게 설정해야 하는데, 이는 매우 귀찮고 복잡한 과정을 거쳐야 한다. 이러한 결점을 보완하기 위해서 고안된 모형이 바로 ARMA 모형이다. 일반적인 ARMA 모형은 1951년 Peter Whittle에 의해 소개되었고, 이것이 1970년 Box-Jenkins의 서적에 소개되면서 그 유명세를 얻었다.
앞서 설명했듯 ARMA 모형을 사용하는 목적은 차수를 낮추어 모형에 사용되는 파라미터의 수를 최소한으로 줄이면서 설명력을 유지하는 것이다. 이를 영어로 표현하면 "parsimony in parmeterization"이다. "parsimonious"는 "(돈에)인색한, 검소한"이라는 뜻이다. 영어 표현에 대한 직관적 이해는 어렵지 않을 것이다.
우리는 AR, MA 모형을 모두 수익률 시계열 $\{r_t\}$를 설명하는 데에 이용했지만, ARMA 모형이 수익률 자체에 사용되는 경우는 흔치 않다. 오히려 ARMA 모형은 수익률의 변동성을 모델링하는 데에 주로 이용된다. 후에 소개할 GARCH 모형은 ARMA 모형으로도 간주 될 수도 있다.
2. 6. 1. ARMA(1, 1)
$ \{a_t\} \sim WN$ 일 경우 ARMA(1, 1)모형은 다음과 같다.$$ r_t - \phi_1 r_{t-1} = \phi_0 + a_t - \theta_1 a_{t-1}.$$식의 좌변은 AR에 관한 항들로, 우변은 상수항과 MA에 관한 항들로 이루어져 있다. 이 모형이 유의미하려면, $\phi_1 \neq \theta_1$이라는 가정이 필요하다. 그렇지 않다면 해당 모형은 결국 white noise로 축약될 수 있다. 이제 ARMA(1, 1) 모형에서 $r_t$의 평균, 분산 ACF를 차례대로 구해보자.
2. 6. 2 General ARMA Models: ARMA(p, q)
$$r_t = \phi_0 + \sum^p_{i=1} \phi_i r_{t-i} + a_t - \sum^q_{i=1} \theta_i a_{t-i}. $$
2. 7 Unit Root Nonstationarity(단위근 불안정성)
지금까지는 주로 안정적인 수익률 시계열에 초점을 맞추었다. 때로는 이자율, 환율 또는 자산 가격을 분석대상으로 삼기도 하는데, 이러한 시계열들은 불안정적인 경향이 있다. 자산 가격은 고정된 수준이 없기 때문에 안정적이지 않다. 시계열 분석 논문들에서 그러한 불안정적 시계열은 "단위근 불안정 시계열(unit-root nonstationary time series)"이라고 불린다. 불안정 시계열의 가장 대표적인 경우는 랜덤워크(무작위/임의 보행) 모형이다.
2. 7. 1 Random Walk Model(무작위 보행 모형)
시계열 $\{ p_t\}$가 무작위 보행을 만족할 조건은 다음과 같다.
1. $p_t = p_{t-1} + a_t$
2. $p_0$는 process의 초기값이며 실수이다.
3. $a_t$는 white noise이다.
$t-1$기 자산 가격이 $p_{t-1}$일 경우, 다음 기 자산 가격은 $p_t$에 무작위 오차항을 더한 것과 같다는 의미이다. 즉 다음 기에 자산 가격이 상승-하락할 확률은 50대 50이다. 사실 무작위 보행 모형의 기본적인 형태는 이미 앞서 다루었다. 바로 계수가 1인 AR(1) 모형이다. 그러나 앞서 AR(1)에서 계수의 절댓값이 1 이상일 경우 이 시계열은 불안정적이라고 했다. 따라서 무작위 보행 모형은 계수가 1인 AR(1) 모형이며, 안정성 조건을 만족시키지 않는다.
이러한 무작위 보행 모형은 주식의 로그 가격 움직임(the movement of logged stock price)을 포착하는 데에 널리 사용된다. 이 모형하에서, 주가는 예측할 수 없으며 평균회귀 특성을 보이지도 않는다. 1기 이후의 자산 가격의 예측치는 현재까지 가격들의 조건부 평균이며 동시에 현재 자산 가격이다. 이를 식으로 나타내면 다음과 같다.
$$\hat{p}_h(1) = E(p_{h+1}|p_h, p_{h-1}, \dots) = p_h. $$
동일한 논리로, 2기 이후의 가격도 동일하다.
\begin{align} \hat{p}_h(2) &= E(p_{h+2} | p_h, p_{h-1}, \dots) = E(p_{h+1}+a_{h+2} | p_h, p_{h-1}, \dots) \\ &= E(p_{h+1} | p_h, p_{h-1}, \dots) = \hat{p}_h (1) = p_h \end{align}
이를 확장하면 모든 시차 $l$에 대하여, $\hat{p}_h(l) = p_h$가 성립한다. 즉, 현재까지의 데이터를 바탕으로 한 이후 데이터의 모든 예측치는 현재 값 그 자체이다.
앞서 AR 모형을 MA 모형으로 표현할 수 있었다. 동일하게 무작위 보행 모형도 MA 모형으로 나타내어 보면 아래와 같다.
$$ p_t = a_t + a_{t-1} + a_{t-2} + \cdots. $$
즉 현재 자산가격은 현재까지의 무작위 오차항의 합인 셈이다. 이 모형의 함의를 몇 가지 알아보자.
- $l$기 이후의 예측 오차($l$-step-ahead forecast error)
$$ e_h(l) = a_{h+l} + \cdots + a_{h+1} \Rightarrow Var(e_h(l)) = l \sigma^2_a$$
예측 오차는 시차가 길어질수록 그 분산이 커진다. 즉, 더 미래를 예측할수록 더 부정확하다. 이는 직관에서 크게 벗어나지 않는다.
- $p_t$의 무조건부 분산(unconditional variance of $p_t$)
$ \lim_{l \rightarrow \infty} Var[e_h(l)] = \infty $이므로 자산가격의 분산도 시차가 길어질수록 무한대에 접근한다. 이론적으로 이는 자산 가격은 어떠한 실수 가격으로 가정할 수도 있다는 의미이다. 주가의 로그 가격에 관해서 이는 타당하다. 그러나 시장 지수에 관해서 이는 적합하지 않다.
- 과거 오차항($a_{t-i}$)의 영향
앞서 다룬 모형들과 달리 과거 오차항의 영향이 감소하지 않는다(any past shock $a_{t-i}$ on $p_t$ does not decay over time.) 즉 과거의 충격에 대하여 강한 기억을 갖는다(strong memory.) 경제학에서는 이를 두고 충격이 영구적이라고 일컫는다. 무작위 보행을 따르는 시계열의 모든 Sample ACF는 1에 근접할 것이다.
2. 7. 2 Random Walk with Drift(표류항을 포함한 무작위 보행 모형)
$$ p_t = \mu + p_{t-1} + a_t.$$
여기서 Drift는 상수항을 의미한다. 위의 무작위 보행 모형에서는 상수항이 따로 존재하지 않았으며, 상수항이 존재하면 그 상수항을 Drift(표류항)이라고 부른다. 단순히 무작위 보행 모형에 표류항을 추가한 것이지만, 상당히 중요한 모형이다. 최초 자산의 로그 가격을 $p_0$라고 정의하자. 이를 정리하면 다음과 같다.
$$ p_t = t \mu + p_0 + a_t + a_{t-1} + \cdots a_1. $$
즉 $t$기 자산의 로그 가격은 시간 추세(time trend) $t \mu$과 오차항들의 합 $\sum^t_{i=1}a_i$으로 이루어진다. 여느 때처럼 조건부 평균과 분산을 도출해 보자. 매우 간단하다.
$$E(p_t | p_{t-1}, p_{t-2}, . . . ) = t\mu +p_0, \quad Var(p_t | p_{t-1}, p_{t-2}, . . . ) = t\sigma^2_a.$$
즉, $t$가 증가하면 $\mu$의 부호에 따라 자산 로그가격의 평균은 양의 무한대 또는 음의 무한대로 발산하며, 분산은 선형적으로 증가한다.
Interpretation of the Constant Term
지금까지 상수항에 대해 특별한 언급을 하지 않고 넘어갔으나, 사실 다양한 모형에서 상수항은 중요한 의미를 지닌다.
- $MA(q)$ 모형에서 상수항은 시계열의 평균 그 자체를 의미한다.
- $AR(p)$ 모형에서 상수항은 $\mu = \phi_0/(1- \phi_1 - \cdots - \phi_p)$의 형태로 평균과 연관된다.
- 무작위 보행 모형에서는 상수항은 시간 변수에 대한 기울기를 의미한다.
2. 7. 3 Trend-Stationary Time Series(추세 안정적 시계열)
2. 7. 4 General Unit-Root Nonstationary Models(일반적인 단위근 불안정 모형)
2. 7. 5 Unit-Root Test(단위근 검정)
다음의 모형을 생각해보자.
$$ p_t = \phi_0 + \phi_1 p_{t-1} + e_t. $$
만약 $\phi_1 =1$이라면, 이 모형은 무작위 보행 모형이 된다. 따라서 이를 검정하기 위하여 귀무가설과 대립가설을 다음과 같이 세운다.
\begin{align}
H_0 : \phi_1 &= 1 \\
H_a : \phi_1 &< 1
\end{align}
이는 단일 모수에 대한 검정임으로 횡단면 분석에서 이용한 $t$ 검정을 동일하게 실시하면 된다. 필요한 표본 적률은 다음과 같다.
$$ \hat{\phi}_1=\frac{\sum^T_{t=1}p_{t-1}p_t}{\sum^T_{t=1}p^2_{t-1}},\quad \hat{\sigma}^2_e = \frac{\sum^T_{t=1}(p_t - \hat{\phi}_1 p_{t-1})^2}{T-1} $$
$t$ 통계량은 다음과 같이 구성된다.
$$t = \frac{\hat{\phi}_1 - 1}{std(\hat{\phi}_1)} = \frac{\sum^T_{t=1}p_{t-1}e_t}{\hat{\sigma}_e \sqrt{\sum^T_{t=1}p^2_{t-1}}}.$$
'Econometrics > Time Series Analysis' 카테고리의 다른 글
1. Financial Time Series and Their Characteristics (0) | 2020.12.28 |
---|---|
0. Intro & Reference (0) | 2020.12.23 |
Least Squares Estimation (0) | 2020.12.23 |