Panel 데이터에 대한 회귀분석을 포스팅 주제로 한 번 다루고 싶은데 너무 많아서 못하겠고, 일단 Panel data 설명 잘 된 자료들 링크를 걸어둔다.
http://www.longitudinal.stir.ac.uk/talks/db_panelmodels.ppt
http://www.indiana.edu/~statmath/stat/all/panel/
http://dss.princeton.edu/online_help/analysis/panel.htm
보면 panel 데이터를 다룰 때는 개인별 특성이 종속변수에 미치는 영향이 서로 다르다고 가정하는 fixed effect(=stata에서 within effect) 와 시간에 대해서는 변하지만, 케이스사이에서는 일정한 누락변수를 컨트롤 하기 위해 사용하는 between effect model 이 있다. 이 둘을 가중평균한게 random effect model이다. 더 직관적인 설명은 다음 포스팅에서 다룰 예정이다. 오늘 포스팅 주제는....
STATA에서 Hausman test 방법
1. compute the always-consistent estimator
2. estimates store name-consistent
3. compute the estimator that is efficient undef H0
4. hausman name-consistent
(이탤릭체는 사용자가 지정한 estimation 의 이름)
혹은
1. compute the estimator that is efficient under H0
2. estimates store name-efficient
3. (fit the less-efficient model)
4. compute the always-consistent estimator
5. hausman . name-efficient
출처: Stata Manual, [R] 중 hausman 부분
위와 아래의 차이점은 어떤 test를 먼저 실시하냐는 것이다. 먼저 실시하는 regression이 consistent 일 경우와 efficient 일 경우에 hausman 뒤에 점을 찍는지 안찍는지도 다르고, 이 때 테스팅 결과가 바뀌게 된다. 인터넷에서 찾았던 모 레퍼런스에는 먼저 실시하는 regression이 true라는 귀무가설이 자동적으로 성립된다고 하는데, 그건 아닌 것 같다. 흑 역시 인터넷보다는 책이다.
자 이제 실제 예를 들어보자(헷갈리지 않게, 일반적인 방법인 위의 방법을 따라.).
1) fixed effect model (consistent) 에 대한 추정을 한다.
2) 추정식을 저장한다.
3) random effect model (more efficient)에 대한 추정을 한다.
4) 추정식을 저장한다. (생략 가능)
5) 하우스만 테스트를 한다. 첫번째 저장한 식을 먼저 쓴다.
6) p-value가 유의하다면 귀무가설(random effect 모델이 더 낫다)을 기각하고, 대립가설(fixed effect model을 사용한다)을 채택한다.
여기서 순서가 무지 중요하다는 거 잊지 말자. fixed effect와 random effect를 비교할 때, fixed effect estimates는 robust estimates (consistent) 로 간주되고, random effect 모델은 efficient estimates로 간주된다. (why?)
순서를 바꿔서 실습해보면 통계량의 부호가 바뀌게 된다. hausman test의 경우 카이제곱 분포를 따르기 때문에 부호가 바뀌는게 매우 중요하다(부호가 바뀌면 테스트를 수행할 수 없다). 사실 이 포스팅을 하는 이유가 순서가 바뀌는 것에 따라 hausman test의 결과가 바뀐다는 말을 어디서 보고는 stata에서 설정하고 있는 귀무가설이 뭔지 몰라서 찾아서 정리해본 것이다.
자. 다음은 실습예제. 다음 코드 그대로 스타타에 쳐보면 알게 될 것임.
use http://www.stata-press.com/data/r9/nlswork4
describe
xtreg ln_wage age msp ttl_exp, fe
estimates store fixed
xtreg ln_wage age msp ttl_exp, re
hausman fixed
위와 같이 치면, 결과가 prob=0.0000 이 나온다. 따라서 귀무가설을 기각하고 대립가설을 채택해서, fixed effect model을 사용한다. 아 깔끔해. ㅋ
댓글을 달아 주세요
하우스만 테스트에 대해 조사해 오라시는 숙제 때문에 검색중인데, 유일하게 한글로 적혀있는 웹문서가 님께서 쓰신 글이네요. 반가운 마음에 들어와봤는데, 통계 및 회계에 지식이 없어서 쉽게 이해가 안가네요.. 하우스만 테스트를 왜! 하는거죠? 독립변수간에 서로 영향력이 있는지 없는지 test하는게 이것인가요?
독립변수간에 영향력 유무를 test한다기 보다는 두 가지 추정량 - always consistent와 efficinet 추정량 - 사이에서 어떤 추정량을 사용하는 것이 더 나은가 라고 표현하는 게 맞을 것 같네요.
가장 일반적인 경우는 위 경우처럼 패널 자료 분석에서 fixed effect 모형을 사용하는 것이 더 적합한지, Random effect 모형을 사용하는 것이 더 적합한지 테스트 하는 것입니다.
말씀한 것처럼 표현?오해(?)하신 이유는 하우스만 테스트가 Fixed model처럼 각 샘플의 개별효과를 고려하는 추정량과 그렇지 않은 추정량 사이의 관계를 검정통계량으로 만들어서 테스트를 하기 때문인 것 같은데요.
다른 예를 들면, multinomial logit 모델에서는 "각 범주들을 포함(혹은 불포함)하는 사실이" 다른 범주들의 독립변수들에 영향을 미치느냐 안미치느냐를 검정하는 것일 것 같습니다. STATA 책에 따르면, multinomial logit 모형에서는 IIA(independence of irrelevant alternatives) 속성을 만족한다는 가정을 하고 있는데, 이 가정을 검정하는 것으로 되어 있거든요.
사실 저도 공부하는 목적으로 블로그에 정리를 해나가는 거인데다가, 계량은 설명이 원서가 훨씬 좋기 때문에 직접 통계패키지나 계량 책의 예제를 보시는 게 나을 것 같네요. 최대한 정확한 것만 적자는 목적은 달성하고 있다고 생각하고 있지만, 혹시 틀릴 수도 있어서 ^^;;; 이 포스팅도 제가 패널분석하다가 테스트하는데 STATA에서 귀무가설을 뭘로 하고 있는지 찾다가 정리한 거구요.^^;;