블로그 이미지
Although this may seem a paradox, all exact science is dominated by the idea of approximation. When a man tells you that he knows the exact truth about anything, you are safe in inferring that he is an inexact man. - Russell, Bertrand
Econoim

좋은 추정량의 성질

2009/09/04 10:50 | Posted by Econoim
* 계량을 시작하는 사람에게 적합한 글입니다. 

좋은 추정량의 성질로는 불편성, 효율성, 일치성이 있다.

불편성은 Bias=E(b_hat)-b
즉 기대값(평균)과 얼마나 차이가 있는가를 나타내는 척도이다.

효율성, Efficiency는 분산이 더 작을수록 더 효율적이라는 것을 뜻한다.
이걸 측정하는 것으로 MSE가 있는데,
MSE(mean square error)= E(b_hat-b)^2 = Bias(b_hat)^2+Var(b_hat)
즉, 약간 biased 하더라도, 분산이 더 작아서(short tail) 전체 분산이 더 작고, 더 효율적일 수 있는 것이다.

그런데, sample 개수가 커지면(Large samle)을 만나면 좋은 추정량의 성질이 바뀐다. 왜냐면 작은 샘플에서는 추정량이 biased 일지언정, 샘플사이즈가 커지면 unbiased가 되기 때문이다. 이건 중심극한정리 때문에 가능한데, 동일한 확률분포를 가진 독립 확률 변수 n개의 분포는 n이 충분히 크다면 정규분포에 가까워진다는 정리이다.

Large sample에서의 효율성을 일치성, consistency이라고 한다. Consistency는 샘플사이즈가 커질수록 MSE가 작아지는 것(0에 가까워지는 것)을 의미한다. 대강 어떤 개념이냐면, consistent 하다는 것은 샘플 사이즈가 커질수록, 임의적으로 큰 어떤 지점에서 추정량이 collapse 되는 것을 의미한다. 수식으로 표현하면, 샘플사이즈가 커질수록, 모수 b에서 추정량 b_hat을 뺀 것의 절대값이, 0보다 큰 임의의 어떤 수 d 보다 작을 확률이 커진다는 것이다.
lim Prob( |b-b_hat| < d ) = 1

Choosing between Fixed and Random Effects

2009/07/17 18:15 | Posted by Econoim

Panel 데이터에 대한 회귀분석을 포스팅 주제로 한 번 다루고 싶은데 너무 많아서 못하겠고, 일단 Panel data 설명 잘 된 자료들 링크를 걸어둔다.
http://www.longitudinal.stir.ac.uk/talks/db_panelmodels.ppt
http://www.indiana.edu/~statmath/stat/all/panel/
http://dss.princeton.edu/online_help/analysis/panel.htm

보면 panel 데이터를 다룰 때는 개인별 특성이 종속변수에 미치는 영향이 서로 다르다고 가정하는 fixed effect(=stata에서 within effect) 와 시간에 대해서는 변하지만, 케이스사이에서는 일정한 누락변수를 컨트롤 하기 위해 사용하는 between effect model 이 있다. 이 둘을 가중평균한게 random effect model이다. 더 직관적인 설명은 다음 포스팅에서 다룰 예정이다. 오늘 포스팅 주제는....

STATA에서 Hausman test 방법

1. compute the always-consistent estimator
2. estimates store name-consistent
3. compute the estimator that is efficient undef H0
4. hausman name-consistent
(이탤릭체는 사용자가 지정한 estimation 의 이름)

혹은

1. compute the estimator that is efficient under H0
2. estimates store name-efficient
3. (fit the less-efficient model)
4. compute the always-consistent estimator
5. hausman . name-efficient

출처: Stata Manual, [R] 중 hausman 부분

위와 아래의 차이점은 어떤 test를 먼저 실시하냐는 것이다. 먼저 실시하는 regression이 consistent 일 경우와 efficient 일 경우에 hausman 뒤에 점을 찍는지 안찍는지도 다르고, 이 때 테스팅 결과가 바뀌게 된다. 인터넷에서 찾았던 모 레퍼런스에는 먼저 실시하는 regression이 true라는 귀무가설이 자동적으로 성립된다고 하는데, 그건 아닌 것 같다. 흑 역시 인터넷보다는 책이다.

자 이제 실제 예를 들어보자(헷갈리지 않게, 일반적인 방법인 위의 방법을 따라.).

1) fixed effect model (consistent) 에 대한 추정을 한다.
2) 추정식을 저장한다.
3) random effect model (more efficient)에 대한 추정을 한다.
4) 추정식을 저장한다. (생략 가능)
5) 하우스만 테스트를 한다. 첫번째 저장한 식을 먼저 쓴다.
6) p-value가 유의하다면 귀무가설(random effect 모델이 더 낫다)을 기각하고, 대립가설(fixed effect model을 사용한다)을 채택한다.

여기서 순서가 무지 중요하다는 거 잊지 말자. fixed effect와 random effect를 비교할 때, fixed effect estimates는 robust estimates (consistent) 로 간주되고, random effect 모델은 efficient estimates로 간주된다. (why?)  
순서를 바꿔서 실습해보면 통계량의 부호가 바뀌게 된다. hausman test의 경우 카이제곱 분포를 따르기 때문에 부호가 바뀌는게 매우 중요하다(부호가 바뀌면 테스트를 수행할 수 없다). 사실 이 포스팅을 하는 이유가 순서가 바뀌는 것에 따라 hausman test의 결과가 바뀐다는 말을 어디서 보고는 stata에서 설정하고 있는 귀무가설이 뭔지 몰라서 찾아서 정리해본 것이다.

자. 다음은 실습예제. 다음 코드 그대로 스타타에 쳐보면 알게 될 것임.

use http://www.stata-press.com/data/r9/nlswork4
describe
xtreg ln_wage age msp ttl_exp, fe
estimates store fixed
xtreg ln_wage age msp ttl_exp, re
hausman fixed

위와 같이 치면, 결과가 prob=0.0000 이 나온다. 따라서 귀무가설을 기각하고 대립가설을 채택해서, fixed effect model을 사용한다. 아 깔끔해. ㅋ

저작자 표시 비영리 동일 조건 변경 허락

분포함수와 moment

2009/07/01 14:24 | Posted by Econoim
* 통계를 처음 공부하는 사람들을 위한 글입니다.

계량경제학을 공부하다보면, moment라는 개념이 나오는데, 이게 처음에 감이 잘 안왔던 기억이 난다. 이걸 왜 공부하는지 가르쳐주지 않고 갑자기 다른 걸 설명하면서 이건 1st moment니까..라는 식으로 설명을 하면 그게 평균을 의미한다는 걸 문맥상 이해하면서도, 여러번에 걸쳐서야 정확하게 인식하게 되는 것이다. 그런 설명이 제대로 된 책을 본 적이 없기 때문에 내가 이해한 바를 서술해 보자면...

moment는 적률이라고 해석하는데, 이것은 보통 moment의 단계가 있기 때문에 그렇게 부르는 것 같다. 1차 적률, 2차 적률... 뭔가 쌓아가는 (쌓을 적) 느낌이 들지 않는가?

적률을 공부하는 이유는 분포의 모양을 설명하기 위해서이다. 우리는 일반적인 현상들이 정규분포를 따른다거나(한 반의 학생들 성적을 그래프로 그리면 종모양), 모분산에 관한 추론을 할 때 사용하는 카이제곱분포를 사용한다거나, 사건들이 어떤 기간이나 면적 내에서 임의로, 독립적으로, 낮은 확률로 일어나는 경우에는 포아송 분포(교통사고확률 등)를 사용한다거나 하는 사실들을 알고 있다. 그런데 이 분포들의 모양을 나타낼 수 있는 수식이 있는가?

당연히 있다. 간단하게, 일반적으로, 평균과 분산(정도)만 알고 있으면 분포의 모양을 나타낼 수 있다. 물론, E(X)=μX 와 Var(X)=σ^2, 즉, 평균과 분산이 확률변수 X의 분포의 특성을 모두 나타내는 것은 아니다. 즉, 확률변수 X와 Y의 기댓값과 분산이 같더라도 X의 분포와 Y의 분포가 다른 경우가 무수하다. 그래서 다음과 같이 표시한다.

확률변수 k번째의 적률은 k제곱을 한 확률변수의 기대값이라고 하며, 
E(Y^k)=μ 라고 표시하고, Y의 k번째 적률 이라고 읽는다. 

여기서 모든 k=1, 2, ... l 에 대하여 E(X^k)=E(Y^k) 이면 X와 Y의 분포는 같다. 즉, 두 분포가 같은지를 적률moment를 구해서 알아보는 것이다.

일반적으로 1st moment는 E(X) 이기 때문에 평균, 2nd E(X^2)이기 때문에 분산, 3rd moment는 왜도(skewness, 분포가 한 쪽으로 치우친 정도), 4th moment는 첨도(kurtosis, 분포의 모양이 뾰족한 정도)를 말한다.

그러니까 분포의 모양(=분포함수)을 moment들로 나타낼 수 있는데, 분포함수=moment 처럼 사용하는 것은 틀린 것이다.

moment를 구하는 정확한 수식은 다음 추가 자료를 참고.. 
http://en.wikipedia.org/wiki/Moment_(mathematics)

저작자 표시 비영리 변경 금지

Treatment Effect / 계량 더미와 샘플의 범위

2008/09/29 22:17 | Posted by Econoim
* 다음은 국회예산정책처 전문가 간담회(2008.9.29) 자료, Treatment Effect Analysis for Observational Data: Dealing with Unobserved Differences (이명재, 고려대)에 관한 정리 + 생각입니다.

Treatment effect는 말 그대로 'treatment'에 의해서 종속변수가 얼마나 영향을 받는가에 관한 것이다. 예를 들면, 박사학위의 존재가 소득의 상승효과를 가져오는가에 대해 다른 변수들이 동일할 경우에, 박사학위라는 treatment의 income에 대한 효과를 측정하는 것. 즉, E(y|d=1)과 E(y|d=0)의 차이를 의미, 두 그룹은 다른 모든 측면에서는 유사하다.

E(y1)=E(y0)임에도 불구하고, E(y|d=1)과 E(y|d=0)은 다를 수 있는데, 이러한 차이는 관찰가능하기도(GDP, 인구 등)하고, 관찰가능하지 않기도(문화, 유전자, 개인의 능력) 하다. 전자는 overt bias라고, 후자는 covert(hidden) bias라고 한다.

관찰가능한 X 변수에 대해서 matching 하는 기법에 관한 연구가 많이 이루어지고 있다. 예를 들면 mathing을 어떻게 1:1로 하느냐, 혹은 여러가지 가능한 쌍들을 모두 matching 하되, X가 비슷한 경우 가중치를 많이 주고, 비슷하지 않은 경우 가중치를 작게 주는 방법 등. 이 matching 의 quality를 판별하는 방법은 Xi 변수들의 분포가 얼마나 비슷한지, 예를 들면 성비나 나이 등의 분포가 balanced 되었는지를 보면 된다.

그렇다면,

1) 더미변수와의 차이점은?

dummy 변수를 사용하는 것은 parametric한 방법이고, 모델이 틀렸을 경우에는 추정결과를 신뢰할 수 없으며,
matching 기법은 non-parametric한 방법인데, 모형의 제약이 존재하지 않아 더 일반적으로 사용할 수 있다고 한다.

물론 모델이 틀리면 결과도 틀렸다는 건 알겠지만, 그래서 최대한 이론적 배경을 바탕으로, 통제변수 X 들을 설정해서 모델화하는 거 아닐까? matching 기법이 unknown function of x1, x2를 허용한다고는 하지만, matching 기법에서 E(y|x1, x2)가 local weight average of y with x1, x2 라는 정의는 이해가 간다만, x1, x2의 함수 모양에 대해서는 알기 어렵다면 결국엔 더미변수만 사용하게 되지 않을까란 생각이 자꾸 들었는데, 물론 이해의 깊이가 낮아서일테다.-_-

2) Difference in Differences (DD) 방법은

d1,e->y, d2,e->y 라면, e를 빼버리면 d1과 d2의 차이만 남는다는 건데, 막연한 생각에는 공통요소를 뺌으로써 일어나는 문제가 있지 않을까 싶다.

3) 덧붙여 생각난 것

더미를 공부하다보면 항상 궁금한 점인데 제대로 해결(?)된 적은 없는 것 같아 메모해 본다. 산업별 유효세율 부담의 차이를 분석할 때, 산업을 더미별로 넣는 것과, 산업별로 따로 회귀계수를 구하는 것과의 차이점은? 아마도 전자는 각 산업별 유효세율로 유의한 차이가 있는가를 분석할 때, 후자는 'y의 수준'을 더 중요하게 볼 때 사용하는 것 같은데 또 차이점이 있을 것 같다. 그리고 Chow test: 같다 다르다 여부만 보는 반면, 더미는 절편만/ 기울기만/ 혹은 둘다 다른지 검정할 수 있는 차이인 것과 같을 것 같다. 그리고 자유도도 차이가 날 것이고... 또....

어떻게...기회가 되어서 국회예산정책처에서 일하고 있다. (회사의 전망, 시설, 복지 모두다 매우 좋아서 애사심이 마구마구 생기고 있다.) 공부란 게 하다보면 너무 모르는게 많아서 이거 찾다가 저거 찾아야 되고, 저거 찾다보면 또 관련된 다른 걸 찾아보아야 하고, 그렇게 겉만 핥으면서 자료를 찾다보면 다시 원점으로 왔을 때 아는 게 없어지고... 수없이 반복했던 실패임에도 불구하고, 어제부터 갑자기 집중이 안되어서 당분간 스터디 일기를 적어볼까 한다. 집중하지 못하는 원인은 자꾸 목적을 잊어버리기 때문인데, 그걸 방지하기 위해서 처음에 업무 일지라는 걸 나 혼자 적고 있었는데(이건 평소에 그 주제에 대해 만드는 서브젝트 컨트롤 파일과는 약간 성격이 다르다.) 처음에야 할 일이 작은 일이었지만, 지금은 과제가 주어진 상태이기 때문에 내가 진도를 짜서 하다보니 자꾸 진도가 안나가는 것 같아서 업무시간에 -_- 업무의 일환이라고 생각하고 글쓰기 버튼을 눌렀다. ㅋ

대략 다음 4가지 주제에 대해서 검토(중)인데, 확실히 짚고 넘어갈/넘어왔던 것들은...(우선 목록만..)

1. 정부 지출이 성장률에 미치는 영향에 관한 기존의 연구[NABO, 2007.10, '2007-2011 국가재정운용계획 분석]를 OECD 국가에 대해 검토하는 것

- 자료: 정부 지출 중에서도 각 분야별 지출과 전체 분야의 지출을 사용하는 경우의 차이점이 어느 정도 유의하게 존재하는 걸까? [NABO에서도 sourceoecd 계정은 제공하지 않고 있더라. Jstor에 있는 public science분야인가? 그 부분도 안되구. 연구기관에서 이런 걸 제공해주지 않다니 ㅠㅠ 역시 S대가 짱이다. 전 Database를 사려면 일년에 천만원 정도씩 들텐데 (기관은 더 싸려나?)... S대는 정말 거의 모든 database를 다 제공하는 듯.]

- 계량: redundant variable test, residual로 dummy variable 생성하는 법, 상관분석, Eviews 명령어 처리 (클릭 말고. ㅋㅋㅋ), 단위근 검정결과와 회귀분석(단위근 있는 변수의 경우), Panel regression에서 instrument 설정하는 법

- 문헌: 너무 많아서...

2. NABO, 2007.12, 국가채무 관리방안에 관한 연구; NABO, 2007.11, 국가채무관리계획 분석

- 계량: VECM, 요한슨공적분검정(그 중에서도 시차의 설정), 추세제거방법
- replicate 결과가 달랐는데 이건 시간이 남아서 혼자 심심해서 -_- 한 번 해봤다가 갑자기 다른 일들이 생겨서 관두느라 아직도 못물어봤다. ㅠㅠ 업무일지에 적어놓구 잊어먹고 있었군. ㅋㅋ

3. 정부 조직의 변화와 원인. 현재 OECD 국가의 관련자료를 찾고 있다.

- OECD 국가들의 어떤 수치들을 평균내고 추이를 파악하고, 그런 일들이야 정말 많이 해봤다고 자신있게 말할 수 있지만, 문제는 왜 그 나라들을 선택하느냐 라는 것. 이건 항상 기회가 닿지 않았던 것 같은데 이번에 해보니 나름 공부가 되는 것 같다. 왜 영국과 비교를 하는지, 왜 미국과 비교를 하는지, 왜 일본과 비교하면 안되는지, 어떤 점에서는 일본과 비교를 해야 하는지. 이런 의문에 대해서는 항상 교수님께서 선택하신 나라를 넣거나, 곁다리로 들은 풍월에 의해 평균수준으로 일을 했던 것 뿐이지만, 팀장님께서 하도 천천히 해도 된다고 강조하셔서 (나의 급한 성격이 좀 눈에 보이셨나보다.^^;) 내친김에 좀 나라별로 역사부터..-_- 자세히 보고 있다. 세계사 공부좀 제대로 해 놓을걸이란 생각까지 들더라..역시 중고등학교의 주입식 교육의 편익도 정말 상당히 큰 것 같다 ^^;

- 무슨 문헌을 읽다가 자료가 궁금해서 OECD 사람한테 메일을 보냈다. 왜 답장이 없는 걸까. 수신확인도 안되있는 걸 보니 아무래도 스팸으로 들어간듯. 흑.

- 궁극적으로 이 자료를 요구하신 이유는 무엇일까? 문헌 보면서 생각중이다. 행정학 data로 어떤 경제학 얘기를 끄집어 내고 싶으신 건지.

- 이 자료는 나라마다 제도 형성 등에 대해 차이가 엄청나게 존재하기 때문에 OECD에서도 심화 분석(?)까지는 잘 하지 않는 듯 하다 [는 식으로 OECD, 2002, Distributed....에 나옴...]
오늘 오후부터 내일까지의 계획은... 일단 (1) 우리나라의 조직에 대해서도 분명한 위계(?)도가 잡혀있지 않기 때문에 헌법, 정부조직법을 공부하고... (2) 예시로 매년 연감이 발표되는 미국 자료에 대해 (게다가 정부 조직 변화가 거의 없는) 찾아보고 (3) 이미 자료를 확보한 나라 외에 다른 자료가 있는지.. (4) 변동원인에 대한 var- Ref 조사?

4. 기타... 부처별 설문조사 결과정리. 재정DB 만드는 것. 새 정부 출범과 국회의 역할? ^^;

적고 보니 나의 문제점도 보이네. 플래너에 할 일의 목록을 적는 것과는 또 다르다. 그리고 학교에서 하던 것보다 더 신중에 신중을 기하다보니 더 많이 생각하게 되고... 그래서 더 재미있는 것 같기도 하다.

이전 1 다음