« 大学院春合宿「EnCamp」に参加して | メイン | 「埼玉県企業人NPO体験研修・発信事業」の冊子ができました! »

社会科学研究所セミナー「回帰で斬る!」に参加しました。

2012年3月5日(月)〜6日(火)10時〜17時 社会科学研究所@東大

「回帰で斬る!」セミナーに参加しました。

昨年は、同じく社研主催の「二次分析入門」「二次分析道場」に参加しました。
http://learn-well.com/blogsekine/2011/03/

今年も、楽しく学ぶことができました。

あくまで私の理解の範囲で、学んだことを記録に残しておきます。
(間違って理解している点があれば、ご教示ください)

===

●イントロダクション

・従属変数Y=β0+β1+βk+u(誤差項)

 我々の仕事は、独立変数のパラメータ(βk)を推定し
 1)影響の有無(統計的有意性)を確認し
 2)効果の大きさ(限界効果)を求めること

・計量分析は、仮説を確認する作業にすぎない
 
・因果関係は、分析者が決める 根拠となるモデル(分析の枠組み)が重要

・実証論文には、平均、標準偏差、最大、最小値を「基本統計量」として示す


●相関分析

・相関分析 散布図で、視覚的に2変数の関係を捉える 

・相関係数を二乗 = 単回帰分析の決定係数(説明力)

・相関係数は、直線的な関係を表している 
  直線以外の関係もあるかもしれないので、散布図による確認が必要

・第三の要因を取り除いた後の相関の強さ=偏相関


●単回帰分析

・コントロールしたい要因を変数として分析の枠組みに入れた上で、
  一番見たい変数の影響の大きさを見る

・実社会で完全な直線関係を持つことはまれであり、ある程度ばらつくはず。
  そのばらつき(直線からのずれ=誤差項u)を組み込む

 もっともよさそうな直線をひく

・回帰分析 では、「係数」を見る

・有意確率 母集団にも言えそうか Yes 
  まちがえる確率は 低いほど良い 0.1%水準〜

・非標準化係数 βは、β1のこと
  標準化係数 ベータは、ベータコエッション?のこと

・(定数)=切片 β0の結果 Xがゼロの時の、Yの値

・決定係数R二乗が大きいほど、モデルとしての説明力が高い

・有意水準 *%(0.0*)を下回っているかどうかがポイント

  0.1%(0.001)
    1%(0.01)
    5%(0.05)
   10%(0.10)

・限界効果 Xが一単位上がることに、Yがどのくらい上がるのか

・対数ln(Log?)で見た方が、バラつきが見やすくなる


●重回帰分析 Multiple regression(多重回帰分析)

・調整済みR二乗:
 「変数を増やし過ぎているよねー。ちょっとペナルティをあげるよ」

・推定結果の見方
 
 1)「係数」の有意確率:母集団でも言えそう
 2)βの限界効果:Xが一つ変わると、Yはどう変わる
 3)調整済みR二乗:説明力
 4)F値・有意確率:この分析に意味があったか
 5)ベータ:どれが効いているか?

・t値は、2以上ならOK

・重回帰分析のやっかいな問題 多重共線性:
  独立変数間の高い相関により有意な係数が得られにくくなる

・不偏推定量:「いいとこついてる」?

・過少定式化:必要な独立変数が、モデルに含まれていない

・計量は身体で覚えるもの、分析しながら数年かけてじっくり本を読む


●非線形関数の回帰

・対数(変換→変数の計算→算術→Ln( ))
  を使った方が、モデルの適合度が高くなる

 (linear-logモデル x:対数)
 xが1%変化→yは(β1/100)変化
 ただ、βは%変化なので、係数を100で割ること。

 (log-linearモデル y:対数)
 xが1単位変化→yは(β1*100%)100をかける。

・2次関数を使った推定 y=ax2+bx+C
  2乗項を入れると、モデルの適合度(R二乗)があがる

○関数や微分 こうやって必要性が分かってから、
  高校の授業をうけたら、違ってたんだろうなー。

 「関数、微分、わかってますよね」という前提で進むけど、
 ちょっとしか覚えてないし、よく理解できていない。

・交差項(交互作用項)を使ったモデル
 
 例)高学歴(x1)なほど、勤続年数(x2)による
    昇給幅(y)が大きいかどうか 


●ダミー変数を使った回帰

・質的変数(性別、学歴、人種、地域)を、
 1,0の値をもつ「定数項ダミー」(切片?)に変えて、独立変数として使う。

・独立変数としてのダミー変数の使用は、政策の効果をはかる
  ひとつの方法。

 例)助成金をうけた(Yes=1 No=0)


●特殊なデータの分析

・回答にゼロが多いデータでは、OLS(最小二乗法)は使わない

 打ち切り、切断、カウントデータ(子供の人数など)では、
  OLSは使わない。順序ロジットを使う。


●まとめ

・研究は人のあらを探して攻撃し、その穴を埋めていく。
  次は自分が屍となって、科学が進展していく。

・論文にする

 1.はじめに 問題意識、研究意義
 2.先行研究 既存知見、残された課題
 3.分析の枠組み 理論モデル、仮説の提示
             推定モデル、推定方法
 4.推定 基本統計量の提示、推定結果の提示と解釈
 5.結論 問題意識と結論 残された課題
 6.謝辞

===

どうもありがとうございました。

トラックバック

このエントリーのトラックバックURL:
http://learn-well.com/xbitmtop/mt-tb.cgi/1001

コメントを投稿

(いままで、ここでコメントしたことがないときは、コメントを表示する前にこのブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)