2011年3月3日(木)10時~17時15分 @ 赤門そば
http://ssjda.iss.u-tokyo.ac.jp/250000/251000/251040/
東京大学 社会科学研究所 計量分析セミナー
「二次分析道場!」 三輪哲先生 山本先生 1日目
http://ssjda.iss.u-tokyo.ac.jp/pdf/seminar2011/seminar2011_3.pdf
に参加してきました。
佐藤先生の「入門!」が面白かったので、
「男二人の先生で、堅苦しくてつまんなかったら3日間つらいなー」
と思っていたのですが、これも良い意味で裏切られました!
今回も面白かったです!
三輪先生、山本先生も素晴らしく、内容ももちろんなのですが、
お二人のこの「道場」に対する熱い想いと質問への対応の仕方に惚れました。
また別の機会に受けてみたいです。
受ける前は、正直「大学主催のセミナーなんて・・・眠たくなるのを堪えるだけ」
なんて、思っていましたが、そんなことありませんね。
このセミナーを、修士2年に入る前に受けられて本当に良かったです。
これから、量的調査、分析をする人にとっては必須の内容だと思います。
さし障りのない範囲で、自分が学んだことをシェアします。
(・内容 ○関根の独りごと)
=================================
1.二次分析とは何か
・統計分析ではなく、計量分析セミナー
・「社会を分析、理解する」ために、統計を手段として活用する
●研究の企画
・問いをたてて答える=研究
・変数=変わりうる数 説明されるべき「分散(ちらばり)」が必要
・問いの分類
「1変数分布の問い」Yの平均は?割合は?ちらばりは?
「関連の問い」XとYの関連は?
「予測の問い」Xに対してYはどうなると予測できる
「帰結の問い」モデリング
・1変数分布を「見る」「比べる」「説明する」
・関連を「見る」「グループ間で比べる」「媒介変数で説明する」
・概念と変数
例)業務能力 → 各質問項目
○なるほど!だから尺度構成をするのか! 質問項目を再度概念に戻す
・概念の操作的定義
例)業務能力を、今回の研究ではどう定義するのか
・定義が違うと議論がかみ合わない
・1変数分布の問いへの答え ← 1変数分布を「説明する」ことで答える
・関連の問いへの答え ← 関連を「見る」
「グループ間で比べる」「媒介変数で説明する」ことで答える
関連の程度がグループ間で相違する場合、「交互作用がある」という
・「あいだに何か入ってくるのでは」それが何故に答える
★「答え方」を考えておくと、「問い」も立てやすくなる
・関連を見る2つのアプローチ 横断的仮説と縦断的仮説
縦断的 ~すると、~になる 横断的 ~なら、~である
=================================
2.データ分析の準備
・標本を調べるだけで、全体(母集団)のことはある程度わかる
・質的:名義と順序 離散変数、カテゴリカル
量的:間隔と比率、比例 連続変数
・名義尺度 位置を入れ替えてもOK
・順序尺度 順番を入れ替えるおかしくなる
・間隔尺度 こことここの間がどのくらい差があるのか見る
○だから、リッカートの5件法も間隔とみなすのかな 1~5
・比率尺度 例)異同 大小 差 比 例)150万 300万の差
・変数の種類によって、分析方法が異なる
離散変数、質的 = 度数表に基づく方法 クロス集計
連続変数、量的 = 平均、分散、共分散、相関係数、回帰分析
・順序尺度を間隔尺度とみなす そうすることで色々な分析手法が使える
○5件法を、順序のまま(質的として)分析することも可能とのこと。
これでクロス集計ができる!
・質―質 クロス集計
質―量 分散分析
量―質 ロジスティック回帰
量―量 回帰分析
・ダミー変数 これを使うことで、質的変数を回帰分析の中に入れられる
○同じ5件法でも、片方(OJT行動)を間隔尺度、もう片方(能力)を順序とみなして
ロジスティック回帰(多変量解析)を行うことはOK、とのこと
・多変量解析手法のロジスティック回帰分析が最も使われている
=================================
●SPSS実習
・シンタックス利用の推奨
分析の全過程を再現可能 他者との情報共有も可能
・オリジナルデータファイルは上書き保存しない
・シンタックスファイルは必ず保存
・出力ファイルは必要なものをエクセルに保存
・11のコマンドを知れば色々できる
fre recode var lab val lab mis val comp
filter split file cro if logi
=================================
2011年3月4日(金)10時~17時15分 @ 赤門そば
「二次分析道場!」 三輪哲先生 山本先生 2日目
=================================
3.クロス集計表と統計的検定
●統計的検定の考え方とクロス表のカイ2乗検定
・統計的検定 = 母集団がどうなっているかについての判断
帰無仮説(母集団が50:50である)としたら、こんな極端な標本に
なることは考えにくい! ということで、帰無仮説を棄却
この時の「考えにくい」程度を示すのが、有意水準。
(間違えても仕方ないという確率が、1~5%)
・色々な検定はあるが、今回は「クロス表のカイ2乗検定」を扱う
・2変数が独立している=互いに依存していない=関連がない
2変数に偏りがある=独立ではない=関連がある≒差がある
・標本の差が誤差でそうなったのか、母集団もそうなっているのか調べたい
そこで役に立つのが、カイ2乗検定
・カイ2乗の値が大きいほど、ズレガ大きい=関連あり
カイ二乗が0=ズレガない=独立している=2変数に関連はない
・カイ二乗によって、誤差がどうなっているかを正確に知ることができる
・2×2のクロス表では、自由度は1なので、カイ二乗統計量が、
3.841より大きくなると、5%水準で極端な標本と言える。
=独立でない=関連がある=帰無仮説は間違っている
・カイ2乗検定は、独立性=関連性(2変数間)を見る
帰無仮説が正しいとしたら、ここまで極端な値が出る確率は、
1~5%しかないよ=統計的有意性
・統計的に有意な差がある=母集団においても差がないとは言えない=ありそう
ただ、実質的に重要な差があるかどうかを示すのが「%」や「オッズ比」
・2変数に関連がないとは言えないね = 帰無仮説の棄却
●クロス集計表による分析
・関連の問いに対して「見る」ことで答える その際にクロス表が使える
・列 column(柱) 行 row(映画館の座席)
・p<0.05なら、5%水準で帰無仮説を棄却できる
小さいほど良い
○あれ、さっきは大きいほど良いじゃなかったけ?
・Pearson のカイ2乗 漸近有意確率(両側).000
・「関連の強さ」
統計的に有意な関連が見られる ではどの程度の関連の強さなのか
それを見るのが、比率の差 % オッズ比、対数オッズ比
・オッズ=~のしやすさ
オッズ比=~倍 1のとき、グループ間でオッズは同じ=関連がない
2のとき、あるグループのオッズは、他の2倍
・比率の差は、自分で計算 オッズ比は、SPSSで?
・セル残差 を見ることで、どのセルで特に「独立性が崩れているのか」
=特に関連があるのか を見る
sresid 標準化残差 asresid 調整済み標準化残差 ←違いは?
3×3以上のクロス表であれば、セル残差の分析ができる
・asresid を特に見れば良い?
●高次クロス集計による関連の比較
・クロス表=関連を見る
2変数を見る - カイ2乗検定、オッズ比、%
2変数を比較する、説明する クロス集計の場合、同じ分析方法を使う
・3重クロス表 2×2×2の8セルとなる
・関係のあり方が、第3の変数によって異なることを「交互作用」と呼ぶ
Z1 X→Y
Z2 X→Y
・交互作用の内容は、オッズ比でみるのが基本だが、%でもみる
・第3変数Zの値によって、Yに対するXの効果が異なる
こういう交互作用の考え方は、汎用性が広く、論文のネタになる
・ただ、交互作用を検討するにはまず理論から入る
まず良く考えてから、3重クロス表作りという作業に入る
●高次クロス集計による関連の説明
・媒介変数であるようにみなして分析する
X1 Y
→ X2 →
・第3の変数が、2つの変数の関係に影響を与えない場合 オッズ比は同じ?
・第3の変数が、2つの変数の間の関係を完全に説明する場合、オッズ比は1.00
・X1とYの関連はある だがそれは、X2を介したものであった という?
=================================
4.ロジスティック回帰分析
●ロジスティック回帰分析入門
・ロジ回帰分析とは、離散的(質的)は従属変数(Y)を分析する為の
多変量解析技法 (ロジットモデルともいう)
回帰分析の拡張であり、一般化線形モデルとも言われる
(2×2クロス表でみた)オッズ比の拡張ともいえる
・Y=ロジット Xにはダミー変数(1.0)を入れていく?
・ロジスティック回帰分析の結果=オッズ比の計算?
指数変換 Expodential? の値が、オッズ比に等しい
・オッズ比の計算は、2×2でないとできないので、3×2の場合、
ダミー変数を2つ作る
・ダミー変数を入れることで、2×2にできる = オッズ比が出せる
○3×3なら、セル残差が出せる 2×2ならオッズ比が出せる?
オッズ比=~倍~しやすいか ?
・Exp(B)=オッズ比 にマイナスは出ない 0.8だと負の関係
・ロジスティック回帰分析の定数?を指数変換した値(ExpB?)は、
すべての独立変数が0の値をとるときの期待オッズ(Y)?
○いろんな言葉が出てくる 言い方も色々 それが混乱させるのかも
・ロジスティック回帰分析は、クロス表とは異なり
連続変数をXの中に入れられる ここが強み
・なぜロジ回帰を使うのか このS字曲線が最大の強み 回帰分析だとS字にならない
○この辺、よくわからない ついていけてない
○ロジ回帰=オッズ比 ~倍~しやすいかをみる
オッズ→確率 %の確率で、~しやすいか
質的な従属変数を見るときは、確率を見たい ということ?
・複数の独立変数を用いる 重回帰分析
予測よりも、統制する道具としてロジ回帰は使われている
他の変数の影響を取り除いて、当該の2つの変数を見れる
・「適合度」
カイ2乗は、大きい方がよい? どれだけ説明力があったのか
対数尤度は、小さい方が良い
Nagelkerke R二乗は、0に近いと説明できていない、1に近いと説明できている
○この見方が良く分からない
●ロジスティック回帰分析における交互作用の検討
・三重クロスでやったような、関連の比較、説明もできる
・交互作用を検討するには、
1)第3変数によって、ファイルをわけそれぞれ結果を出して比較する
Z X→Y
Z X→Y
2)第3変数と独立変数の積を新変数として作成し、
それを新たな独立変数として投入 「交互作用項」
Z×X →Y
・ダミー変数にして
○この辺もよくわからない
●最尤法の考え方と誤差
・全部理解できなくてよい イメージがつかめれば
・「もっとももっともらしくする方法」=最尤法
・パラメータ = 母数 モデルのあり方を決める数
・あるパラメータのもとでの標本のもっともらしさ=尤度
○標本の最尤度だけで、母集団もこうだ!って言っていいの?
・標本サイズが大きいほど、山はとがる
尤度をグラフにしたとき、とがっているほど、誤差が小さい
=================================
2011年3月5日(土)10時~17時15分 @ 赤門そば
「二次分析道場!」 三輪哲先生 山本先生 3日目
=================================
5.システム分析の考え方と応用
●システム分析の考え方
・母集団からランダムに標本を抽出する = 外的妥当性
被験者をランダムにアサインする Random assignment 無作為割り当て
・実験計画法 因果を捉えるために必要
・調査データから因果を考える 因果推論
1)変数の時間的順序
★変数の時間的順序を考えること!
○これがN先生に言われていたことだ!調査票を作る時の時制の重要性
・絵で描く癖 (→ 符号)で考えると良い
矢印の連鎖=パス図 因果関係を考える際に役立つ
・順序が明確でないときは、変数の「変わりやすさ」に着目する
変わりにくいもの(固定的)を原因、変わりやすいもの(変動的)を結果とみなす
2)変数の相対的位置
・先行変数→説明変数→媒介変数→被説明変数→後行変数
・嘘の効果、見掛け上の効果があるのでは それを見るのが、先行変数
・媒介変数は、X→Yの関係を説明する
○これを見つけたいなー!「なぜ」を説明できる
★何が先行で、媒介かは、自分で考え、分析しながら見つけて行く
先行
X1 → Y
X2
★調査では、考え方を工夫することで、因果推論ができる!
「変数の時間的順序」「変数の相対的位置」
・総効果=因果効果(=直接効果+間接効果)+疑似効果
●システム分析
・一貫型システム Reinforcing
非一貫型システム Suppressor
・因果関係の図式=システム分析
心理学では、AMOSを使ってパス解析を行う
今回は、ロジスティック回帰を使って、システム分析を行う
・関連を説明できる 何故 これがシステム分析の良いところ、論文のネタにもなる
・B 総効果に着目
○この辺、面白い!
・システム分析は、関連を説明する
○ロジ回帰、自分の武器にしよう!
=================================
6.まとめ
=================================
○5日間、出て良かった!これにでなくて、M2になっていたらまずかった。
既に持っているデータをどんどん分析していこう!やるで!
三輪先生、山本先生、ありがとうございました!
コメントフォーム