2011年3月1日(火)10時~17時15分 @ 赤門そば
http://ssjda.iss.u-tokyo.ac.jp/250000/251000/251040/
社会科学研究所 計量分析セミナー 「二次分析入門!」 佐藤香先生
http://ssjda.iss.u-tokyo.ac.jp/pdf/seminar2011/seminar2011_2.pdf
に参加してきました。
期待に反して、面白かったです!
難しい統計や分析をこんなに楽しく学べるとは思ってもいませんでした。
さし障りのない範囲で、自分が学んだことをシェアします。
(・内容 ○関根の独り言)
=================================
1.二次分析とは何か
・2日間で12時間、大学での90分授業が8コマ。約半年分の授業。
・JGSSデータは、研究者として今後も利用可能。
・「1セル問題」個人を特定できないよう
社会調査は個人の意見というよりも、集団のもつ傾向を見たい
・社会調査は「研究の企画」「調査の設計、実施」「データ分析」
という3つの段階から構成されている。
二次分析による社会研究では「調査の設計、実施」というコストがかかる
部分を省くことができる。
・調査の実施に時間をとられて、分析できないという状況もある。
・データアーカイブとして、SSJのほかに、
リクルートのワーキングパーソン調査もある。
○これは俺の研究に関係するデータかも。
・二次分析に関わる倫理問題
インフォームドコンセント、ハラスメント防止、守秘義務
これらが留意され、調査が行われていることを理解した上でデータを使用。
公開データの作成には、データのクリーニングやコーディング作業で
コストがかかっていることも理解する。
・必ず出典を明記し、利用報告書を送る
=================================
2.社会調査研究の流れ
・まず母集団を想定する 国勢調査である程度わかる
・全数調査 例)国勢調査 母集団すべて
標本調査 無作為抽出-できるだけ母集団を反映
有意抽出-偏りがあるので一般化は慎重に
・多変量解析ができるのは、無作為抽出の良いデータのとき
度数分布やクロス集計は、有意抽出のデータのとき
・台帳からの抽出は、以前は研究者がやっていたが、個人情報保護法の施行後は、
調査会社を通して実施するように、コストが高くなった
・台帳のあるところ、リストがあるところに調査をすべし
・公開データへのアクセス
個票データを探し利用申請 その上で官庁統計などマクロ統計情報を収集
ミクロな自分の研究が、マクロな環境のどこに位置づけられるかをみる
・その時に役立つのが、estat http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
・研究の企画
1)調査テーマの設定(問いを立てる)
「誰の Who」「何を What」を明らかにするのか
それが、「何故 Why」大事なのか(研究の意義)
★ 既に言われていることに、いまいち納得できない だから自分は研究する
ではどこがいまいちなのか それが意義となる
○この説明、ほんと分かりやすい! すとんと来た。
2)仮説の設定
問題の定式化(問題をシンプルに言葉で表現する)
「~ならば、~になる」「If A, Then B」
・JGSS は国際比較できるよう Korea、Taiwan と
2006年は「家族」2010年は「ソーシャルキャピタル」に関して同じ質問をしている
=================================
3.データ分析と解釈
・分析の準備 データの加工=Data Handling
★ ここが上手になると良い 分析はそのあと
これができるようになると、色々なことができるようになる
○これもスパッと来たなー。何が重要かメリハリがついていてわかりやすい!
・想定しなかった問題や期待はずれが起こることも覚悟
上手くいかないもの
・いけてないことが分かるのも進歩 使えるものかどうかを判断できるのも経験
100枚のクロス集計表のうち、1枚でも使えるものがあればめっけもの
・理論モデルと分析モデル データで見えるのは、作業仮説部分のみ
メタレベルに上げて行くことが、研究
・何を分析したかったのかを忘れることがあるので、必ず研究計画は書いておく
・問いの分類 記述的問い 説明的問い 予測に関する問い 関係に関する問い
○俺は「関係の記述的問い」→「関係の説明的問い」かなー。
・縦断的仮説と横断的仮説
・時系列(因果関係)で説明したくなったら、ちょっと待てよと考える
・横断的な仮説では、「機能」「意識」で考えてみる
先行研究が「意識面」を重視するなら、自分は「機能面」を重視することで
オリジナリティーを出せる。
=================================
4.SPSSを使った実習
・SPSSの起動
・度数分布(各質問に何人答えてくれているか?)
・ヒストグラム
・棒グラフ(間があいている)
●データの加工 Data Handling とっても重要!これができればOK
1)欠損値指定
・何をするにもまずは「度数分布」
・分析に使用しない人(非該当者)をあらかじめ除外しておくことを欠損値指定という
・非該当 =8、88 SYSMIS その質問には答えなくてよい、答えられない
無回答 =9、99 その質問に答えなかった
○「分からない」という回答は? 非該当?
2)値の再割り当て
・カテゴリ数が多い時に、いくつかのカテゴリーに統合することもある(見やすいから)
○逆転質問のときも、このやり方をする?
・再割り当てをしたら、データビューの一番下に出る。ラベルの名前をつけておくことと、
「値ラベル」に1=~を入れておくこと
・割り当てを間違えると、欠損値が大きくなる
3)計算
・変換→変数の計算
・変数ビューの一番下に新しい変数ができるので、ラベルを入れておく 忘れてしまうので
4)合成変数の作成
・値の再割り当てと計算を組み合わせる
●クロス集計
・2つの変数を用いたクロス集計
●ケースの選択
・ある条件を満たしたデータのみ使用したい場合
=================================
5.データ分析の準備
・測定水準(尺度の4類型)
測定には何らかの尺度が使われ、この尺度によって分析手法も変わる
・質的=名義尺度、順序尺度 量的=間隔尺度、比率・比例尺度
カテゴリー間の「異同」「大小」「差」「比」が分かるかどうか
・絶対的な0が存在するのが比率尺度 一番精緻な尺度
・「5件法」は、「順序尺度」だけど、5つなので「比率尺度」と日本ではみなす
「4件法」は、「順序尺度」だけど、「間隔尺度」としてみなす
つまり、両方とも「量的変数」として分析をする
・質的変数→度数表 量的変数→平均、分散、共分散(多変量解析)
・データ加工をしているときは、パニックを起こさないように
=================================
6.SPSSを使った個別練習
・JGSSの中で興味ある変数を5つ
・度数分布表
・カテゴリーが多いときは、再統合
・クロス表を3枚作ってみる
●関根のケース
まずは、質問紙を眺めて、どんな結果になりそうか知りたい項目を選ぶ
従属変数を決めて、それに影響しそうな独立変数を考えた
育った環境と、仕事状況
独立変数 = 兄弟姉妹の数 父の仕事 母の仕事
従属変数 = 就労地位 転職回数
クロス集計の結果
-一人っ子 → 経営者が少ない
-4人以上兄弟がいる → 経営者が多い
-父の仕事がサラリーマン → サラリーマン
・2日目は、これらが一般化可能なのかを検定する
=================================
○面白い!わかりやすかった。 授業構成も見事!
断片的だった知識がつながりはじめた! 感謝!
=================================
2011年3月2日(水)10時~17時15分 @ 赤門そば
社会科学研究所 計量セミナー 「二次分析入門!」 佐藤香先生 2日目
=================================
○配布されたテキストが分かりやすい!自分の知りたいことがカバーされている!
・入門コースでは、SPSSを開くことが怖くないようになることが目標。
・データハンドリングをたくさんすること
=================================
7.質的変数の集計と統計的検定
1)質的変数の分布
・質的変数=名義尺度、順序尺度 量的変数=間隔尺度、比例尺度
・データを眺めても、分析しないと何も分からない
・データの値がばらついている状態を「分布」という
・統計分析の目的は、1)分布を知ること 2)分布を比べること
これが大事なポイント
・「度数分布表」が、最も基本的な統計分析の方法
「どこに どれだけ 値があるのか」この表を基にして色々計算ができる
★全ての変数の度数分布表をみることからはじめる
○Kさんが言ってた通りだ!
2)質的変数の関連
・関連=一方の変数の値が大きくなるほど、もう一方の変数の値が大きくなるのか、
それとも小さくなるのか
・関連を分析する為には、2つの変数(例:身長と体重)が対応づけられていること
・2変数の分布を同時に表示した表を「クロス集計表(分割表)という
・クロス集計表の「周辺度数」をまず見る ここが違っていると面白いことを発見したのかも
・論文では「行」「列」どちらかの%を示す どっちを自分が示したいのか
3)統計的検定
・クロス集計の統計量のボタンに関すること
・検定ができると、面白くなる。 すごーく簡単
★関連があると主張する為に「関連がないことはない」と示すのが統計的検定
・関連がないことは証明できる
・「関連がない」という状態(例:男50 女50)からどれだけ離れているかを見る
離れていれば、「関連がないとは言えないね」という示すことで「関連がありそうだ」
ということを主張する
でも「関連しないかもしれない確率」が1%~5%あるよというのが「有意水準」
・このロジックは何度もやっているうちにしみつく
・検定は、標本調査で使う 全数調査では不要
・どうサンプリングするかで、結果は変わる
・サンプル数は、母集団が1000万人以上であれば、0.1%
母集団が1万人であれば、1%は必要 N=100
★サンプル数は、0.1~1%の間は必要
・母集団がないと、標本調査はできない
・母集団のサイズを知った上で、サンプル数を決める
・サンプル数は「まいた数」でOK 回収率は50~60%を目指す 郵送なら30%になるが
★サンプルに偏りがあることを自覚していることが大事
そのためには、官庁統計を見て、マクロな母集団を知るべき
【カイ二乗検定】
・「関係がない」という帰無仮説(無くなってくれたら嬉しいなー)
・帰無仮説は棄却された=関連性が無いという証明に失敗した
・関連性がなければ「0」なのに、これだけずれてると示す
「実現値-期待値(周辺度数?)」
・3行2列の自由度は2 統計本の後ろに付録がついているのでそこを見る
カイ二乗値が、自由度2の値(5.99)より小さければ、統計的に有意ではないと言える
関連性がないということを証明するのに成功したということ
・0.000 ← 0.1%水準で有意
0.009 ← 1%水準で有意
0.049 ← 5%水準で有意
0.099 ← 10%水準で有意=ほとんど有意ではない
・小数点の後ろに、0が入っていたら「有意の可能性」 1以上が入っていたら「有意でない」
4)連関係数
・関連性の強さを見る
・クラマーのV係数 これが大きければ、C係数も大きくなる
その他、ラムダ ファイ 等
・強い関連性があると言いたいときに、連関係数を使う
・「統計的有意」と「関連の強さ」は異なる
「統計的有意」は、母集団にも同じようなことが言えると言えること
これはサンプルサイズが大きくなればそうなりやすい
・この2つがそろえば、自信をもって主張できる
・クラマーのV係数は、名義尺度以上 何にでも使える
関連の大きさの目安となる
0.1未満 ほとんど関連なし
0.1~0.3 弱い関連 0.3以上 強い関連
○クロス集計で、関連しそうな質的変数2つを探していくのは面白い!
=================================
8.量的変数の集計と統計的検定
1)1変数の記述統計
・記述統計とは、データ全体の特徴を表すこと
・代表値は3つ知れば十分 平均値 中央値 最頻値
○この3つの説明、分かりやすい!
【散布度】
・データの散らばりを表す どのくらいばらついているか
・まず偏差を求める 平均値からの距離
・それぞれが平均からどのくらい離れているか=分散?
・標準偏差 だいたいの人が平均身長145cmの±4.1の間にいるよ
・同じ平均値でもばらつきは違う だから 分散 標準偏差を見る ?
2)2変数間の関連性測定
・量的-量的(間隔、比例尺度) ← 共分散 相関係数
質的(名義、順序尺度)-量的 ← 平均値の検定(t検定) 分散分析
・偏差積和をデータ総数で割る 共分散 こちらが一般的
分散は同じ変数同士の共分散 こちらは特殊
・共分散は、+ならば正の関連 -なら負の関連
【相関係数】
・-1~+1の間 0は無相関
・0.3以上で強い相関
・相関係数の注意点
-質的変数2つの時は、クレマーのV係数を使う
-必ずしも因果関係があるとは限らない
-第3の変数が影響している可能性
-集団の範囲による影響
・年収カテゴリーに、数字を与えて量的変数にかえての演習
スケール - スケール(量的)なら相関係数が出せる
・質的-量的の場合
カテゴリーが2つのときは、平均値の差の検定(t検定)を行う
カテゴリーが3つのときは、分散分析をおこなう
・t検定にしても、分散分析にしても、
標本で見られた違いが、母集団においても見られるかを検定(つまり一般化?)
・t検定は 質的-量的
研修前と後で検定を行うケース 母集団は今後この研修を受けそうな人
・F値≒カイ二乗値 イータ≒クラマーのV
★出力結果を読み取れることが大事
=================================
9.分析結果のグラフ表現
・自分で作ったクロス集計などをグラフ化して、ワードに貼り、ミニレポートを作る
・エクセルで作った図表で示す 情報量が文章より多い
・左端に0が無いグラフは、嘘をつこうとしている「統計で嘘をつく方法」
・従属変数が質的 →棒グラフ、帯グラフ、円グラフ
量的 →折れ線グラフ、ヒストグラム
・相関係数を見るときは、散布図を見る 見ると大体の相関が分かる
=================================
○面白かった―!この先生の夏学期の授業を受けてみよう!
いい先生に出会えたなー。
佐藤先生、ありがとうございました!
コメントフォーム