« 2011年02月 | メイン | 2011年04月 »

2011年03月06日

計量分析セミナー「二次分析道場!」に参加してきました


2011年3月3日(木)10時〜17時15分 @ 赤門そば

http://ssjda.iss.u-tokyo.ac.jp/250000/251000/251040/

東京大学 社会科学研究所 計量分析セミナー

 「二次分析道場!」 三輪哲先生 山本先生 1日目

 http://ssjda.iss.u-tokyo.ac.jp/pdf/seminar2011/seminar2011_3.pdf
に参加してきました。


佐藤先生の「入門!」が面白かったので、

「男二人の先生で、堅苦しくてつまんなかったら3日間つらいなー」

と思っていたのですが、これも良い意味で裏切られました!


今回も面白かったです! 

三輪先生、山本先生も素晴らしく、内容ももちろんなのですが、
お二人のこの「道場」に対する熱い想いと質問への対応の仕方に惚れました。

また別の機会に受けてみたいです。


受ける前は、正直「大学主催のセミナーなんて・・・眠たくなるのを堪えるだけ」
なんて、思っていましたが、そんなことありませんね。


このセミナーを、修士2年に入る前に受けられて本当に良かったです。
これから、量的調査、分析をする人にとっては必須の内容だと思います。


さし障りのない範囲で、自分が学んだことをシェアします。

(・内容 ○関根の独りごと)

=================================

1.二次分析とは何か


・統計分析ではなく、計量分析セミナー

・「社会を分析、理解する」ために、統計を手段として活用する


●研究の企画

・問いをたてて答える=研究

・変数=変わりうる数 説明されるべき「分散(ちらばり)」が必要

・問いの分類 

「1変数分布の問い」Yの平均は?割合は?ちらばりは?

「関連の問い」XとYの関連は?

「予測の問い」Xに対してYはどうなると予測できる

「帰結の問い」モデリング

・1変数分布を「見る」「比べる」「説明する」

・関連を「見る」「グループ間で比べる」「媒介変数で説明する」

・概念と変数
 
 例)業務能力 → 各質問項目

○なるほど!だから尺度構成をするのか! 質問項目を再度概念に戻す

・概念の操作的定義

 例)業務能力を、今回の研究ではどう定義するのか

・定義が違うと議論がかみ合わない

・1変数分布の問いへの答え ← 1変数分布を「説明する」ことで答える

・関連の問いへの答え ← 関連を「見る」
             「グループ間で比べる」「媒介変数で説明する」ことで答える

 関連の程度がグループ間で相違する場合、「交互作用がある」という

・「あいだに何か入ってくるのでは」それが何故に答える

★「答え方」を考えておくと、「問い」も立てやすくなる

・関連を見る2つのアプローチ 横断的仮説と縦断的仮説

 縦断的 〜すると、〜になる 横断的 〜なら、〜である


=================================

2.データ分析の準備


・標本を調べるだけで、全体(母集団)のことはある程度わかる

・質的:名義と順序 離散変数、カテゴリカル
 量的:間隔と比率、比例 連続変数 

・名義尺度 位置を入れ替えてもOK

・順序尺度 順番を入れ替えるおかしくなる

・間隔尺度 こことここの間がどのくらい差があるのか見る

 ○だから、リッカートの5件法も間隔とみなすのかな 1〜5

・比率尺度  例)異同 大小 差 比  例)150万 300万の差

・変数の種類によって、分析方法が異なる

  離散変数、質的 = 度数表に基づく方法 クロス集計
  連続変数、量的 = 平均、分散、共分散、相関係数、回帰分析

・順序尺度を間隔尺度とみなす そうすることで色々な分析手法が使える

○5件法を、順序のまま(質的として)分析することも可能とのこと。

 これでクロス集計ができる!


・質―質 クロス集計
 質―量 分散分析
 量―質 ロジスティック回帰
 量―量 回帰分析


・ダミー変数 これを使うことで、質的変数を回帰分析の中に入れられる

○同じ5件法でも、片方(OJT行動)を間隔尺度、もう片方(能力)を順序とみなして
 ロジスティック回帰(多変量解析)を行うことはOK、とのこと


・多変量解析手法のロジスティック回帰分析が最も使われている


=================================

●SPSS実習

・シンタックス利用の推奨

 分析の全過程を再現可能 他者との情報共有も可能

・オリジナルデータファイルは上書き保存しない

・シンタックスファイルは必ず保存

・出力ファイルは必要なものをエクセルに保存

・11のコマンドを知れば色々できる

fre recode var lab val lab mis val comp

filter split file cro if logi

=================================

2011年3月4日(金)10時〜17時15分 @ 赤門そば

 「二次分析道場!」 三輪哲先生 山本先生 2日目

=================================

3.クロス集計表と統計的検定


●統計的検定の考え方とクロス表のカイ2乗検定

・統計的検定 = 母集団がどうなっているかについての判断

 帰無仮説(母集団が50:50である)としたら、こんな極端な標本に
 なることは考えにくい! ということで、帰無仮説を棄却

 この時の「考えにくい」程度を示すのが、有意水準。
 (間違えても仕方ないという確率が、1〜5%)

・色々な検定はあるが、今回は「クロス表のカイ2乗検定」を扱う

・2変数が独立している=互いに依存していない=関連がない

 2変数に偏りがある=独立ではない=関連がある≒差がある

・標本の差が誤差でそうなったのか、母集団もそうなっているのか調べたい
 そこで役に立つのが、カイ2乗検定

・カイ2乗の値が大きいほど、ズレガ大きい=関連あり

 カイ二乗が0=ズレガない=独立している=2変数に関連はない

・カイ二乗によって、誤差がどうなっているかを正確に知ることができる

・2×2のクロス表では、自由度は1なので、カイ二乗統計量が、
 3.841より大きくなると、5%水準で極端な標本と言える。

 =独立でない=関連がある=帰無仮説は間違っている

・カイ2乗検定は、独立性=関連性(2変数間)を見る

 帰無仮説が正しいとしたら、ここまで極端な値が出る確率は、
 1〜5%しかないよ=統計的有意性

・統計的に有意な差がある=母集団においても差がないとは言えない=ありそう
 
 ただ、実質的に重要な差があるかどうかを示すのが「%」や「オッズ比」

・2変数に関連がないとは言えないね = 帰無仮説の棄却


●クロス集計表による分析

・関連の問いに対して「見る」ことで答える その際にクロス表が使える

・列 column(柱)  行 row(映画館の座席)

・p<0.05なら、5%水準で帰無仮説を棄却できる

 小さいほど良い

○あれ、さっきは大きいほど良いじゃなかったけ?

・Pearson のカイ2乗 漸近有意確率(両側).000


・「関連の強さ」

 統計的に有意な関連が見られる ではどの程度の関連の強さなのか 

 それを見るのが、比率の差 %  オッズ比、対数オッズ比

・オッズ=〜のしやすさ

 オッズ比=〜倍  1のとき、グループ間でオッズは同じ=関連がない
          2のとき、あるグループのオッズは、他の2倍 

・比率の差は、自分で計算 オッズ比は、SPSSで?

・セル残差 を見ることで、どのセルで特に「独立性が崩れているのか」
 =特に関連があるのか を見る

 sresid 標準化残差 asresid 調整済み標準化残差 ←違いは?

 3×3以上のクロス表であれば、セル残差の分析ができる

・asresid を特に見れば良い?


●高次クロス集計による関連の比較

・クロス表=関連を見る

 2変数を見る − カイ2乗検定、オッズ比、%

 2変数を比較する、説明する クロス集計の場合、同じ分析方法を使う

・3重クロス表 2×2×2の8セルとなる

・関係のあり方が、第3の変数によって異なることを「交互作用」と呼ぶ

 Z1 X→Y
 Z2 X→Y

・交互作用の内容は、オッズ比でみるのが基本だが、%でもみる

・第3変数Zの値によって、Yに対するXの効果が異なる

 こういう交互作用の考え方は、汎用性が広く、論文のネタになる

・ただ、交互作用を検討するにはまず理論から入る 
 まず良く考えてから、3重クロス表作りという作業に入る


●高次クロス集計による関連の説明

・媒介変数であるようにみなして分析する

  X1      Y
   → X2 →

・第3の変数が、2つの変数の関係に影響を与えない場合 オッズ比は同じ?

・第3の変数が、2つの変数の間の関係を完全に説明する場合、オッズ比は1.00

・X1とYの関連はある だがそれは、X2を介したものであった という?


=================================

4.ロジスティック回帰分析


●ロジスティック回帰分析入門

・ロジ回帰分析とは、離散的(質的)は従属変数(Y)を分析する為の
 多変量解析技法 (ロジットモデルともいう)

  回帰分析の拡張であり、一般化線形モデルとも言われる
  (2×2クロス表でみた)オッズ比の拡張ともいえる

・Y=ロジット Xにはダミー変数(1.0)を入れていく?

・ロジスティック回帰分析の結果=オッズ比の計算?

 指数変換 Expodential? の値が、オッズ比に等しい

・オッズ比の計算は、2×2でないとできないので、3×2の場合、
 ダミー変数を2つ作る

・ダミー変数を入れることで、2×2にできる = オッズ比が出せる

○3×3なら、セル残差が出せる 2×2ならオッズ比が出せる?

 オッズ比=〜倍〜しやすいか ?

・Exp(B)=オッズ比 にマイナスは出ない 0.8だと負の関係

・ロジスティック回帰分析の定数?を指数変換した値(ExpB?)は、
 すべての独立変数が0の値をとるときの期待オッズ(Y)?

○いろんな言葉が出てくる 言い方も色々 それが混乱させるのかも

・ロジスティック回帰分析は、クロス表とは異なり
 連続変数をXの中に入れられる ここが強み

・なぜロジ回帰を使うのか このS字曲線が最大の強み 回帰分析だとS字にならない

○この辺、よくわからない ついていけてない

○ロジ回帰=オッズ比 〜倍〜しやすいかをみる

  オッズ→確率 %の確率で、〜しやすいか 

 質的な従属変数を見るときは、確率を見たい ということ?


・複数の独立変数を用いる 重回帰分析

 予測よりも、統制する道具としてロジ回帰は使われている
 
 他の変数の影響を取り除いて、当該の2つの変数を見れる

・「適合度」

 カイ2乗は、大きい方がよい? どれだけ説明力があったのか

 対数尤度は、小さい方が良い

 Nagelkerke R二乗は、0に近いと説明できていない、1に近いと説明できている

○この見方が良く分からない


●ロジスティック回帰分析における交互作用の検討

・三重クロスでやったような、関連の比較、説明もできる

・交互作用を検討するには、

 1)第3変数によって、ファイルをわけそれぞれ結果を出して比較する

   Z X→Y
   Z X→Y

 2)第3変数と独立変数の積を新変数として作成し、
   それを新たな独立変数として投入 「交互作用項」

   Z×X →Y

・ダミー変数にして 

○この辺もよくわからない

●最尤法の考え方と誤差

・全部理解できなくてよい イメージがつかめれば

・「もっとももっともらしくする方法」=最尤法

・パラメータ = 母数 モデルのあり方を決める数

・あるパラメータのもとでの標本のもっともらしさ=尤度

○標本の最尤度だけで、母集団もこうだ!って言っていいの?


・標本サイズが大きいほど、山はとがる 

 尤度をグラフにしたとき、とがっているほど、誤差が小さい


=================================

2011年3月5日(土)10時〜17時15分 @ 赤門そば

 「二次分析道場!」 三輪哲先生 山本先生 3日目

=================================

5.システム分析の考え方と応用


●システム分析の考え方

・母集団からランダムに標本を抽出する = 外的妥当性

 被験者をランダムにアサインする Random assignment 無作為割り当て

・実験計画法 因果を捉えるために必要


・調査データから因果を考える 因果推論

1)変数の時間的順序

★変数の時間的順序を考えること!

○これがN先生に言われていたことだ!調査票を作る時の時制の重要性

・絵で描く癖 (→ 符号)で考えると良い 

 矢印の連鎖=パス図 因果関係を考える際に役立つ

・順序が明確でないときは、変数の「変わりやすさ」に着目する

 変わりにくいもの(固定的)を原因、変わりやすいもの(変動的)を結果とみなす


2)変数の相対的位置

・先行変数→説明変数→媒介変数→被説明変数→後行変数

・嘘の効果、見掛け上の効果があるのでは それを見るのが、先行変数

・媒介変数は、X→Yの関係を説明する 

○これを見つけたいなー!「なぜ」を説明できる

★何が先行で、媒介かは、自分で考え、分析しながら見つけて行く


 先行 

   X1  →  Y

      X2


★調査では、考え方を工夫することで、因果推論ができる!

 「変数の時間的順序」「変数の相対的位置」


・総効果=因果効果(=直接効果+間接効果)+疑似効果


●システム分析

・一貫型システム Reinforcing 
 非一貫型システム Suppressor

・因果関係の図式=システム分析 

 心理学では、AMOSを使ってパス解析を行う
 今回は、ロジスティック回帰を使って、システム分析を行う


・関連を説明できる 何故 これがシステム分析の良いところ、論文のネタにもなる

・B 総効果に着目

○この辺、面白い!

・システム分析は、関連を説明する

○ロジ回帰、自分の武器にしよう!


=================================

6.まとめ

=================================


○5日間、出て良かった!これにでなくて、M2になっていたらまずかった。

 既に持っているデータをどんどん分析していこう!やるで!

三輪先生、山本先生、ありがとうございました!

2011年03月05日

計量分析セミナー「二次分析入門!」に参加してきました

2011年3月1日(火)10時〜17時15分 @ 赤門そば

http://ssjda.iss.u-tokyo.ac.jp/250000/251000/251040/

社会科学研究所 計量分析セミナー 「二次分析入門!」 佐藤香先生
 http://ssjda.iss.u-tokyo.ac.jp/pdf/seminar2011/seminar2011_2.pdf

に参加してきました。


期待に反して、面白かったです!

難しい統計や分析をこんなに楽しく学べるとは思ってもいませんでした。

さし障りのない範囲で、自分が学んだことをシェアします。

(・内容 ○関根の独り言)

=================================

1.二次分析とは何か


・2日間で12時間、大学での90分授業が8コマ。約半年分の授業。

・JGSSデータは、研究者として今後も利用可能。

・「1セル問題」個人を特定できないよう

 社会調査は個人の意見というよりも、集団のもつ傾向を見たい

・社会調査は「研究の企画」「調査の設計、実施」「データ分析」
 という3つの段階から構成されている。

 二次分析による社会研究では「調査の設計、実施」というコストがかかる
 部分を省くことができる。

・調査の実施に時間をとられて、分析できないという状況もある。

・データアーカイブとして、SSJのほかに、
 リクルートのワーキングパーソン調査もある。

○これは俺の研究に関係するデータかも。


・二次分析に関わる倫理問題

 インフォームドコンセント、ハラスメント防止、守秘義務
 これらが留意され、調査が行われていることを理解した上でデータを使用。

 公開データの作成には、データのクリーニングやコーディング作業で
 コストがかかっていることも理解する。

・必ず出典を明記し、利用報告書を送る


=================================

2.社会調査研究の流れ


・まず母集団を想定する 国勢調査である程度わかる

・全数調査 例)国勢調査 母集団すべて

 標本調査 無作為抽出−できるだけ母集団を反映
      有意抽出−偏りがあるので一般化は慎重に

・多変量解析ができるのは、無作為抽出の良いデータのとき
 度数分布やクロス集計は、有意抽出のデータのとき

・台帳からの抽出は、以前は研究者がやっていたが、個人情報保護法の施行後は、
 調査会社を通して実施するように、コストが高くなった

・台帳のあるところ、リストがあるところに調査をすべし


・公開データへのアクセス

 個票データを探し利用申請 その上で官庁統計などマクロ統計情報を収集
 
 ミクロな自分の研究が、マクロな環境のどこに位置づけられるかをみる

・その時に役立つのが、estat http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do

・研究の企画

 1)調査テーマの設定(問いを立てる)

  「誰の Who」「何を What」を明らかにするのか
   それが、「何故 Why」大事なのか(研究の意義)

 ★ 既に言われていることに、いまいち納得できない だから自分は研究する

   ではどこがいまいちなのか それが意義となる

 ○この説明、ほんと分かりやすい! すとんと来た。


 2)仮説の設定

  問題の定式化(問題をシンプルに言葉で表現する)

  「〜ならば、〜になる」「If A, Then B」

・JGSS は国際比較できるよう Korea、Taiwan と
 2006年は「家族」2010年は「ソーシャルキャピタル」に関して同じ質問をしている


=================================

3.データ分析と解釈


・分析の準備 データの加工=Data Handling

 ★ ここが上手になると良い 分析はそのあと 
   これができるようになると、色々なことができるようになる

 ○これもスパッと来たなー。何が重要かメリハリがついていてわかりやすい!


・想定しなかった問題や期待はずれが起こることも覚悟

 上手くいかないもの

・いけてないことが分かるのも進歩 使えるものかどうかを判断できるのも経験

 100枚のクロス集計表のうち、1枚でも使えるものがあればめっけもの

・理論モデルと分析モデル データで見えるのは、作業仮説部分のみ
 メタレベルに上げて行くことが、研究

・何を分析したかったのかを忘れることがあるので、必ず研究計画は書いておく

・問いの分類 記述的問い 説明的問い 予測に関する問い 関係に関する問い

○俺は「関係の記述的問い」→「関係の説明的問い」かなー。

・縦断的仮説と横断的仮説

・時系列(因果関係)で説明したくなったら、ちょっと待てよと考える

・横断的な仮説では、「機能」「意識」で考えてみる

 先行研究が「意識面」を重視するなら、自分は「機能面」を重視することで
 オリジナリティーを出せる。


=================================

4.SPSSを使った実習


・SPSSの起動

・度数分布(各質問に何人答えてくれているか?)

・ヒストグラム 

・棒グラフ(間があいている)


●データの加工 Data Handling とっても重要!これができればOK

1)欠損値指定

・何をするにもまずは「度数分布」

・分析に使用しない人(非該当者)をあらかじめ除外しておくことを欠損値指定という

・非該当 =8、88 SYSMIS その質問には答えなくてよい、答えられない

 無回答 =9、99 その質問に答えなかった

○「分からない」という回答は? 非該当?


2)値の再割り当て

・カテゴリ数が多い時に、いくつかのカテゴリーに統合することもある(見やすいから)

○逆転質問のときも、このやり方をする?

・再割り当てをしたら、データビューの一番下に出る。ラベルの名前をつけておくことと、
 「値ラベル」に1=〜を入れておくこと

・割り当てを間違えると、欠損値が大きくなる


3)計算

・変換→変数の計算

・変数ビューの一番下に新しい変数ができるので、ラベルを入れておく 忘れてしまうので


4)合成変数の作成

・値の再割り当てと計算を組み合わせる


●クロス集計

・2つの変数を用いたクロス集計


●ケースの選択

・ある条件を満たしたデータのみ使用したい場合


=================================

5.データ分析の準備


・測定水準(尺度の4類型)

 測定には何らかの尺度が使われ、この尺度によって分析手法も変わる

・質的=名義尺度、順序尺度 量的=間隔尺度、比率・比例尺度

 カテゴリー間の「異同」「大小」「差」「比」が分かるかどうか

・絶対的な0が存在するのが比率尺度 一番精緻な尺度

・「5件法」は、「順序尺度」だけど、5つなので「比率尺度」と日本ではみなす

 「4件法」は、「順序尺度」だけど、「間隔尺度」としてみなす

 つまり、両方とも「量的変数」として分析をする

・質的変数→度数表 量的変数→平均、分散、共分散(多変量解析)

・データ加工をしているときは、パニックを起こさないように

=================================

6.SPSSを使った個別練習


・JGSSの中で興味ある変数を5つ

・度数分布表

・カテゴリーが多いときは、再統合

・クロス表を3枚作ってみる


●関根のケース

 まずは、質問紙を眺めて、どんな結果になりそうか知りたい項目を選ぶ

 従属変数を決めて、それに影響しそうな独立変数を考えた

 育った環境と、仕事状況


 独立変数 = 兄弟姉妹の数 父の仕事 母の仕事 

 従属変数 = 就労地位 転職回数

 
 クロス集計の結果

 −一人っ子 → 経営者が少ない
 −4人以上兄弟がいる → 経営者が多い
 −父の仕事がサラリーマン → サラリーマン


・2日目は、これらが一般化可能なのかを検定する

=================================

○面白い!わかりやすかった。 授業構成も見事!
 断片的だった知識がつながりはじめた! 感謝!


=================================

2011年3月2日(水)10時〜17時15分 @ 赤門そば

社会科学研究所 計量セミナー 「二次分析入門!」 佐藤香先生 2日目

=================================

○配布されたテキストが分かりやすい!自分の知りたいことがカバーされている!

・入門コースでは、SPSSを開くことが怖くないようになることが目標。

・データハンドリングをたくさんすること

=================================

7.質的変数の集計と統計的検定


1)質的変数の分布

・質的変数=名義尺度、順序尺度  量的変数=間隔尺度、比例尺度

・データを眺めても、分析しないと何も分からない

・データの値がばらついている状態を「分布」という

・統計分析の目的は、1)分布を知ること 2)分布を比べること

 これが大事なポイント

・「度数分布表」が、最も基本的な統計分析の方法

 「どこに どれだけ 値があるのか」この表を基にして色々計算ができる

★全ての変数の度数分布表をみることからはじめる

○Kさんが言ってた通りだ!


2)質的変数の関連

・関連=一方の変数の値が大きくなるほど、もう一方の変数の値が大きくなるのか、
    それとも小さくなるのか

・関連を分析する為には、2つの変数(例:身長と体重)が対応づけられていること

・2変数の分布を同時に表示した表を「クロス集計表(分割表)という

・クロス集計表の「周辺度数」をまず見る ここが違っていると面白いことを発見したのかも

・論文では「行」「列」どちらかの%を示す どっちを自分が示したいのか


3)統計的検定

・クロス集計の統計量のボタンに関すること

・検定ができると、面白くなる。 すごーく簡単


★関連があると主張する為に「関連がないことはない」と示すのが統計的検定

・関連がないことは証明できる

・「関連がない」という状態(例:男50 女50)からどれだけ離れているかを見る

 離れていれば、「関連がないとは言えないね」という示すことで「関連がありそうだ」
 ということを主張する 

 でも「関連しないかもしれない確率」が1%〜5%あるよというのが「有意水準」

・このロジックは何度もやっているうちにしみつく

・検定は、標本調査で使う 全数調査では不要


・どうサンプリングするかで、結果は変わる

・サンプル数は、母集団が1000万人以上であれば、0.1% 

 母集団が1万人であれば、1%は必要 N=100

★サンプル数は、0.1〜1%の間は必要

・母集団がないと、標本調査はできない

・母集団のサイズを知った上で、サンプル数を決める

・サンプル数は「まいた数」でOK 回収率は50〜60%を目指す 郵送なら30%になるが

★サンプルに偏りがあることを自覚していることが大事
 そのためには、官庁統計を見て、マクロな母集団を知るべき


【カイ二乗検定】

・「関係がない」という帰無仮説(無くなってくれたら嬉しいなー)

・帰無仮説は棄却された=関連性が無いという証明に失敗した

・関連性がなければ「0」なのに、これだけずれてると示す

 「実現値−期待値(周辺度数?)」

・3行2列の自由度は2 統計本の後ろに付録がついているのでそこを見る

 カイ二乗値が、自由度2の値(5.99)より小さければ、統計的に有意ではないと言える

 関連性がないということを証明するのに成功したということ

・0.000 ← 0.1%水準で有意

 0.009 ← 1%水準で有意

 0.049 ← 5%水準で有意

 0.099 ← 10%水準で有意=ほとんど有意ではない

・小数点の後ろに、0が入っていたら「有意の可能性」 1以上が入っていたら「有意でない」


4)連関係数

・関連性の強さを見る 

・クラマーのV係数 これが大きければ、C係数も大きくなる

 その他、ラムダ ファイ 等

・強い関連性があると言いたいときに、連関係数を使う

・「統計的有意」と「関連の強さ」は異なる

 「統計的有意」は、母集団にも同じようなことが言えると言えること
  これはサンプルサイズが大きくなればそうなりやすい

・この2つがそろえば、自信をもって主張できる

・クラマーのV係数は、名義尺度以上 何にでも使える

 関連の大きさの目安となる

 0.1未満 ほとんど関連なし

 0.1〜0.3 弱い関連 0.3以上 強い関連

○クロス集計で、関連しそうな質的変数2つを探していくのは面白い!


=================================

8.量的変数の集計と統計的検定


1)1変数の記述統計

・記述統計とは、データ全体の特徴を表すこと

・代表値は3つ知れば十分 平均値 中央値 最頻値

○この3つの説明、分かりやすい!


【散布度】

・データの散らばりを表す どのくらいばらついているか

・まず偏差を求める 平均値からの距離

・それぞれが平均からどのくらい離れているか=分散?

・標準偏差 だいたいの人が平均身長145cmの±4.1の間にいるよ

・同じ平均値でもばらつきは違う だから 分散 標準偏差を見る ?


2)2変数間の関連性測定

・量的−量的(間隔、比例尺度) ← 共分散 相関係数

 質的(名義、順序尺度)−量的 ← 平均値の検定(t検定) 分散分析

・偏差積和をデータ総数で割る 共分散 こちらが一般的

 分散は同じ変数同士の共分散 こちらは特殊

・共分散は、+ならば正の関連 −なら負の関連 


【相関係数】

・−1〜+1の間 0は無相関

・0.3以上で強い相関

・相関係数の注意点

 −質的変数2つの時は、クレマーのV係数を使う
 −必ずしも因果関係があるとは限らない
 −第3の変数が影響している可能性
 −集団の範囲による影響


・年収カテゴリーに、数字を与えて量的変数にかえての演習

 スケール − スケール(量的)なら相関係数が出せる


・質的−量的の場合

 カテゴリーが2つのときは、平均値の差の検定(t検定)を行う
 カテゴリーが3つのときは、分散分析をおこなう

・t検定にしても、分散分析にしても、
 標本で見られた違いが、母集団においても見られるかを検定(つまり一般化?)


・t検定は 質的−量的

 研修前と後で検定を行うケース 母集団は今後この研修を受けそうな人

・F値≒カイ二乗値 イータ≒クラマーのV 

★出力結果を読み取れることが大事


=================================

9.分析結果のグラフ表現


・自分で作ったクロス集計などをグラフ化して、ワードに貼り、ミニレポートを作る

・エクセルで作った図表で示す 情報量が文章より多い

・左端に0が無いグラフは、嘘をつこうとしている「統計で嘘をつく方法」

・従属変数が質的 →棒グラフ、帯グラフ、円グラフ

 量的 →折れ線グラフ、ヒストグラム

・相関係数を見るときは、散布図を見る 見ると大体の相関が分かる


=================================

○面白かった―!この先生の夏学期の授業を受けてみよう!

 いい先生に出会えたなー。


佐藤先生、ありがとうございました!