« 「誰も教えてくれなかった因子分析」 | メイン | 「組織と個人〜キャリアの発達と組織コミットメントの変化」 »

「本当にわかりやすい すごく大切なことが書いてある ごく初歩の統計の本」

「本当にわかりやすい すごく大切なことが書いてある ごく初歩の統計の本」

   吉田寿夫

○統計学は何のためにあるのか。どのように活用すればよいのか。
 なんとなく見えてくる。


(・引用/要約 ○関根の独り言)


==============================

●統計について学ぶにあたって


・統計学ではなく、統計法のテキストとして

・一般的なユーザーにとって、統計に関する厳密な知識は必要ない。

・詳細は「心理学のためのデータ解析テクニカルブック」を参照。

○この本、持ってる! 次の段階で読むで!

・統計=測定

・理論や仮説を主張する場合、その理論や仮説に合致した現象が実際に
 起こっているという事実をデータで示すことで、研究を行っている。

○俺の場合は、OJT指導員が新入社員の指導を、周囲の協力を得て
 行っているという仮説がある。それをデータで示したい。


・ただ、ローデータを眺めるだけでは「こういう結果になってほしい」とか
 「こういう結果になるはずだ」といった研究者の期待や仮説が一種の先入観
 として働いて、事実を歪んで認識してしまうようなことも起こりかねない。

○これは気をつけないとなー。自分に都合の良いデータを集めてしまう。

 でも、データから自分の説にふさわしい、説を説明しやすい結果を使うという
 話もあったなー。

 この辺は、実際の研究をしながら確認していこう。


・研究目的およびデータの性質にあった適切な分析を行うことによって、データに
 潜んでいる何らかの傾向(有意味な情報)を的確に取りだそうとする。

 これを具体的にどのようにするかについて知ることが、統計を学ぶ主目的。

○なるほどなー。こう言ってもらえるとわかりやすい。何のために統計を学ぶのか。


・共通の判断基準を設けることで、データ解釈の主観性を抑える。

 “科学的な研究と呼ばれるものにおいては、データから理論や仮説が支持された
  と判断するために、少なくともこの程度の基準は満たしている必要がある”
 
 といったルールが決められている。そこで利用されるのが、統計的検定。


・変数(Variable)=対象によって値が変化するもの”
 定数=常に一定であるもの

・統計とは、検討したい変数についてのデータを収集して分析し、その変数の
 特徴についてまとめること、だと言える。


・変数ないしデータは、4つの水準に分類される
 1)名義尺度の変数(データ)
 2)順序尺度 〃
 3)感覚尺度 〃
 4)比率尺度 〃


・社会科学、特に心理学において測定したいと研究者が考えている特性は、
 多くの場合、内面的なものであり、直接観察して測定できない。

 そのため間接的に測定(推定)しようとする。

・何らかの心理量を測定するためのデータは、すべてせいぜい順序尺度の 
 変数でしかない。


・統計では、“終わり良ければすべて良し”ではなく“初め悪けりゃすべて悪し”

 いかにして質の高いダイヤが多く含まれているデータを収集するか
 (データの中に、多くのごみが混入しないようにするか)が非常に重要。

○ここだろうなー。

 自分の明らかにしたいことが明確であり、それを探索できる質問があり、
 聞くべき相手にきちんと聞く、そうすることで、ダイヤが多く含まれる可能性を
 高めるといった感じなのかなー。

・自然科学においては、妥当性は常に十分高い。

 社会科学で妥当性が高いと言えるためには、
 1)測定したい内面的特性と直接観察される変数との間に、特定の関係があること
 2)それ以外の特性によって、特定の大きな影響を受けていないこと


==============================

●1つひとつの変数についての分析1


・量的変数の度数分布を図にまとめる →ヒストグラム、デジタルスコアグラフ、
                    度数ポリゴン

・質的変数の度数分布を図にまとめる →棒グラフ、円グラフ、絵グラフ


==============================

●1つひとつの変数についての分析2


・代表値=データの中で最も一般的、典型的な値。平均値、中央値、最頻値

・正規分布(normal distribution)

 統計に関する多くの理論が、問題にしている変数の本来の分布が、正規分布と
 同じ形をしていることを前提にしている。

・質的変数では適用できる代表値は、最頻値のみ。


==============================

●2つの変数の関係についての分析1


・おおくの場合、研究者の関心は、2つの変数の関係について検討することにある

・2つの量的変数の関係の特徴を、視覚的、直感的に把握するために
 作成されるのが相関図または散布図である。


・予測ないし説明をする変数=X(横軸)独立変数?
 予測ないし説明される変数=Y(縦軸)従属変数?

・相関図の分類

 1)正の相関 (r>0) 右上がり
 2)負の相関 (r<0) 右下がり
 3)曲線相関 (r≒0) U字型
 4)曲線相関 (r≒0) 逆U字型
 5)無相関  (r≒0) 丸

○rって? ← ピアソンの相関係数


・ピアソンの相関係数 −1≦r≦+1 

 相関係数の値は、必ずこの範囲に収まる。収まらなければ、相関なし。


・第3の変数(Z)が、XYという両方の変数に影響を及ぼしているために、
 見掛け上、XとYの間に相関関係が示される場合、それは擬似相関と呼ばれる。

・擬似相関が起こる原因として、データの収集法の問題がある。

○これも気をつけないとなー。


・ある特定の因果関係の存在が主張できるか否かは、本来データの分析方法に
 依存しているのではなく、データがどのような方法によって収集されたかに
 依存している。

・中央値を用いた方が適切だと判断される場合、
 スピアマンの順位相関係数(rs)


==============================

●2つの変数の関係についての分析2


・質的変数どうしの関係について分析する際には、クロス表を用いる。

・質的変数どうしの関係の強さを、数値要約するための指標は、連関係数

 ファイ係数 φ   クラメールの連関係数 V


・2つの変数の間に、特定の方向の因果関係が存在することを立証するためには、
 “因”であると想定される変数のみを人為的に操作した時に、それに伴って
 “果”であると想定される変数の値が変化するという事実を得る必要がある。

○「周囲の協力を得ていない」指導員(因)のもとにいる新人の成長度(果)が低い
 「周囲の協力を得ている」指導員(因)のもとにいる新人の成長度(果)が高い。

 こういう関係を証明するということかな。


==============================

●変数の変換


・1次関数を用いた変換である「線形変換」とそれ以外の変換である「非線形変換」

・世の中で一般に使われている偏差値は、1次関数のみを用いて変換したもの

・入試のような相対比較をせざるを得ない場面では、素点をそのまま使うよりも
 偏差値に変換する方が適切。


==============================

●統計的検定の基礎


・研究の目的は、何らかの事柄(主張したい理論、仮説の正否)について、
 得られたデータを越えた一般的な結論を下すことにある。

・標本から確率論的に母集団の特性について推測する=推測統計

・推測統計は、統計的推定と統計的検定に分類される。

・「どの程度の差であれば、意味があるとみなしてよいか」ということについて、
 一定の基準が必要になるのです。

・単なる偶然によっても十分に起こり得る程度の差でしかなかった結果に対して
 過大な意味づけをしてしまう。


・統計的検定の基本的考え方

 “差がある”という仮説の正否について吟味したい。そこで
 
 1)逆の“差がない”という仮説を立てる(帰無仮説?)
 2)データを得る
 3)データが“差がない”とい仮説のもとでは偶然には稀にしか起こりえない
   大きな差を示したならば、帰無仮説を棄却し“差がある”という結論を下す

 “差がない”という仮説のもとではほとんど起こり得ない(即ち確率論的に矛盾)
 データが示された場合に“差がない”という仮説を否定し“差がある”と判断する

○これ分かりやすいなー。これでなんとなく「帰無仮説」が分かった気がする。


・有意水準 α 心理学では一般に5%と設定

 有意でない n.s.

・基本的には、両側検定を行うべき


==============================

●適切な検定の選択


・どのような場合に、どの検定を適用したらよいか

 それさえ分かれば、実際に真似することは難しくない。(統計ソフトにより)

・独立変数 → 従属変数

  剰余変数 →

○この図、分かりやすい。


・従属変数が、名義、順序、間隔、比率尺度の中の、何尺度のものかということが、
 どの検定を適用すべきか考えるときに重要。

・検討する独立変数がいくつあるかによって、適用される検定は当然異なる。


==============================

●統計的検定の実際


・t検定は、平均値を検定の対象として、2つの条件のデータの全般的な
 大きさを比較するもの
 
 U検定は、2つの条件の個々のデータの大小比較をする

・分散分析における帰無仮説は“各条件の平均値は全て正しい”
 したがって、対立仮説は“各条件の平均値は全て等しいわけではない”


==============================

●統計的検定の問題点・適用上の留意点


・統計的検定は、あくまでデータからある事柄について結論を下す際の一つの
 手がかりになるものにすぎない。

・有意な差が得られやすい研究をするための極めて有効な方法は、
 とにかく多くのデータをあつめること。

・検定するまでもなく、帰無仮説は誤りであることは、理論上分かっている。

・有意差の得られやすさはデータ数に大きく異なる

・統計的検定には恣意的な面が多々ある

・データ数が少ないからこそ、偶然性の高い結果に対して、過大な意味づけを
 しないよう検定する必要がある。

・1回の実験や調査における仮説の支持は、あくまで仮説の例証にすぎない。
 結局、判断保留的態度のもとに研究を積み重ねることが重要。

○この辺の姿勢を大事にしないとな。


==============================

●統計に関する知識と日常の思考との関わり


・人の性格特性は、何らかの傾向が“ある”か“ない”かの2者択一ではない。

・マスコミが提示する調査データの場合、有効データ数および回収率に注意する
 必要がある。

・ある現象がなぜ生起したのかについて様々な理由(解釈)が考えられるのに、
 もっともらしい理由を一つ考えると他の理由を考えなくなる傾向がある。

○これは気をつけないとなー。

 新入社員の成長は「指導員が周囲の協力を得た」からだけではない。

 新入社員自身の姿勢や能力、与えられた仕事、指導員の直接指導方法、

 他にもいくつかの剰余変数が考えられる。


・統計学の考え方の基本は、日常行っている思考の中の良識あるものを、
 少し洗練して定式化したものにすぎない

○こうやって言われると、確かにそうかも。
 論理的な人の話は、こういう統計学の考え方を活用しているのかも。


==============================

トラックバック

このエントリーのトラックバックURL:
http://learn-well.com/xbitmtop/mt-tb.cgi/857

コメントを投稿

(いままで、ここでコメントしたことがないときは、コメントを表示する前にこのブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)