
ラーンウェル代表の関根です。
2023年12月19日、21日、22日の3日間、Zoomで、IDCJ主催「39th Professional Statistical Workshop」に参加しました。
講師は、Western Michigan Universityの佐々木亮先生。1日目の午前中は「Impact evaluation」に関するレクチャー、午後は「Impact evaluationをするためのエクセルでの統計分析」ワークショップです。
私の理解の範囲で、学びになった点を記録に残し、共有します。(佐々木先生に許可を得て掲載)
===
International Development Center of Japan (IDCJ) 39th Professional Statistical Workshop
2023年12月19日(火)
9時30分~
●Impact Evaluation Case Studies
・最初の半日は、プレゼンとグループディスカッション。
・各国から、30名以上の参加者
・Impactの定義
1)タイプ1インパクト:長期的な変化(ヨーロッパ)
2)タイプ2インパクト:間接的な影響(日本、ドイツ)
3)タイプ3インパクト:介入による純粋変化(アメリカ、世界銀行)

・5 basic designs
1.Simple before-after design
2.Interrupted Time-series design
3.Generic control design
4.Matched control design
5.Randomized controlled trial (RCT)
1.Simple before-after design
・シンプルで、コストも低く済む
・ただ、前後間での外部要因の排除ができない
・前後の変化は、介入によって起こったのか?偶然か?
・統計的に有意なのか
・t-stat(if t >2 ) p-value(if p<0.05 5%)
・William Gossetのペンネームだった「Student」から、Student test→ t-test に
・p=probability
・もし、t>2なら、p<0.05 に、自動的になる。
・その時、前後の変化は、偶然ではなく、介入によるものであると言える。
○これ、わっかりやすいな~。今まで受けてきた統計の中で一番かも。
・1枚のサーベイシートで、前後を訊いた。
・Training前の「Confident自信」はどのくらいか?
Training後(今)の「Confident自信」はどのくらいか?

・研究では、T1、T2と、介入前後で、データを取った方が良いとされるが、フィールドの現場では難しい。両方取ることが難しい。そのため、Practicalな方法として、介入後に、1回で前後を訊くことを勧めたい。

Q.This pre and post test relies on assumption that participant answer the question based on their revealed preference, how can you make sure of that?
A.
・確かに、研修直後で、興奮している可能性もある。
・研修直後だけでなく、数か月後にも、データを取ったほうが良い。

・前後の変化を、数字ではなく、写真で示す。
・数字だけだと、レポートは読まれない。前後が変化した写真を入れる。
・ただ、本当に前後の変化を示しているのか、証明しづらい。(例:他の教室の写真を撮っているかも)
・ITの世界では、BA (Before-After)test と呼んでいる。
2.Interrupted Time-series design
・Natural improvement or deterioration
・自然な変化もあり得る
・介入前後に、長期的なデータが取られているのなら、「Trend line」を、仮でひいてみる。
・介入後のデータを、介入前のトレンドラインと比較する。

・上記事例では、9%のImpactがあったと計算された。
・介入前後では、少なくとも3時点でのデータがあったほうが良い。
・Sudden event 突然の出来事(例:戦争、地震)を、このトレンドライン分析では、排除できない。
10時45分~ 休憩 ~10時50分
3.Generic control design
・狭い地域(例:玉小学区)を、広い地域(例:埼玉県、日本)の平均と比較する。
・自然変化、突然の出来事を、この分析方法では排除できる。

・カナダの州知事が、4年間の任期内で、いかに暴力や窃盗が減ったのかを、カナダ全体と比較して示した。
・当時(1993年~2001年)のアメリカ大統領は、B.クリントンであり、彼のReformは成功していた。その影響はカナダにも及んでいた。
・州知事は、次の選挙も勝利した。
Q.In a generic control analysis, is the treatment group included in a wider control group?
A.Yes
・ただ、この分析をするには、多くのデータが必要になる。
・小さい地域(州)と大きい地域(カナダ)が似ている必要があるが、それらが似ていないこともあり得る。
・ただ、小さい地域を選ぶ際には、その地域が国の中でも「悪い地域」だから介入していることもある。
4.Matched control design
・小さい地域を、他の小さい地域と比較する。
・Natural improvement、Sudden shock、Simiralityの要因を排除できる。
・こちらで、Similarな地域を選んでいるから。

・介入後、点数が下がってしまった。(Natural deteriorationかも)
・しかし、違う地域のほうが、もっと下がっていた。
・介入によって、下がる度合いを減らしていた。
・ただ、この方法も、多くのデータが必要になる。
・比較する対象は、1/3のデータは必要(介入群が、300世帯なら、比較対象は、100世帯)
・比較対象が、似ているとはいえ、全く同じとは言えない。
Q.What are differences between a difference-in-difference analysis from a matched control analysis?
A.
・ほぼ同じデザイン。
・DIDのほうが、より精緻なインパクトを示せる。
5.Randomized controlled trial (RCT)
・Gold Standard 黄金律 とも呼ばれている。
・Experimenntal designと呼ばれてきた。
・最近では、A-B designとも呼ばれる。
・コイントスにより2つのグループ(実験群・統制群)を作る。
・2つのグループの違いは「介入があったのか、なかったのか」のみ。

・子供達を学校に来させることは、開発援助の大きなテーマ。
・そのために「寄生虫駆除プログラム」を実施。
・Unethicalと、RCTは批判される。
・このプログラムは、最終的に全員が寄生虫駆除を受けられた。
・「Is Microfinance Miracle?」有名なRCTの事例
・Pitt(1998)vs Morduch(1999)
・RCTをやってみよう!と、Banarjee & Dufloが実施(Banarjee et al.2010)
・ミラクルとは言えないが、ある程度の効果があることを示した。
・RCTが最も強力で、客観的だが、実行が難しい場合もある。
・その時は、他の4つのよりシンプルな方法を選ぶ。
・J-PALのRCTの取り組みから、ノーベル賞受賞者(2019)も出た。
・RCTができない時は、Matched control designを使うと良い。
~12時05分終了
===
13時~
Staistical Data Analysis by Excel for Impact Evaluation
・13名の参加者
・12月の回は、英語で行っている。
・Before-After comparison designが、最も使われている。
・1999年から統計分析ワークショップを実施してきた。
・当時は、日本社会で、RCTが使われるとは思えなかった。
・今は、日本の研究者も、RCTを使っている。時代が変わった。
・平均値の出し方さえ知っていれば、十分。
・学術論文の読み方も学ぶ。
・カイ二乗検定は、Impact評価ではあまり使われていない。
・Multiple regression重回帰は、統計分析や経済学では、Kingであった。
・今は、RCTのほうが、伸びてきている。学術論文も、RCTの方が受理されやすい。
・Cross-sectionデータ(同じ時期の違う場所)
・Time-seriesデータ(同じ場所の違う時期)
・このワークショップでは、重回帰を、Hand calculation 手計算で行う。
・手計算ができれば、SPSS等を使う時に、より自信がもてる。
13時30分~
・アメリカの教授たちは「分かりやすい教え方」をすることに、信じられないほどエネルギーを注いでいた。
・英語を母語としていない学生たちにも教えている。
・今回のテキストを使って、統計を教えることは大歓迎。教えられるということは、しっかり理解しているということ。
○このエピソード、素晴らしい! 日本で、日本人相手に教えているのとは、まったく違う次元での苦労があるんだろうな~。

13時45分~
●Histogram, average, and standard deviation
・統計するときは、まず、Histogram 度数分布図 柱グラフを作る。
・3つのポイント(ピークは一つ、左右に下がっている、Outliers 外れ値が無いこと)をチェックし、OKならば、データを使う。

・初等教育現場で、ピークが2つあるデータが、日本含め、最近増えてきている。
・2つの山が、1つのクラスに存在している。
・勉強熱心で塾にも通っている生徒たち(Rich)と、勉強を諦め親も関与しない生徒たち(Poor)。
・日本社会が、2つに分断されている。
・アメリカだと、低い山の生徒たちを、クラスから外して、別のクラスで、Right levelで教える。
・日本だと、高い山の生徒たちが、低い山の生徒たちを助ける方向に動く。グループワーク等。
・低い山の生徒だけになると、誰も教えられない。
・高い山と低い山が混在している方が、教え合いが生まれる。
・もし2つの山がデータ内にあるなら、学術の世界では、2つに分けて分析する。
・現場コンサルだと、分けずに分析し、2つのグループがあることは伝える。
14時15分~
1) Making a Histogram

・サンプルサイズが、十分大きければ、美しいベルカーブになる。
14時30分~ 休憩 ~14時30分
2) Calculation of Mean, Median, and Standard deviation
・n と書くと、プロっぽく見える。
・count( ) で、n を出す。
・max( )
・min( )
・Mean=average( )
・Median=median( )
・外れ値があると、平均値が上がる。そのため、中央値も重要。
・Standard deviation標準偏差 =stdev( )
・SDは、説明が難しい。統計を教えている大学の教授でも手こずる。
・Mean ± 1 std 2/3(68%)のデータが、その中(Range)に入る
・Mean ± 2 std 95%のデータが、その中(Range)に入る。
・p13

・Bell-shapeは、地球上、宇宙において、自然に見られるNormal distributionである。
・Gaussが、10ドイツマルク(2000円)が載っている。
・ベルカーブの公式も書かれている。
・お金を使って、数学を教えている。

15時25分~ 休憩 ~ 15時35分
3) Hand calculation of the Mean
・エクセルを使って、手計算(p9)
・Difference from the mean
・Standard deviation=平均からのずれの平均
・p14 Why n-1?
・Formulaを、手計算してみる。

・右上のFormulaは、さっきエクセルで手計算したもの。
○うわ!これは感動!これまで縁遠かった公式を、一気に身近に感じた。
・サンプルは、少し狭くなる。少し広げたい。
・そのため、n-1。
・サンプルのSDを出すときは、n-1。少し広げるため。
~16時05分終了
===
○1日目から、凄かったです。こんなに身近に感じられる統計の授業は初めてかもしれません。ありがとうございました。
コメントフォーム