【木曜日23-42】評価本「プログラム評価の教科書」

参考文献

【木曜日23-42】評価本「プログラム評価の教科書」

○日本評価学会「評価と私」で紹介されていた本。(研究書1冊)

===

『プログラム評価の理論と方法~システマティックな対人サービス・政策評価の実践ガイド』(第7版)ロッシ、リプセイ、フリーマン(著)大島、平岡、森、元永(監訳)(2005)

●序文

・世界各国で最も標準的な評価の教科書として高い評価を受けている書である。

ーーー
第1章 プログラム評価の概要

・最も早い時期の「社会実験」の一つは、1700年代に行われたイギリス海軍の船長による実験である。彼は、乗組員の半数にライムを摂らせ、残り半数には通常の食事を摂らせた。その結果、ビタミンCを豊富に含むライムを摂っていた船員は壊血病にかからないことを明らかにした(ロッシら2005)。
・この船長の「社会プログラム」が広く採用されるまでに、約50年かかった。評価結果の普及と受容は簡単にはいかなかった。

・ 「世界各国で最も標準的な評価の教科書」として高い評価を受けている『プログラム評価の理論と方法(第7版)』(2005)の中で、Rossiらは、科学的アプローチを「妥当で信頼性のある結論を生み出すためのよく考え抜かれた企て」と呼んでいます。(ロッシ、リプセイ、フリーマン著 大島・平岡・森・元永(訳)2005『プログラム評価の理論と方法:システマティックな対人サービス・政策評価の実践ガイド』日本評論社)

・ロッシら(2005)は、評価者の課題として「知見の妥当性を確保するための手続きと、その知見を関係者にとってタイムリーで意味があり有用なものとするための手続きの間に、到達可能な均衡点を見出していかなければならない」ことであると述べています。(同上)

○上記は、立教大学大学院中原ゼミ(博士課程)で、発表させてもらった資料から。

ーーー
第2章 プログラム評価をあつらえる

・評価の目的
 1)プログラムの改良(形成的評価)2)説明責任(総括的評価)3)知識生成 4)裏の目的(政治的駆け引き、広報活動的側面)

・時間が最も貴重な資源。
・ある特定の日までに結果が利用できなければならず、それを過ぎるとその結果はあまり役に立たなくなってしまう。

・評価者‐利害関係者の類型
 1)独立評価 2)参加型・協働型評価 3)エンパワーメント評価

ーーー
第3章 課題を同定し、評価クエスチョンを形成する

・評価クエスチョンとは、評価がその周りを回転する中心になるハブのようなもの。
・妥当かつ適切なもの。観察可能で回答可能なもの。

・なにかを評価するとは、基準や標準と照らし合わせて、あることのメリットまたは価値に接近すること。

・プログラムゴール(Program Goal)とは、全体的使命(Overall mission)のこと。
・プログラム目標(Program Objectives)は、測定可能な達成物に関する特定された陳述のこと。

・有用な目標を記す際に役立つ技術
 1)強い動詞 2)ねらいをひとつだけ 3)結果をひとつだけ 4)時間を特定

・起こると思っていることが、実際に起こっているか。

ーーー
第4章 プログラムに対するニーズをアセスメントする

・プログラムが取り組んでいる社会問題の記述が必要となる。
・主要な利害関係者に関わる「問題」をできる限り丁寧に、客観的に、グループに意味あるように記述する。

・J.F.ケネディの妹が知的障害であった。

・社会問題は、客観的現象ではなく、社会的に構成されたものである。

ーーー
第5章 プログラム理論を明示し、アセスメントする

・アルコール、薬物乱用、犯罪行動、低年齢での性行為、10代の妊娠といった逸脱行動に関連した社会問題に取り組む場合、カウンセリングと教育サービスと組み合わせて、標的集団に提供するプログラムが実施されることが多い。
・このようなアプローチは、情報と対人的サポートがあれば、問題行動が変わるだろうという前提に基づいている。
・しかし、(これらのアプローチでは)逸脱行動は変化しにくいというエビデンスが十分に示されている。

○研修でも、このアプローチが取られることが多いかも。やっぱりやりやすいからかな。

・プログラム理論の概観

・評価者は、因果関係を尋ねる質問をしたほうが良い。「なぜそれを行うのか?どんな結果が期待されるか?そのような結果が実際に生じることがどうやって分かるのか?」

○SCMの深堀インタビュー質問は、まさにこの因果関係を尋ねているな~。

ーーー
第6章 プログラムプロセスをモニターし、アセスメントする

・意図する標的集団が、実際どの程度プログラムサービスを受けているのかを確かめる。
・よくある誘惑の一つが、成功しそうな標的集団を多く選ぶというもの。

・実施上の失敗 Imprement failure
 1)無プログラム(Nonprogram)2)誤った介入 3)標準化されていない介入

ーーー
第7章 プログラムアウトカムを測定し、モニタリングする

・プログラムの究極のゴールは、変化をもたらすこと。

・アウトカムOutcomeとは
 1)対象とした人たちや社会状況に関する観察された特性
 2)参加者に対してもたらす利益に関するもの
・アウトカムは、プログラムを受けなかった人達や状況においても、常に観察しうる特性

・アウトカムのうち、どの程度がプログラム自体の寄与なのかを評価する。
・プログラム効果Program effectとは、他の要因による影響に対して、プログラムが特有に寄与しうるアウトカム変化の部分。

・プログラム効果の推定、すなわちインパクトアセスメントimpact assessmentは、評価研究で最も難しい課題である。

・評価目的のために通常役立つアウトカムの例:認知能力、学校に対する肯定的な態度、余暇時間の建設的な使用

・ロジックモデルは、プログラムの活動を、近位(即時的)アウトカム(Proximal(immediate) outcomes)そして他のより遠位置アウトカム(Distal outcomes)をつなげるものである。
・近位アウトカムは、プログラムサービスが最も直接的に、そして即時に影響を現すことを期待されているアウトカムであり「持ち帰り Take away outcomes」である。

○研修ゴール(研修終了時の参加者の状態)が、この近位アウトカムにあたる。

・近位アウトカムは、心理的なアウトカム(態度、知識、認識、技能、動機付け、行動上の意図)が多く、一般的には最も測定しやすい。
・遠位アウトカムは、プログラムが制御できない多くの要因からも影響を受ける。

・重要な3つの測定特性 1)信頼性reliability 2)妥当性validity 3)感度sensitivity

ーーー
第8章 プログラムインパクトをアセスメントする

・最も強力な研究デザインが、無作為化フィールド実験法 Randomized field experiment である。
・参加対象者が、無作為に2つの群(対照群Control groupと介入群intervention group)に分けられる。
・この無作為化がないものは、準実験法 quasi-experimentsと呼ばれる。

・社会科学では、因果関係は、通常、確率という形で表現される。「AはBを引き起こす」という記述は、通常「Aがある場合、Aがない場合よりも、Bが生じやすい」ということを意味している。

・最良のデザインは、最もコストの高い場合が多い。「まあ十分 Good enough rule」を用いるべき。

・無作為化実験の概略図

・差の程度が、たんなる偶然によって生じるかを判断するために、統計的優位性の検定(t検定、分散分析、共分散分析)を適切に用いる必要がある。

・介入が効果的であるかどうかは明らかではない。実際、だからこそ実験を行うのである。

ーーー
第9章 プログラムインパクトをアセスメントする

・非無作為化デザイン nonrandomized designを用いたインパクトアセスメントの結果の妥当性には、いつでも少なくとも多少の疑いが残る。

・プログラム効果の推定値に対するバイアスの例

・バイアスを生じかねない体験やイベント
 1)持続的趨勢 Secular trends 2)干渉的イベント interfering events 3)成熟 maturation

・統計学的コントロール Statistical controls

・社会プログラムの環境は、無作為化実験法を十分に実行するには、困難なことが多い。

○改めて、弊社は、RCTはやらない。SCMをやる。

ーーー
第10章 プログラム効果を検出し、解釈し、分析する

・評価者は、プログラム効果の実際的有意性(意義)Practical significanceを吟味する必要がある。

・プログラム効果の大きさを表現するために、2つのアウトカム変数の平均の差を比較する。

・統計学的有意性 .05なら95%信頼できる .01なら99%の信頼 .10なら90%の信頼。
・統計学的に有意であることが、実際的有意性(意義)や重要性を示すものではない。

・統計学的には小さな効果も、実際にはとても重要なプログラム効果であることがある。

・結婚相談が、結婚の満足度に与える効果についてのレビュー論文やメタ分析から、効果のエフェクトサイズの平均は、0.46である。それより低い効果(例 0.34)なら、そのプログラムは二流であると認識できる。

・Cohen(1988)は、標準化平均差エフェクトサイズ(効果量)について、.20を小さい効果、.50を中程度の効果、.80を大きい効果としている。

・評価者にとって最も有用な要約は、メタ分析である。

ーーー
第11章 効率性を測定する

・費用便益分析では、プログラムのアウトカムは、貨幣換算されて表現される。
 費用効果分析では、アウトカムは直接的に表現される。

・事前効率性分析は、多くの場合、実施されていない。

・簡単に貨幣換算できないのが社会プログラム。
・便益が貨幣単位で計測できない場合に、費用効果分析は、費用便益分析の実行可能な代替手法となりうる。

ーーー
第12章 プログラム評価の社会的文脈

・評価は政治活動の一つ。

・評価活動は、応用研究の一つに位置づけられる。評価研究では、疑問に対する答えが「まあ十分 Good enough」であることが必要。
・基礎研究では「最高の(Best)」方法論の為に努力する。

・評価者は、第二次普及secondary disseminationができるよう学ぶ必要がある。
・関係者に理解されるような言葉と形式を用いる。

・政策空間 policy spaceは、政権交代等により、評価の継続中に変化することがある(例:カーター大統領からレーガン大統領への政権交代)

・より時宜にかなった評価の論評解説には、より迅速な再検討とアセスメントが必要とされる。

・評価結果の利用
 1)直接的利用 2)概念的利用 3)説得的利用(現状を擁護するもしくは攻撃する場合に、評価結果を利用)

・意思決定者、研究に対して、2つの観点で判断する
 1)真実性テスト この研究は信頼できるか?
 2)実用性テスト この研究は方向性を示しているか?

○研究結果に対して、「あてにしてよいのか?」「使えるのか?」という観点で見るってことかな。

ーーー
●あとがき

・プログラム評価と言う社会的アプローチの方法を、それぞれの学問領域に積極的に取り入れて頂きたい。

○これだけの大著を訳して下さった先生方に感謝。まさに「プログラム評価の教科書」

===

投稿者:関根雅泰

コメントフォーム

ページトップに戻る