厚生労働省科学研究班開発
患者報告アウトカム(Patient-Reported Outcome:PRO)
使用についてのガイダンス集
臨床試験のためのPatient-Reported Outcome(PRO)使用ガイダンス
2.4. 計量心理学的特性
2.4.1. 尺度が備えるべき計量心理学的特性
尺度が備えるべき計量心理学的特性(Psychometric property)分類は解説資料によって若干異なる。ここではCOSMIN 1 の分類を参照する。COSMINは、特にQOLのような構成概念(Construct)を複数項目で測定するモデル(反映的モデル: Reflective model) 2 に基づく尺度の基準を扱っているが、他のタイプの尺度においても参考にすることが可能である。
尺度の特性として最低限必要とされるのは、信頼性と妥当性である。少なくともこの2特性が検証されていない尺度は、測定ツールとしての要件を満たさないとみなされる。さらに、反応性やスコアの解釈可能性も重要な特性である(解釈可能性については、2.10を参照されたい)。尺度を使用するにあたって、これらの特性が検証されているかどうかを事前に確認することが必要である。
2.4.2. 信頼性(Reliability)
信頼性とは、測定に測定誤差が含まれない程度のことであり、測定結果の安定性を意味する。PRO尺度で最も用いられる指標は、測定する概念が安定した状態での2つの測定値が一定である程度を示す再テスト信頼性(Test-retest reliability)である。再現性(Reproducibility)ともいわれる。カテゴリカル変数にはκ係数、連続変数には級内相関係数(Intra-class correlation coefficient: ICC)が用いられる。ICC算出に用いた計算式や、2回測定の期間についても留意する必要がある 3。
尺度に含まれる項目間の相関の高さを反映する内的整合性(Internal consistency)も信頼性の推定値として用いられることが多い。統計値としてクロンバックのα係数が用いられ、一般的には0.7以上の値が望ましいとされている 4。
2.4.3. 妥当性(Validity)
妥当性とは、「その尺度が本当に測定したいものを測定しているか」という性質を表す。内容的妥当性(Content validity)、構成概念妥当性(Construct validity)、基準関連妥当性(Criterion validity)に分類される。
内容的妥当性は、尺度に含まれる項目が測ろうとしている興味のある対象領域の内容を反映しているかどうかに関する性質である。内容的妥当性は妥当性の中でも最重要とされる事項である。尺度使用にあたっては開発論文にあたり、測ろうとしている概念・項目の作成過程(対象や方法)・スコアリング法決定の手順などから十分な内容的妥当性を有しているかを判断する必要がある。PRO尺度においては、作成にあたって対象者から十分に意見を聴取し反映させているかどうかが特に重要である。
内容的妥当性は、項目が表現している内容のみならず、回答選択肢、想起期間、レイアウトやフォーマットの見やすさ、対象となる集団の理解度(リテラシー)、回答者の負担(量的負担、心理的負担)などの特性をも含む。十分な理解の下に負担なく回答が得られる尺度であるかについて留意する必要がある。
構成概念妥当性は、構造的妥当性(Structural validity)、仮説検証(Hypothesis testing for construct validity)に大別される。
構造的妥当性では、各項目とそれらが表す概念領域(ドメイン)との関係が、論理的に事前に推定される構造であるかどうかを検証する。多次元尺度の場合は因子分析を用いて項目尺度間の関係性を検証することが多い。昨今は、現代的テスト理論である項目反応理論(Item response theory: IRT)やRasch分析などによる検証が推奨される傾向にある。
仮説検証では、1) 他のアウトカム測定尺度との比較、2) 異なることが推定される群間のスコアの比較が行われる。他尺度との比較では推定される相関関係(収束的妥当性: Convergent validityおよび弁別的妥当性: Discriminative validity)が検証され、群間比較(既知グループ妥当性: Known-groups validity)では、疾患の重症度や人口統計学的特性などによるサブグループ間でスコアが異なるかどうかを検証する。いずれの場合でも、事前に理論的に仮説を立て検証が行われているかどうかが重要である。
基準関連妥当性は、その尺度が測ろうとしている概念の基準となる測定法と関連する程度を表す。PRO尺度では絶対的基準が存在しない場合が多い。多項目版から短縮版を作成する際には、多項目版を基準とした評価が可能となる。
2.4.4. 反応性(Responsiveness)
反応性は変化検出能力(Ability to detect change)とも呼ばれる。測ろうとしている概念が個人あるいは集団内において時間的に変化した場合、尺度がその変化を検出できる能力を表す。構成概念妥当性の検証方法と同様に、他のアウトカム尺度との関連や群間の差異を事前に推定し、スコアの変化量との相関あるいは差を検出する手法が用いられる。変化が起きうる集団が選択されているか、変化が起きるのに十分な時間や状況で検討されているかを吟味することが重要である。
- COSMIN. Available from https://www.cosmin.nl/(アクセス最終日2022年8月21日)
- Bollen K, Lennox R. Conventional wisdom on measurement: A structural equation perspective. Psychological Bulletin. 1991; 110(2): 305-14.
- Qin S, Nelson L, McLeod L, et al. Assessing test-retest reliability of patient-reported outcome measures using intraclass correlation coefficients: recommendations for selecting and documenting the analytical formula. Qual Life Res. 2019; (4): 1029-33.
- ピーター・M・フェイヤーズ、デビッド・マッキン著(福原俊一、数馬恵子監訳).QOL評価学 測定、解析、解釈のすべて.東京. 中山書店. 2005.
参考文献
(鈴鴨 よしみ)