患者報告アウトカム
(Patient-Reported Outcome:PRO
評価関連 特設ページ

厚生労働省科学研究班開発
患者報告アウトカム(Patient-Reported Outcome:PRO)
使用についてのガイダンス集

臨床試験のためのPatient-Reported Outcome(PRO)使用ガイダンス

2.10. MIDと奏効例の定義を用いた結果の解釈

2.9.1でも少し触れられているが、臨床試験で得られたPROの経時的測定データについて、介入によって奏効したかどうか(改善、悪化、不変など)の判断・解釈を行うためには、統計学的な有意差検定だけでは十分ではなく、得られた変化量や差が、臨床的に意味のある差(MID)を上回っているかどうか、の判断を行う必要がある 1

そのためには、臨床試験では、開発時あるいはその後に根拠をもってMIDが示されているPRO/HRQL尺度 2-4 を選択することが強く勧められる。そして、臨床試験を計画する際には、使用する尺度で定まっているMIDに基づく奏効例の定義を定めておくと、結果の解釈の信頼性が高まる。

2.10.1. MIDと奏効例の定義

MIDの研究はすでに30年以上行われているが、その定義や用語の使い方、適切な応用方法については研究者により意見が分かれる部分も少なくない 5-7。例えば、後述するMIDの決定方法から考えて、MIDはあくまで点推定値として示すことができるだけであるため感度分析が避けられない。また、同様にその決定方法からみて、個人内や集団内の経時的変化の解釈には用いることができるが、個人間や集団間の差の解釈に用いるには注意が必要である。

各尺度のMIDの推定方法には主に2つの方法があると整理されている。一つは「アンカーに基づく方法(anchor-based approach)」 8-10 であり、もう一つは「分布に基づく方法(distribution-based approach)」 11, 12 である。

アンカーに基づく方法の場合のアンカーとしては、個人の主観に基づく方法(global rating法) 10 と、検査データや医師による診断など、客観的にも納得しやすい臨床データを用いる方法がある。個人の主観に基づく方法は、同一人において、経時的に2時点で測定し、2回目の測定において、同時に、最初の測定時点と比較して、改善・悪化・不変、を5-7段階など多段階で問い、そのうち1-2段階の変化をMIDとする方法である。この方法から得られたMIDでは、改善方向と悪化方向では若干値が異なることが知られている 2,3 が、実際の応用では通常特に区別なく使用されている。

臨床データを用いる方法では、例えば、貧血ではヘモグロビンの一定の改善や低下、あるいは、Performance Status(PS)のグレードの一定の改善や低下を用いる方法などが利用されているが、それらの変化量や差を臨床的意義の解釈に用いることが客観的にも妥当であることをしっかりと説明しなければならない。

一方、分布に基づく方法では、生物統計の専門家としての経験則が用いられたりする。その提案の一つとしては、例えば、標準偏差(Standard deviation: SD)を基準にした方法がある。そのうち、効果量(Effect size)(変化量/(baselineのSD))を用いる方法では、「CohenのD」 13 0.2~0.5(小さい効果)が用いられることがある。

また、標準測定誤差(Standard error of measurement: SEM)の1倍(1 SEM)を用いる方法も提案されている 11。SEMは、尺度が測定できる限界を表す指標であり、信頼性係数(r)と SDから算出できる(SEM=SD√(1-r) )。

分布に基づく方法はいずれにしても、患者の主観に基づかないので、MIDの推定では補助的に考えられている。しかし、実際に0.5倍のSDは、アンカーに基づくMIDと近似するケースが多いことも報告されている 12

2.10.2. MIDと奏効例の定義を用いて結果を解釈する方法

FDAのPRO使用ガイダンス 14 では、MIDという用語は用いられていないが、MIDを用いた奏効例の定義を臨床試験前に決めておくことによって、結果の解釈へ応用する方法が推奨されている。具体的には以下のような方法がある。

一つは、臨床試験の各群において奏効例(Responder)の割合を算出し、群間で統計学的に比較検定する方法 15 である。二つ目の方法は、例えばがん臨床試験では、PRO/HRQLスコアがMIDの分だけ悪化するまでの期間(Time to definitive deterioration: TDD)をKaplan-Meier curveに表し、統計学的に比較検定する方法 16 である。この方法は、臨床家には生存解析でなじみが深いが、生存曲線における打ち切りと、PRO/HRQL調査の打ち切りでは意味が異なることに注意が必要である。また、三番目として、MIDはあくまで点推定値なので、感度分析が必要であることをすでに述べたが、それを反映する方法として、Cumulative Distribution Function curveを用いる方法 17 も提案され、日本の臨床試験でも応用例 18 がある。

MIDや奏効例の定義を使用して結果を解釈する方法は、まだ国際的なコンセンサスを得ているとはいい難いが、現時点では上記の3つの方法が使用されている。

    参考文献

  1. Guyatt GH, Walter S, Norman G. Measuring change over time: assessing usefulness of the evaluative instruments. J Chronic Dis. 1987; 40(2): 171-8.
  2. Maringwa J, Quinten C, King M, et al. Minimal clinically meaningful differences for the EORTC QLQ-C30 and EORTC QLQ-BN20 scales in brain cancer patients. Ann Oncol. 2011; 22(9): 2107-2.
  3. Cella D, Eton DT, Lai JS, et al. Combining Anchor and Distribution-Based Methods to Derive Minimal Clinically Important Differences on the Functional Assessment of Cancer Therapy (FACT) Anemia and Fatigue Scales. J Pain Symptom Manage. 2002; 24(6): 547-61.
  4. Webster K, Cella D, Yost K. The Functional Assessment of Chronic Illness Therapy (FACIT) Measurement System: properties, applications, and interpretation. Health Qual Life Outcomes. 2003; 1: 79.
  5. King MT. A point of minimal important difference (MID): a critique of terminology and methods. Expert Rev. Pharmacoeconomics Outcomes Res. 2011; 11(2): 171-84.
  6. Hays RD, Farivar SS, Liu H. Approaches and recommendations for estimating minimally important differences for health-related quality of life measures. COPD. 2005; 2(1): 63-7.
  7. Revicki D, Hays RD, Cella D, et al. Recommended methods for determining responsiveness and minimally important differences for patient-reported outcomes. J Clin Epidemiol. 2008; 61(2): 102-9.
  8. Jaeschke R, Singer J, Guyatt GH. Measurement of health status. Ascertaining the minimal clinically important difference. Control Clin Trials. 1989; 10(4): 407-15.
  9. Osoba D, Rodrigues G, Myles J, et al. Interpreting the significance of changes in health-related quality-of-life scores. Clin Oncol. 1998; 16(1): 139-44.
  10. Wyrwich KW, Norquis JM, Lenderking WR, et al. Methods for interpreting change over time in patient-reported outcome measures. Qual Life Res. 2013; 22:475-83.
  11. Wyrwich K. Minimal important difference thresholds and the standard error of measurement: is there a connection? J Biopharm Stat. 2004; 14(1): 97-110.
  12. Norman GR, Sloan JA, Wyrwich KW. Interpretation of Changes in Health-related Quality of Life. The Remarkable Universality of Half a Standard Deviation. Med Care. 2003; 41(5): 582-92.
  13. Cohen J. Statistical power analysis for the behavioral sciences. Lawrence Erlbaum, Hillsdale, NJ. 1988.
  14. Food and Drug Administration: Guidance for industry on patient-reported outcome measures: use in medical product development to support labeling claims. Federal Register 2009; 74: 65132-3. https://www.federalregister.gov/documents/2009/12/09/E9-29273/guidance-for-industry-on-patient-reported-outcome-measures-use-in-dicalproduct-development-to(アクセス最終日2022年8月21日)
  15. Martin M, Bell R, Bourgeois H, et al. Bone-related complications and quality of life in advanced breast cancer: Results from a randomized phase III trial of denosumab versus zoledronic acid. Clin Cancer Res. 2012; 18(17): 4841-9.
  16. Gourgou-Bourgade S, Bascoul-Mollevi C, Desseigne F, et al. Impact of FOLIFIRINOX compared with gemcitabine on quality of life in patients with metastatic pancreatic cancer: Results from the PRODIGE 4/ACCORD 11 randomized trial. J Clin Oncol. 2013; 31(1): 23-9.
  17. McLeod LD, Coon CD, Martin SA, et al. Interpreting patient-reported outcome results: US FDA guidance and emerging methods. Expert Rev Pharmacoecon Outcomes Res. 2011; 11: 163-9.
  18. Kawahara T, Shimozuma K, Shiroiwa T, et al. Patient-Reported Outcome results from the Open-label randomized phase III SELECT BC trial evaluating first-line S-1 therapy for metastatic breast cancer. Oncology. 2018; 94: 107-15.

(下妻 晃二郎、宮崎貴久子)