連載：医薬品の事業性評価の理論と応用『事業性評価の目的と意義』医薬品の事業性評価のプロセスの改善のための考え方

2021/08/12 update

連載：医薬品の事業性評価の理論と応用『事業性評価の目的と意義』
医薬品の事業性評価のプロセスの改善のための考え方

国際医薬品情報
2021年7月12日〈通巻第1181号〉

良い事業性評価とはどのようなものか

事業性評価の善し悪しについて議論することは、目的に沿った評価を行い、また行い続けてゆくために重要なことである。再びマゼンタブック[1]を参考にして、質の高い事業性評価が備えているべき性質を整理してみることとしよう。

有用性-Useful

評価にかかわる多くのステークホルダーたちのニーズを満足させ、適切なタイミングで、有用でかつ実用的な評価を提供できるときに、その事業性評価は質が高いものであると言えそうである。経営者が判断を行うタイミングで、適切な評価を提供するとともに、その評価の限界についての適切な説明も重要である。

事業性評価が有用なものであるために、あるいはその有用度を向上させるためには、ステークホルダーのニーズを理解することが何よりも大切である。特に、経営者がその事業性評価に何を求めているのか、どういう前提があればより判断しやすくなるのかということを理解するためには、その経営者と適切にコミュニケーションを取り、その抱えている課題の構造を正しく理解することが必要になる。

信頼性-Credible

評価が有用であるためには、その評価が信頼に足るものでなければならない。信頼性は評価者が中立の立場にあること、さらにはその評価プロセスに透明性があることによって担保される。

あるプロジェクトの事業性評価を行うに際して、そのプロジェクトに評価について利害関係がある部署がその評価を行う場合には、評価の中立性が不安定になり、その信頼性が揺らぐ可能性がある。例えば、臨床開発中の化合物に関するプロジェクトを実施している開発部門が当該プロジェクトに関する事業性評価を行う場合には、その部門はそのプロジェクトの継続や割り当てられる予算の拡大について利益があると考えられるために、その評価を良く見せることに関するインセンティブが働いている。そのような恣意性を排除し、評価の信頼性を担保するためには、当該プロジェクトに関する利害関係がない独立した部門、あるいは社外の第三者が評価を行うことが望ましい。

また、その評価の信頼性が担保されるように評価手法を適切に選ぶことも極めて重要である。適切なサンプリングをすること、短腕よりも比較試験が望ましい、後ろ向き研究よりも前向き研究といったように、評価方法を適切に計画し、その計画を、透明性をもって実施してゆくことによって、恣意的な結果が生じる可能性を排除することは極めて重要である。

頑健性-Robust

頑健性とはrobustnessという単語の訳であるが、一般的にはプロセスなりシステムなりが不確実性に対して対応できる程度のことを言う。ある対象に関して行う評価に入力される様々な前提には、程度の違いはあれども常に何らかの不確実性が含まれていると言える。例えば、ある医薬品プロジェクトの事業性評価を行うとき、その医薬品の適応症となる疾病を罹患している現在の患者の数でさえもそれを正しく推計することは難しく、まして将来の患者数の予測に至っては極めて不確実性が高くなる。そのような不確実性がある場合でも、例えば後になって前提がアップデートされた場合でもまだ妥当性を失わないような評価を、頑健な評価であるということができる。

評価方法のロジックの信頼性が高ければ、前提の不確実性がある程度大きくても評価はそれに耐えられると言えるだろう。そのような頑健な評価を行うためには、各種前提の不確実性の程度を理解することと、どの前提の不確実性が評価の結果に対して大きなインパクトを持っているのか、ということを理解することが極めて重要である。評価における前提がすべて固定されているような、単一の前提の組み合わせだけで評価するよりも、前提の組み合わせを複数用意するシナリオアプローチの方が不確実性に対して頑健であり、さらには重要な前提についてはパラメータを独立して入力することで連続的に結果を表現できるような評価方法は、頑健性が高いだけでなく、結果の前提に対する感受性を理解できるという点でも優れた評価であると言えるだろう。

単一の前提の組み合わせだけでは、前提の不確実性に対して脆弱な評価となってしまう。複数のシナリオを用意することによって、その不確実性を克服できる。さらに前提の分布が連続的である場合にはパラメータとして任意の値を独立した前提として入力できるようにすると、評価結果のそれぞれの前提に対する感受性を理解できるようになる。

比例性-Proportionate

Proportionateという単語の訳として比例性という言葉を用いているが、ここでは資源の適正配分とでもいうべき意味である。すなわち、全ての評価を同じような緻密さで実施するべきではなく、喫緊な問題、重要な問題、より学びが大きいような問題については、より緻密な、粒度の高い予測を実施すべきである。

医薬品プロジェクトの事業性評価の例で言えば、早期開発段階にあるような化合物についてはそれを次のステージに進めるかどうかという判断を行うためにはそれほど緻密な評価は必要ないかもしれないが、後期開発段階にあるようなものであって次のステージで大きな投資が求められるようなもの、あるいは既に発売されている製品であって業績に直接影響のあるようなものの場合には、より精密な評価が必要となる。

早期開発段階にある化合物はそもそも得られる情報も少なく、また不確実性も大きいためにそもそも緻密な評価を行えない、もしくはそこまで緻密に評価することに意味がない場合があるため、評価は必然的に比例的になる。例えば、あまりにもアーリーであるためにTPPが極めて大雑把であるような化合物について、フルセットの市場調査を実施しても得られる情報は少なく、意味のないものになってしまう可能性がある。それだけでなく、このような中途半端な市場調査は会社の経営判断にとってミスリーディングであり、危険である。市場調査については後述する。

理論に基づく影響評価Theory-based impact evaluation

評価の信頼性のところでも言及したが、良い評価のためには適切な対照を置き、可能な限り前向きな検証を行うことが望ましい。しかし、評価によっては、その特質として対照を置いて前向きな検証を行うということには馴染まない場合がある。例えば、新製品発売の際の営業のアカウントカバレッジ戦略について考えてみよう。新製品発売にあたっての営業戦略立案上の重要なタスクの一つがセールスフォース・サイジング、すなわち新製品の発売にあたって確保すべき営業部門のFTEの決定である。FTEの大きさは会社としてカバーできるアカウントの数に比例するが、すべてのアカウントの処方箋枚数が同じわけではない。そこで、高処方量が期待できるアカウントから順番にアプローチしてゆき、あまり多くの処方が期待できないアカウントに行くにつれ訪問の頻度がさがり、やがてターゲットの診療科であってもアプローチをしないアカウントがでてくるということになる。そのことを模式的に示したのが図2-1である。

戦略AとBとして示したが、アカウントカバレッジがコストであるFTEと連動していることから、最適なセールスフォース・サイジングにあたっては、アプローチをキーアカウントに絞ってFTEに対して利益を最大化させてゆくという方向性と、より広くアカウントを取って売上高の最大化に寄与する方向性とが考えられる。戦略Aはどちらかと言えば前者、戦略Bは後者に寄った戦略であると言えるだろう。ここでは単純化のために、この新製品の発売にあたっては戦略AまたはBしか選択肢がなく、しかも必ずどちらかを選ばなければならない（すなわち戦略AとBとは背反である）と考えよう。

さて、この新製品の発売において例えば、戦略Aが選択されたとしよう。この場合、戦略Bを選択した場合の売上高は測定できない。したがって戦略AとBとの直接の比較ができないために、戦略Aの売上高に対するインパクトを正確に定量することができない。例えば、図2-1の集中度分析のモデルは、発売後の各アカウントの売上実績を分析することによって測定可能である。しかしながら、それはあくまでも戦略Aが採用されている状況における売上高の集中度なのであり、図2-2に示されている通り、テールに向けて25~40%分のアカウントに対するアプローチがない状態におけるデータである。この中間セグメントに対してFTEをかけてプロモーションを行っていた場合には、そうでなかった時と比べてそのセグメントでの売上高が伸びていたであろうことは容易に想像できる（そもそもその効果があることが期待されているのが営業部門の存在価値であろう）。

このように、ある選択を行った際に、実際にはなされなかった選択に基づく状態やその状態の形容を英語でcounterfactualといい、辞書的な日本語訳は「反事実（的）」という単語が当てられているが、ここではカウンターファクト／ファクチュアルと呼ぶ。介入の影響評価を行うにあたって、無作為化された対照群を置いて前向きに試験をする理由は、このカウンターファクトと直接的に比較を行うために他ならない。医薬品の後期臨床試験においてこのようなデザインを用いることが望まれるのも、医学的介入と臨床的状態の因果関係を検証し、その介入が健康状態に及ぼす真の影響を評価するための方法はカウンターファクトとの直接比較が最も望ましいのである。このような影響評価は実験的影響評価(experimental impact evaluation;なお無作為化されていないような対照を置いて行われる影響評価は準実験的影響評価、quasi-experimental impact evaluation)と呼ばれる。

しかしながら、上述のセールスフォース・サイジングの戦略の事業性評価においては本質的にカウンターファクトとの比較を行うことができない。これが一般の財（食品や文房具）であれば、地域を限定してテストマーケティングなどを行い戦略の比較をある程度までは行うことができるかもしれないが、医薬品の営業戦略においては現実的ではない。したがって、そのような戦略の事業性評価を行うためには、常に理論上の対照を設定してカウンターファクトの理論値のようなものを設定する必要がある。このような評価を理論に基づく影響評価(theory-based impact evaluation)という。医薬品プロジェクトの事業性評価のごときは、基本的にはカウンターファクトの測定ができないためにこの方法によって影響評価を行う必要がある。

理論に基づく影響評価の評価方法としての特徴は、実験に基づく影響評価との比較で表1にまとめた。この中でも重要な特徴は、理論に基づく影響評価においてはその影響の定量化が厳密には（少なくとも理論値ベースでしか）できないということである。また、あくまでも理論的な評価であるため、カウンターファクトを後付けで設定できる。このことは、評価者が事後的かつ恣意的にカウンターファクトを設定する余地を残すことになり、評価の中立性が損なわれる可能性があることを示唆している（図3-1）。

このような弊害を防ぐためには、経営判断を行う前に、選択される戦略だけでなく、そのカウンターファクチュアルな戦略を採用した場合の結果についても予測し、結果が表れた後にその両方の予測と比較する。これによって、確証バイアスを回避し、より中立性の高い評価が期待できる。図3-2はその様子を示している。図のケースのとき、まずは予測A_fと結果A_oとを比較、すなわち、予測のアサンプションのうちどの部分が結果を構成する要素とどの程度ずれていたのか、を分析する。そして、そのずれをもってカウンターファクトの予測であるB_fを補正する。すなわち、戦略B_sを選んでいたとした場合にはどのような結果になっていたか、ということを推定する。そのうえで、実際の結果A_oと比較することによって、戦略A_sの影響評価を行う。このプロセスによって、戦略A_sの理論に基づく影響評価をより中立な視点から行うことができるのである。

[1] Magenta Book: Central Government guidance on evaluation (https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/879438/HMT_Magenta_Book.pdf)