BAN2401の第２相試験結果を読む

2018/08/29 update

BAN2401の第２相試験結果を読む

国際医薬品情報
2018年７月23日〈通巻第1110号〉

焦点
BAN2401の第２相試験結果を読む
―投資筋の過剰な期待と試験結果に対する懸念―

BAN2401はこのタイプの薬剤では史上初めて、臨床的な効果を証明
第2相201試験は画期的なデザインを採用したものの、その示した有効性は限定的であることが強く示唆される
第3相試験に進むという判断がなされるかどうか

7月5日にエーザイとバイオジェンとは共同で、抗アミロイドβプロトフィブリル抗体製剤であるBAN2401の早期アルツハイマー患者856症例を組み入れた第2相試験の投与開始後18か月における結果を速報した。このタイプの化合物開発において、BAN2401は史上初めて臨床的な効果の存在、すなわちアルツハイマー病の臨床症状の進行を遅延させることを証明し、合わせて脳内におけるアミロイドβの蓄積量を減少させたことを報告したのである。これを受けてエーザイ株は二日連続のストップ高となり、5日の時点では7,700円台だった株価は9日には10,700円台にまで高騰した。また、バイオジェン株は20％もの大幅な上昇を示したという。ただし、バイオジェンとエーザイとが今回発表した試験に関する情報は極めて少ないために、現時点でこの結果の解釈は限られたものとならざるを得ない。この試験の結果の詳細は来たる学会（Alzheimer’s Association International Conferenceアルツハイマー協会国際会議、7月20, 21日、米国シカゴ）で発表されることになっている。本稿執筆時点ではその結果は明らかにされていないため、今回速報された第2相201試験(NCT01767311)がどういった試験だったのかということをレビューし、今後公表される情報の中でどういったところに注目すべきなのかということを明確にしたい。
201試験の特徴
さて、今回の201試験には以下のような特徴がある。

① BAN2401における有効性の存在を証明し、来るべき第3相試験のデザインを決定することを主な目的とする第2相試験であること
② ADCOMSという、新たな臨床エンドポイントを採用し、試験における「成功」を実薬群のプラセボ群比25％以上の改善と定義していること
③ ベイズ法に基づいたアダプティブデザインを採用していること

このうち①については当然のことと思われるかもしれないが、特に最近のADの化合物の開発においては、臨床エンドポイントを主要評価項目に設定した、これだけ長期間の第2相試験を第3相試験の前に実施する開発戦略を採用している化合物はあまり例がない。最近この分野の化合物の開発においてはより早期の患者を組み入れることが多いが、病勢の進行が遅いために臨床エンドポイントを採用していては試験が長期化する。そのため、第2相はサロゲートをエンドポイントとして小規模に行い、速やかに第3相に入る戦略を採る会社が多かった。
しかし、これまでのこの領域の数多くの失敗は、第3相試験が臨床エンドポイントを達成できるほど十分にパワーされていない（適切な目標症例数が設定されていない）ということが原因の少なくとも一部であると考えられており、それを克服するためには第2相試験のうちから何らかの形で臨床エンドポイントを、しかもなるべく短い期間で評価する必要が生じてきた。そこで、この201試験では新たにAD Composite Score (ADCOMS)という臨床エンドポイントを採用するとともに、この試験の最大の特徴であるいわゆるアダプティブデザインを採用している。ADCOMSはこれまでのAD薬開発における臨床的エンドポイントであったMMSE、ADAS-cog、およびCDR-SBの評価項目をすべて再評価して、特に前駆ADや健忘的軽度認知機能障害、早期アルツハイマー型認知症などの早期の患者に対して感受性の高い評価項目を抽出して再構成したものである。そして、試験期間の短縮の可能性を期待して組み込まれたのがこのベイジアン・アダプティブデザインである。

ベイジアン・アダプティブデザイン

臨床試験が長期に及ぶ理由の一つは、限られた情報を用いて、有意差を示せるだけの患者数や観察期間などをあらかじめ計画して、その通りに試験を実施してゆく必要があるからである。基本的には、試験の最中に事後的に各群への振り分けを変えることはできない。しかし、二重盲検下でも独立モニタリング委員会による中間解析によって、これ以上症例を組み入れても有意差を示すことが困難であると見込まれる場合や、解析時点において事前に設定された統計学的有意差を達成することが確実である場合には、試験を早期に中断することができる。そこで、試験の早期中断の可能性を高められるように頻繁に中間解析を行って、そのたびに群分けの基準を柔軟に変更できるように計画することができれば、それだけ開発を早めることができる。このように、計画の事後的変更を許容するデザインがいわゆるアダプティブデザインである。この変更を、計画時の仮説である「事前分布」に対して中間解析データを「観測」することによって「事後分布」に変化させるというベイズ推測の方法を用いて行うのがベイジアン・アダプティブデザインである。この「事後分布」に基づいて群分けの基準を見直して、組み入れが目標症例数に到達する前に早期中断を促すことがこのデザインを採用する目的である。なお、この201試験における事前分布の算出に用いられたシミュレーションの前提などの試験デザインの詳細はSatlinらによって論文化されている。
後ほど言及することとの関連で重要なのは、このベイジアン・アダプテーションはあくまでもこの試験の「成功」、すなわち12か月時点における臨床エンドポイントであるADCOMSのプラセボと実薬群との差の推定値に基づいて群分け基準の変更を計算していたということである。

何が推測できるか

さて、試験のデザインはこのように極めて洗練された、真の意味での探索的試験であったわけだが、これまで得られている情報から、実際に起こったことに関してどういう推測が可能か、そして今後の情報のなかで注目すべき点について考察したい。
まず、これまでこの化合物に関して発表されている事実を整理しよう。
報告されている事実
 この発表に先立つ昨年12月21日、バイオジェンとエーザイとは共同でこの201試験においてBAN2401は12か月時点での主要評価項目の評価に基づいて試験としては「成功」していないということを報告している。

7月5日の発表において報告されたこと
① 最終的に組み入れられた856症例を評価した結果、投与開始後18か月時点で、ADCOMSにおいて最高用量群（10 mg/kg，隔週投与）とプラセボとの間に統計学的に有意な差がみられた。
② 脳内アミロイド蓄積量についても、投与開始後18か月時点で、最高用量群とプラセボとの間に統計学的に有意な差がみられた。
③ いずれのエンドポイントも用量依存的であった。
④ 最高用量群においては、投与開始6か月の時点ですでにプラセボと比較して統計学的に有意な臨床ベネフィット(statistically significant benefit as measured by ADCOMS, つまりADCOMSとしては6か月の時点ですでに有意差あり)がみられており、それは12か月の時点でも優位であった。
7月5日の発表において報告されていないこと
① 最終的に各群に何例が振り分けられたのか。
② 18か月時点での評価の有意水準と、結果のp値。
③ 第3相試験の実施の有無。

とにかく何をおいても忘れてはならないことは、この試験が「成功」していないということである。確かに18か月における解析は副次評価項目として最初から設定されていたので検定は前向きであるが、これは「成功」の定義ではない。201試験においてこのことが特に重要なのは、前述のようにこのアダプティブデザインが、試験が「成功」するかしないかという点を軸に設計されているためである。すなわち、初期群分け以降の各中間解析時点における群分け設計は12か月時点におけるADCOMSが臨床的に有意となりやすいように設計変更されているはずである。
さらに重要なことは、この試験が有効性の有無に基づく早期中断に至っておらず、目標症例数800を超えた856症例を組み入れているということである。先ほどのSatlinらの論文によれば、試験のプロセスは以下の通りである。

中間解析の結果による中断

中間解析の結果、BAN2401のED90がプラセボよりも臨床的に有意に（つまりADCOMSで25％以上）優れている確率が閾値を下回った場合には、試験は実薬に有効性なしとして中断される。閾値は組み入れ症例数350例以前の中間解析では5%、それ以降の中間解析では7.5%とする。
逆に、BAN2401のED90が臨床的に有意に優れている確率が95%を上回った場合にも試験は成功として早期に中断され、すなわち新規の組み入れは中止され、すべての症例は投与12か月まで観察されたのちに終了する。

有効性なしとして中断されなかった場合

すべての症例について投与12か月後の評価を行った結果、ED90が臨床的に有意となる（つまり主要評価項目が25%以上の差をつける）確率が80％以上であった場合には試験は「成功」と定義される。

ここからBAN2401について想定できることは以下の通り。

想定されること

BAN2401は投与12か月の時点でADCOMSにおいて臨床的有意といえる25％の差をプラセボに対してつけることはできなかった（しかしこれは12か月の段階において何らの統計学的に有意な差を示すことができなかったことを示しているわけではない。実際、7月5日のプレスリリースでは6か月の時点から有意差そのものは存在したとしている）。
一方、BAN2401はおそらく16回にわたって行われた中間解析において、有効性なしとして早期中断となったことはなかった（しかし、統計学的に有意な臨床ベネフィットはみられたようだが、それが具体的にどの程度の大きさであるのかは現時点では不明）。

ここから推測できることは、すなわちBAN2401は限定的な臨床効果しか示せなかったのではないかということである。臨床効果が限定的であったがゆえに、せっかくベイジアン・アダプティブデザインを採用したにもかかわらず、その目的である症例数の減少、試験の早期中断による期間の短縮が達成できなかったということだろう。もう少しいえば、何らかの弱い効果がみられたために、効果がなければ早々に中断できたはずの試験が、却っておよそ6年間の長きにわたって最後まで実施せざるを得なかったということができる。
もう一つ興味深いのは、今回BAN2401の投与を受けた患者はさらに今後オープンラベルで追跡されることになっているが、経時的に有効性がどのように変化したのか、そしてどのように変化してゆくのかという点も注目されるべきだろう。7月5日の発表では、有効性の用量依存性についての言及はあったが、時間依存性について言及はなかった。しかし、1年間という期間にわたって投与を受けていた患者が、試験期間中、さらにはフォローアップ期間中も時間依存的に有効性を示したかどうかということは、特にその示した有効性が限定的なものであったとしても、この薬剤に真に効果があるのかどうかということを信じさせるのに十分な情報となるだろう。

第3相試験は実施されるのか

副次評価項目であった18か月におけるADCOMSの評価も、有意水準に関する発表がないために、もしかするとp=0.05というギリギリの値であることも考えられる。もしわれわれの推測通りに臨床効果が限定的であった場合には、統計学的な有意差を出すための、そして臨床的に有意な差を示すために必要な第3相試験のサンプルサイズは膨大となることが懸念される。BAN2401が初めて臨床入りしたのが2010年であるため、次の試験にさらに6年もかかるということであれば、14年間にわたって臨床試験を続けることになり、独占的に販売できる期間が非常に短くなる可能性が高い。
また、プラセボと比較してどの程度の差があれば臨床的に有意であるといえるのかという点で、医学コミュニティーやFDAとも合意が得られなければならない。臨床スコアが統計学的に有意であっても、効果が小さすぎる場合には臨床的な有用性が小さく、第3相試験のコストを賄うだけの十分な薬価が得られない可能性がある。
これだけ投資家筋の期待値、さらには患者や家族、医療コミュニティーの期待値を引き上げてしまったBAN2401であるが、あまりに大きな試験が必要となってしまった場合には、引き続いての第3相試験を実施しないという判断もは大いにありうる。来たるAAICでどのようなデータが発表されるのか、それを受けてバイオジェン、エーザイがどのような経営判断をくだすのか、予断を許さない。