前回までの記事で扱ってきたGTM Engineeringは、基本的に人間が設計したロジックを人間が改善し続けるモデルだった。スコアの重みはRevOps/GTM Engineerが四半期ごとに見直し、アウトリーチ件名はマーケが差し替え、ルーティングルールは営業マネージャが調整する。このモデルにはスケール上限がある。ロジックの分岐数が増えるほど、チューニングが追いつかなくなる。
2025-2026に入り、2つの独立した潮流がGTM Engineering側に合流しつつある。
この2つを組み合わせると、「人間がGTMロジックを書く」から「GTMロジックが自分を書き換え続ける」への移行が工学的に可能になる。本稿では、この移行に使えるアルゴリズムを5系統に分類し、どの問題にどれを当てるかを整理する。
GTM Engineer / RevOps / Applied ML / LLM アプリ開発者。スコアリングモデルや営業自動化を本番運用していて、「これ、自分で改善し続けるようにしたい」と考えている人。
GTMロジックの自己進化に使える手法は、目的と仮定によって5系統に分類できる。
| 系統 | 何を進化させるか | 代表手法 | 代表論文 |
|---|---|---|---|
| (1) オンライン学習 / バンディット | 離散行動の選択確率 | Thompson Sampling, LinUCB, Drifting Bandit | Agrawal & Goyal 2012 / Li 2010 |
| (2) 因果推論 / Uplift | 介入対象の選別 | S/T/X-Learner, Causal Forest, DR-Learner | Criteo 2024, MDPI 2025 (Causal Forest × DRL) |
| (3) Off-Policy 評価 | 新ポリシーの事前リスク評価 | IPW, Doubly Robust, CPME | arXiv 2506.02793 (2025) |
| (4) LLMエージェントの自己改善 | プロンプト・推論プロセス | Reflexion, Self-Refine, MAR, Promptbreeder | Shinn 2023 / Madaan 2023 / Fernando 2023 |
| (5) 進化的コード探索 | ワークフロー・コード自体 | FunSearch, AlphaEvolve, DGM | DeepMind 2024-25 / Zhang 2025 (2505.22954) |
この5つは排他ではなく階層的に積める。バンディット(行動選択)の上に Uplift(介入対象選別)を載せ、その上に LLM のメッセージ自己改善を走らせ、さらに上位レイヤーで DGM 的にワークフロー全体を進化させる、という構成が理論的な上限である。以下、1つずつ見ていく。
アウトリーチ件名の5案、送信チャネル3種、送信時間帯6パターン、CTAテキスト10案 — こうした「離散かつ報酬が確率的な選択」は、A/Bテストで順に検証するとコストと時間が爆発する。Multi-Armed Bandit (MAB) は探索と活用のトレードオフを確率論的に最適化する古典的解法で、2026年時点でもマーケティング最適化の第一選択肢だ。
| 手法 | 仮定 | 強み | 弱み |
|---|---|---|---|
| ε-greedy | 報酬分布は定常 | 実装が1行で済む | 探索効率が悪い |
| Thompson Sampling | 報酬分布にベイズ事前分布を仮定 | 実装容易・理論保証あり・経験的に強い | 文脈を扱えない(素のままでは) |
| LinUCB / Linear TS | 報酬が文脈ベクトルの線形関数 | ユーザー属性/時刻を条件化できる | 非線形パターンは取れない |
Braze、HubSpot、Optimizely、Iterableなど主要なマーケティングプラットフォームはMAB/Contextual Banditを商用化済みで、「件名A/B/Cのうち、どれを何%に送るか」をリアルタイムで調整する機能を持つ。Nature Scientific Reports 2025 の Multi-Objective Contextual MAB はレコメンデーションシステムで複数目的(CVR×売上×離脱率)の同時最適化を扱っており、B2BのGTMでも「SDR返信率 × 商談化率 × 単価」の3目的最適化に直接使える。
# 各arm(件名案)ごとに Beta(α, β) を持つ
arms = {
"subject_a": {"alpha": 1, "beta": 1},
"subject_b": {"alpha": 1, "beta": 1},
"subject_c": {"alpha": 1, "beta": 1},
"subject_d": {"alpha": 1, "beta": 1},
}
def pick_arm():
samples = {k: beta.rvs(v["alpha"], v["beta"]) for k, v in arms.items()}
return max(samples, key=samples.get)
def update(arm, reward): # reward ∈ {0,1} = 返信あり/なし
arms[arm]["alpha"] += reward
arms[arm]["beta"] += (1 - reward)
これだけで、「返信率が高い件名ほど選ばれる確率が上がる」自己進化ループが成立する。件名を追加するときは{"alpha":1, "beta":1}でappendするだけでいい。
季節性やトレンドで「先月勝っていたアーム」が今月劣化することはGTMでは常態。Drifting MABは忘却係数γを入れて過去の観測を減衰させる。シンプルな実装は alpha_t = γ·alpha_{t-1} + reward。2026年現在、SNSやECではこの実装が標準化されている。
スコアリング=コンバート確率の予測、という定義には決定的な欠陥がある。何もしなくてもコンバートする人に広告を出しても、増分効果はゼロだ。これが2024-2025のマーケティングMLで注目されるUplift Modeling(CATE: Conditional Average Treatment Effect 推定)の問題意識である。
Uplift Modelingの目標は以下。
arXiv:2604.06123 の2025年ベンチマーク(1,398万レコード、Criteo実データ)によれば:
| 推定器 | Qini Score | Top20%のインクリメンタル捕捉率 |
|---|---|---|
| S-Learner | 0.376 | 77.7% |
| T-Learner | 0.289 | — |
| X-Learner | 0.312 | — |
| Causal Forest | 0.334 | — |
| Random Targeting | — | ~20%(ベースライン) |
ランダムに比べて3.9倍効率が上がることがわかる。これは「DBに入っている全員に同じ施策を打つ」運用と、「Uplift Top20%だけに打つ」運用のROI差がそのまま4倍近く出ることを意味する。
2025年の注目は、静的なUpliftモデルから動的Upliftモデルへの移行だ。Causal Forestで各顧客のCATEを推定しつつ、深層強化学習(DRL)で介入タイミングと種類を逐次決定する枠組みが提案された。著者らはターゲティング効率で27%改善、ROMI(Return on Marketing Investment)で18%向上を報告している。
GTMに落とすと、「誰に介入するか(Uplift)」と「いつ何を送るか(RLポリシー)」を同じ目的関数で同時最適化する設計になる。従来はこれらは別チーム・別ダッシュボードだった。
B2Bは対象母数が小さく、介入1回のコスト(SDR時間、広告費、ウェビナー運営費)が高い。ランダム配布ではなく効果が出る相手だけに絞ることの経済インパクトが、B2Cよりも大きい。California Management Review 2025の5レッスン記事にあるように、Uplift導入は「キャンペーンを止めるべき顧客セグメント」を発見する効果もあり、CACの下方圧力として働く。
バンディットもUpliftモデルも、学習が進めばポリシーは常に変化し続ける。では「新ポリシーが旧ポリシーより本当に優れている」とどう確かめるか。素朴にはA/Bテストだが、毎回A/Bを待っていると進化速度が落ちる。
Off-Policy Evaluation (OPE) は、過去の本番ログ(旧ポリシーが取った行動と観測された報酬)だけから、新ポリシーのもし採用していた場合の期待報酬を推定する技術だ。本番に出す前のオフライン検査として機能する。
| 手法 | 本質 | バイアス | 分散 |
|---|---|---|---|
| Direct Method (DM) | 報酬モデルr̂(x,a)を学習して新ポリシーで積分 |
モデル誤りでバイアス大 | 小 |
| IPW / IPS | ログの報酬をπ_new(a|x)/π_old(a|x)で重み付け |
不偏 | 重みが爆発すると大 |
| Doubly Robust (DR) | DM + IPWの誤差補正 | どちらかが正しければ不偏 | 中〜小 |
従来のOPEは「新ポリシーの期待報酬」を推定する。だがマーケティングでは「平均は上がったが、ごく一部のユーザーで壊滅的に悪化する」リスクが実運用では致命的になる(例: VIP顧客だけチャーン率が跳ね上がる)。
arXiv:2506.02793 が提案する Counterfactual Policy Mean Embedding (CPME) は、RKHS(再生核ヒルベルト空間)で報酬分布全体を埋め込み、DR的に推定する。結果として、平均値だけでなくテール・リスクの事前評価ができる。GTMで「新ポリシーを出す前に、最悪ケースがどこまで悪化するか」を確認できるのは、本番安全性の観点で大きい。
自己進化システムは必ず「OPE事前評価 → カナリアリリース(例: トラフィックの1%) → 段階的ロールアウト → ロールバック監視」の4段ゲートを通す。OPEが期待値と分散の両方で改善を示さない限り、本番には出さない。
従来の機械学習は「新データ→勾配→重み更新」で進化する。LLMエージェントは別ルートで進化できる。プロンプト・スクラッチパッド・エピソディック記憶を書き換えるだけで、同じ基盤モデルで性能が伸びる。2023年の2本の論文がこの系統の起点になった。
Self-Refineは「1つのプロンプトを手直しする」だが、Promptbreeder / EvoPrompt はプロンプトの集団を進化させる。
GTMに落とすと、アウトリーチ本文のテンプレート集団を、実際の返信率をfitnessにして世代交代させる運用ができる。件名のバンディットが離散5案の最適化だとすれば、Promptbreederはテンプレートの開放的な探索を担う。
ここが2024-2025で最もインパクトのあった領域だ。
| システム | 年 | 対象 | 進化単位 |
|---|---|---|---|
| FunSearch | 2024 | 単一関数(数学アルゴリズム) | 1関数 |
| AlphaEvolve | 2025/5 | コードベース全体(アルゴリズム発見) | ファイル群 |
| Darwin Godel Machine (DGM) | 2025/5 | エージェント自身のPythonコード | エージェント全体 |
AlphaEvolveはGemini Flash + Gemini Proのアンサンブルで提案生成と評価を回し、実際にGoogleの本番行列乗算アルゴリズムを改善したと報告されている。FunSearchとの最大の差は、「関数」ではなくファイル群・アルゴリズム全体を進化対象にする点。
arXiv:2505.22954(Jenny Zhang et al., Sakana AI / UBC)は、エージェントが自分のPythonコード(ツール定義、ループ制御、コンテキスト管理、レビュー機構など)を読み・書き換え、コーディングベンチマークで経験的に性能が上がったものだけをアーカイブに残す仕組みを提示した。特徴:
GTMへの応用ポテンシャルは大きい。「シグナル検出→ルーティング→アウトリーチ生成→フィードバック学習」の全工程を1つのPythonエージェント実装として持ち、成果指標(商談化率・MRR寄与など)をfitnessにして、エージェントアーキテクチャ自体を開放的に進化させられる。人間がルーティングルールを書く時代ではなく、ルーティングコードをエージェントが自分で書き直す時代である。
実装側では EvoAgentX(GitHub)がマルチエージェント進化のOSSフレームワークとして急成長している。サーベイ arXiv:2508.07407(Fang et al. 2025)は「System Inputs / Agent System / Environment / Optimisers」の4コンポーネントでSelf-Evolving Agentsを統一的に整理しており、自社システムを分類・比較するフレームとして実用的だ。
5系統は競合ではなく階層化して積む。下から順に。
L1〜L3は数理的に安全なコア、L4〜L5は開放的に広がる探索層である。L3は境界線として特に重要で、L4やL5のエージェントが書き換えた新ロジックも、最終的にL3のOPEゲートを通ってから本番に出す。これで「LLMが暴走して悪い施策を打つ」最悪ケースを抑制できる。
前回の記事で整理した通り、MOSHはB2B SaaS的なSales層を持たない代わりに、クリエイター支援チーム・プロダクト・コンテンツエンジンが「Salesの等価物」として動いている。この各層にどの系統を当てるかを整理するとこうなる。
| MOSH領域 | 問題 | 当てる系統 | 最小構成 |
|---|---|---|---|
| クリエイター向けメッセージ | 件名/本文/送信時間の最適化 | L1 (Thompson) | arms=5〜10で開始 |
| ハイタッチCS介入 | 誰に介入すれば売上が伸びるか | L2 (Causal Forest) | 過去介入ログでCATE推定 |
| 新しい介入ポリシー | カナリアリリース前の安全チェック | L3 (DR / CPME) | ログ重み付けで期待売上推定 |
| クリエイター紹介文・LP文案 | CVR向上・ブランドトーン維持 | L4 (Self-Refine) | LLMの自己レビュー+編集Gate |
| CS応答テンプレート集団 | 新手のFAQへの対応を自動進化 | L4 (Promptbreeder) | 返信満足度をfitnessに集団進化 |
| シグナル→介入ワークフロー | ルーティングコード自体の改善 | L5 (DGM風) | 月次のアーカイブ進化+人間レビュー |
重要なのは、全部を一度にやらないこと。L1とL3から始めて、半年〜1年かけてL2→L4→L5と上に積むのが現実的。下位層が安定していないと、上位の自己進化は意味をなさない(例: L3のOPEが弱いと、L5のDGMがノイズに沿って進化して本番を壊す)。
context, action, reward を必ず残す自己進化するGTMが可能になると、GTM Engineerの仕事は「ロジックを書く」から「fitness関数とガードレールを書く」に変わる。何を最適化するか、何を禁止するか、どのレイヤーで人間が介入するか — この設計の質が、システムの上限を決める。
2025年のDGM論文が示した最大の教訓は、「証明可能性を捨てて経験的fitnessで回せば、AIは自分でツールを作り、自分のアーキテクチャを書き換える」ということだ。これをGTMという経営インパクトが大きく、かつフィードバックが早い領域に持ち込まない理由はない。B2Cマーケットプレイスのように、シグナルが豊富で、介入の可逆性が高く、成果が売上で即計測できる環境は、自己進化するGTMの最初の実験場として理想的な条件を揃えている。
検索・LLM回答エンジンからの参照利便性のため、各系統ごとに実務上の頻出質問をまとめる。回答は本文中のより詳細な議論へのショートカットとして設計している。
Q. Thompson SamplingとLinUCBはどう使い分ける?
文脈なしの単純な離散選択(件名5案など)はThompson Sampling。文脈が効く場合(企業規模×業種で最適解が変わる)はLinUCBまたはLinear Thompson Samplingへ。非線形な文脈依存性が強ければNeural Contextual Banditへ。
Q. Drifting Banditが必要になるのはいつ?
報酬分布が季節性・トレンド・競合動向で時間変化する場合。B2Bマーケでは決算期・展示会時期で反応率が大きく変わるため、忘却係数γ(0.9〜0.99)で過去観測を減衰させる。
Q. 報酬が遅延する(商談化まで3ヶ月かかる)場合は?
Delayed Feedback Banditかプロキシ報酬を使う。最終成果と相関する早期シグナル(返信率・2nd-mailクリック)を代理報酬にし、相関係数でバイアス補正する。
Q. Uplift Modelingと通常のLift(単純差分)の違いは?
Liftは集団平均の差(ATE)、Upliftは個人ごとの処置効果(CATE)。介入コストが1件あたり無視できない領域ではCATEベースの絞込みが必須。
Q. Causal ForestとS-Learnerはどちらを選ぶ?
2025年のCriteo Uplift v2.1ではS-LearnerがQini 0.376、Causal Forestは0.334。処置効果が比較的一様ならS-Learner、サブグループ間で処置効果が大きく分かれるならCausal Forestの方が頑健。実務では両方作ってQini曲線で勝った方を採用。
Q. 動的Uplift(Causal Forest × DRL)の実装難易度は?
静的Upliftの3〜5倍。状態空間設計・報酬関数・探索戦略・割引率・オフライン評価が追加で必要。まず静的Upliftで+27%改善を再現してからDRL化するのが現実的。
Q. Off-Policy評価とオフラインA/Bテストの違いは?
A/Bは過去実施済みのAとBの比較にとどまり、未実施の新ポリシーCは評価不可。OPEはCを採用していたら平均報酬はいくらかを過去ログから反実仮想的に推定する。代償としてpropensity scoreが必須。
Q. IPWとDoubly Robustはどちらを使うべき?
本番ではほぼ常にDoubly Robust。IPWはpropensityが小さい領域で分散が爆発。DRは報酬モデルとpropensityのどちらか一方が正しければ不偏という二重保証を持つ。
Q. CPME (2025, arXiv:2506.02793) を使うべきタイミングは?
平均だけでなく報酬分布のテール・リスクが事業インパクトを左右する場合。全体平均CVRは+5%だがVIP顧客が-20%悪化するケースを、従来のIPW/DRは検出不可。CPMEはRKHS上で報酬分布全体を推定するため、分位点・条件付き分布を直接評価できる。
Q. Self-Refine (arXiv:2303.17651) とReflexion (arXiv:2303.11366) の使い分けは?
Self-Refineは『同じLLMが1出力を反復洗練する』単発タスク向け。Reflexionは『複数試行の失敗を記憶する』マルチエピソード向け。GTMでは単発生成物にSelf-Refine、顧客単位の長期戦略にReflexion。併用可。
Q. Promptbreeder (arXiv:2309.16797) は何アームのGAと等価?
タスクプロンプトと変異プロンプトの2集団を同時進化させるco-evolution構造で、単純GAの2〜5倍の探索効率。集団10〜50、世代20〜100で十分。トークンコストがO(集団×世代)で増える点が最大の運用課題。
Q. LLM自己改善系を本番で暴走させないためには?
3ゲート必須: (1) Static Gate(NG語・PII・虚偽検出)、(2) LLM-as-Judge Gate(別モデルで品質スコア閾値判定)、(3) Human Gate(新テンプレの初回使用は人間レビュー)。この3段を通ったものだけ本番に流す。
Q. DGM (arXiv:2505.22954) とAlphaEvolveはどちらを真似るべき?
AlphaEvolveはアルゴリズム発見寄り(Gemini Flash/Proアンサンブル)。DGMはエージェント自身のコードを書き換える自己参照性が特徴で、アーカイブ進化で stepping stones を明示保持。施策コード進化はAlphaEvolve寄り、エージェントアーキテクチャ全体の進化はDGM寄りで設計する。
Q. DGMを本番運用する上での安全機構は?
DGM論文が示す4点: サンドボックス実行、Web/外部API制限、全変更の系譜トラッキング、報酬ハッキング監視。加えて系統3のOPEゲートを最終関門として必ず通す。人間による月次アーカイブキュレーション会を制度化するのが実務上重要。
Q. EvoAgentX (arXiv:2508.07407 参照実装) は何を提供する?
マルチエージェント進化の足場(エージェント定義・進化ループ・評価パイプライン・アーカイブ管理・可視化)。ゼロから数ヶ月の実装が1〜2週間で立ち上がる。
Q. fitness関数を何に設定すべきか?
経営KPIに直結する値(CAC / Payback Period / LTV / Activation Rate / Time-to-Activation)に固定。モデル内部指標(Log-Loss, AUC)をfitnessにするとGoodhartの罠に陥る。
Q. 自己進化GTMで最初に失敗するパターンは?
(1) 下位層(L1バンディット+L3 OPE)が不安定なままL5のDGMに手を出して本番を壊す。(2) fitnessに中間指標を使い経営指標と乖離する。(3) ロールバック機構を作らず自動進化を始めてしまう。Crawl/Walk/Runの順序を守ることが最大のリスクヘッジ。
本稿の主張は以下の一次ソースに基づく。arXiv ID は機械可読な引用識別子として明示する。BibTeXキー相当の短縮記号を併記する。
| 短縮キー | 著者・年 | タイトル | 識別子 |
|---|---|---|---|
dgm2025 |
Zhang et al. 2025 | Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents | arXiv:2505.22954 |
sea2025 |
Fang et al. 2025 | A Comprehensive Survey of Self-Evolving AI Agents | arXiv:2508.07407 |
reflexion2023 |
Shinn et al. 2023 | Reflexion: Language Agents with Verbal Reinforcement Learning | arXiv:2303.11366 |
selfrefine2023 |
Madaan et al. 2023 | Self-Refine: Iterative Refinement with Self-Feedback | arXiv:2303.17651 |
promptbreeder2023 |
Fernando et al. 2023 | Promptbreeder: Self-Referential Self-Improvement via Prompt Evolution | arXiv:2309.16797 |
evoprompt2023 |
Guo et al. 2023 | EvoPrompt: Connecting LLMs with Evolutionary Algorithms | arXiv:2309.08532 |
mar2025 |
arXiv 2025 | Multi-Agent Reflexion Improves Reasoning Abilities in LLMs | arXiv:2512.20845 |
cpme2025 |
arXiv 2025 | Doubly-Robust Estimation of Counterfactual Policy Mean Embeddings | arXiv:2506.02793 |
cfdrl2025 |
MDPI Symmetry 17(4) | Dynamic Marketing Uplift: Causal Forests × DRL | doi.org/10.3390/sym17040610 |
criteoupliftbench2025 |
arXiv 2025 | Large-Scale Empirical Comparison of Meta-Learners and Causal Forests | arXiv:2604.06123 |
alphaevolve2025 |
DeepMind 2025 | AlphaEvolve: Algorithm discovery through evolutionary coding agents | DeepMind Blog (2025/5) |
linucb2010 |
Li et al. 2010 | A Contextual-Bandit Approach to Personalized News Article Recommendation | arXiv:1003.0146 |
thompson2012 |
Agrawal & Goyal 2012 | Analysis of Thompson Sampling for the Multi-armed Bandit Problem | arXiv:1111.1797 |