非凸ポテンシャル場における制約充足への遷移モデル

概要. 本稿では、非凸最適化問題における局所最適解からの脱出と、実行不可能制約の充足を実現するための厳密な数学的枠組みを提示する。多峰性ポテンシャル関数によって定義される勾配系において、大域的最小解がある吸引領域に捕捉され、特定の制約条件を満たせない状況を考える。本稿では、ガウス核関数を用いたポテンシャルの加法的変形（Additive Deformation）により、システムの状態をエネルギー的に有利かつ制約を満たす新たな領域へと遷移させる構成的手法を提案する。厳密ペナルティ関数（Exact Penalty Function）の理論に基づき、制約充足を保証する有限なペナルティパラメータの存在と、任意のエネルギー減少を達成するための変形パラメータの構成法を証明する。

1. 序論

大域的最適化において、目的関数が多峰性（multi-modal）を持つ場合、勾配法に基づく探索はしばしば局所最適解（local minima）に捕捉される。特に、目的とする解の性質（制約条件）が現在の吸引領域（Basin of Attraction）の外部にしか存在しない場合、局所的な探索では解に到達することは原理的に不可能である。 Ambrosetti と Rabinowitz による峠の補題（Mountain Pass Lemma）[1] は、このような状況下での鞍点の存在を示唆するが、具体的な脱出プロセスを構成的に与えるものではない。また、一般の非凸最適化において、厳密サドル（strict saddle）からの脱出や初期値依存性を理論的に分析する研究も近年充実しており [14, 15]、局所解への停留問題は依然として重要な課題である。

本研究では、ポテンシャル関数自体を動的に変形させるアプローチを採用する。これは、物理学における活性化プロセスや、機械学習におけるカリキュラム学習の概念を数理的に定式化したものと見なせる。具体的には、既存のポテンシャル関数に対して局所的な核関数（Kernel Function）を追加することで、現在の安定平衡点のエネルギー準位を相対的に上昇させ、大域的により好ましい、かつ制約を満たす新たな平衡点への遷移を誘導する。我々は、Han と Mangasarian による厳密ペナルティ関数 [2] の理論を拡張し、この遷移が数学的に保証される条件を導出する。

1.1 本研究の位置づけと貢献

本稿の立ち位置を簡潔に整理しておく。 Ambrosetti–Rabinowitz の峠の補題 [1] や Han–Mangasarian による厳密ペナルティ理論 [2] は、いずれも「存在」や「同値性」を与えるものの、どのようにポテンシャルを操作すれば実際に局所解の吸引領域から脱出し、制約を満たす新たな平衡点へ遷移できるかについては、具体的な構成を与えない。

本稿の貢献は、こうした既存理論を背景として、以下の 3 点を明示的に構成する点にある。

これにより、本稿は「非凸ポテンシャル場における局所解からの脱出」と「厳密ペナルティによる制約充足」とを 1 つのポテンシャル変形モデルとして統合し、機械学習や数値解析の応用においても直接実装可能な形で提示する。

2. 問題設定と定義

定義 2.1 (ポテンシャルエネルギー)

状態空間 $\R^n$ 上のポテンシャル関数 $\phi: \R^n \to \R$ を、有限個の核 $\{\mu_k\}_{k=1}^K \subset \R^n$ を持つガウス混合モデルの対数負尤度として定義する。 \[ \phi(x) := -\log\Big(\sum_{k=1}^K \alpha_k e^{-\|x-\mu_k\|^2}\Big) \] ここで、重み係数は $\alpha_k > 0, \sum \alpha_k = 1$ を満たすものとする。 $\phi$ は $C^\infty$級であり、下に有界である。

次に、現在のシステムでは実現不可能な制約条件を導入する。

応用例 2.5

ここで想定している設定は、機械学習における制約付き学習問題に自然に現れる。例えば、パラメータ $x$ によって決まる予測モデルの損失関数を $\phi(x)$ とし、同時に (i) 出力の安全性や公平性に関する制約、 (ii) 物理法則や保存則から導かれる構造的制約、 (iii) モデルのスパース性や単調性といった構造制約などを $C(x)\ge 0$ の形で表現すると、本稿の枠組みは「あるポテンシャルに従う学習ダイナミクスが、制約を破りながら局所解に捕らわれている状況」からスタートし、ペナルティ項や局所核を用いたポテンシャル変形によって「制約を満たす新たな平衡状態」へ誘導する手続きを与えるものと解釈できる。この意味で、本稿の議論は抽象的な連続力学系にとどまらず、制約付き学習アルゴリズムの設計指針としても利用可能である。

3. 厳密ペナルティとポテンシャル変形

ここで導入したペナルティ付きポテンシャル $\phi_\lambda$ は、物理的には「制約面 $C(x)=0$ から外れた領域に堅いエネルギー壁を築く」操作とみなせる。 $\lambda$ を大きくすると、制約違反の領域では急激にエネルギーが増大し、実行可能集合 $C(x)\ge 0$ の内部にのみ物理的に安定な状態が残る。後続の補題 3.2 は、この直感を厳密ペナルティ理論の言葉で形式化したものである。

ペナルティ関数の理論的基盤については、Han–Mangasarian [2] による古典的な厳密ペナルティ関数に続いて、その後の非微分・客観ペナルティ関数の系統的整理や、滑らかな厳密ペナルティ関数の構成も盛んに研究されている [5–8]。本稿の手法はこれらと整合的である。

補題 3.2 (大域的厳密ペナルティ)

$\phi : \R^n \to \R$ および $C : \R^n \to \R$ は連続微分可能であり、制約付き最小化問題 \[ \min\{\phi(x) : C(x) \ge 0\} \] は少なくとも 1 つの大域的解 $\bar{x}$ を持つとする。さらに、$\phi$ はコアシブであり、制約資格条件として Mangasarian–Fromovitz 条件（MFCQ）が制約付き大域解の集合上の各点で成立していると仮定する。このとき、ある閾値 $\lambda^* > 0$ が存在し、任意の $\lambda \ge \lambda^*$ に対して、ペナルティ付き関数 \[ \phi_\lambda(x) := \phi(x) + \lambda\,\Xi(x), \qquad \Xi(x) := \max\{0,-C(x)\} \] の大域的最小解はすべて制約 $C(x) \ge 0$ を満たし、かつ元の制約付き問題の大域的最小解と一致する。

証明証明の骨格を述べる。まず、$\phi$ のコアシブ性と連続性より、ペナルティ付き問題 $\min_x \phi_\lambda(x)$ は任意の $\lambda > 0$ に対して少なくとも 1 つの大域的解 $x_\lambda$ を持つ。一方、制約付き問題の任意の大域解 $\bar{x}$ に対しては $C(\bar{x}) \ge 0$ であるから $\Xi(\bar{x}) = 0$ が成り立ち、 \[ \phi_\lambda(\bar{x}) = \phi(\bar{x}) \] がすべての $\lambda > 0$ について成立する。次に、MFCQ の下で Karush–Kuhn–Tucker 条件が制約付き大域解の集合上で成立することを用いる。各制約付き大域解 $\bar{x}$ に対し、あるラグランジュ乗数 $\mu_{\bar{x}} \ge 0$ が存在して \[ \nabla \phi(\bar{x}) - \mu_{\bar{x}}\,\nabla C(\bar{x}) = 0, \qquad \mu_{\bar{x}}\,C(\bar{x}) = 0, \qquad C(\bar{x}) \ge 0 \] が成り立つ。制約付き大域解の集合は（コアシブ性の下で）有界閉集合となるので、その上で $\mu_{\bar{x}}$ の上限 \[ \mu^* := \sup\{\mu_{\bar{x}} : \bar{x} \text{ は制約付き大域解}\} \] をとることができる（有限であることは [2, §3] の議論と同様）。ここで任意に $\lambda^* > \mu^*$ を 1 つ選ぶ。あとは古典的な $L^1$ ペナルティの議論に従う。任意の $x$ に対し、もし $C(x) \ge 0$ であれば $\Xi(x) = 0$ なので $\phi_\lambda(x) = \phi(x)$ である。一方、$C(x) < 0$ の場合には $\Xi(x) = -C(x) > 0$ となり、適当な制約付き大域解 $\bar{x}$ との比較と KKT 条件を用いることで \[ \phi_\lambda(x) - \phi_\lambda(\bar{x}) \;\ge\; (\lambda - \mu^*)\,\Xi(x) \;>\; 0 \] が得られる（詳細は [2, Thm. 1] および [3, Chap. 4] を参照）。したがって、$\lambda \ge \lambda^*$ のときペナルティ付き問題のあらゆる大域的最小解は制約付き大域解と一致し、特に制約を満たす。 $\square$

次に、ポテンシャル関数自体を変形させ、目的の実行可能点へシステムを誘導する構成法を与える。

補題 3.3 (変形によるエネルギー降下)

任意の点 $x_0 \in \R^n$ と目標降下量 $\varepsilon > 0$ に対し、新たな核 $\mu_{new} := x_0$ と重み $\beta \in (0,1)$ を用いてポテンシャルを以下のように拡張する。 \[ \tilde{\phi}(x) := -\log\left( (1-\beta)e^{-\phi(x)} + \beta e^{-\|x-x_0\|^2} \right) \] このとき、$\beta$ を適切に選ぶことで、$\tilde{\phi}(x_0) \le \phi(x_0) - \varepsilon$ を達成できる。

注意 3.4

本稿におけるエネルギー準位ごとの盆地構造変形による大域解への接近という発想は、物理化学における分子クラスタの basin-hopping 法や自由エネルギーランドスケープのクラスタリング [9–11] とも密接に関連している。また、数理的には、損失関数をガウス畳み込みで平滑化し、カーネル幅を徐々に減らしながら元の問題に続接する “Gaussian continuation” の流れ [12, 13] とも解釈できる。

4. 主定理

定理 4.1 (制約充足遷移の存在)

仮定 2.3, 2.4 の下で、あるパラメータ $\lambda^* > 0$ とポテンシャル変形 $(\mu_{new}, \beta)$ が存在し、変形後のシステム $\tilde{\phi}_\lambda$ の大域的最小解 $\tilde{x}^*$ は以下を満たす。

エネルギー改善: $\tilde{\phi}_\lambda(\tilde{x}^*) < \phi(x^*)$
領域遷移: $\tilde{x}^* \notin \mathcal{B}(x^*)$
制約充足: $C(\tilde{x}^*) \ge 0$

証明補題 3.2 より十分大きな $\lambda$ を固定する。仮定 2.4 より実行可能点 $\bar{x}$ が存在し、そこではペナルティ項は消滅する（$\Xi(\bar{x})=0$）。この $\bar{x}$ を新たな核の中心 $x_0$ として採用し、補題 3.3 を適用する。十分な降下量 $\varepsilon$ を設定することで、 $\tilde{\phi}_\lambda(\bar{x}) = \tilde{\phi}(\bar{x}) < \phi(x^*)$ となるようにポテンシャルを変形できる。変形後の関数の大域的最小値は $\bar{x}$ での値以下となるため、元の最小値よりも真に小さくなる。また、補題 3.2 の帰結として、この新たな最小解 $\tilde{x}^*$ は制約を満たす。最後に、仮定 2.3 より制約を満たす点は元の吸引領域 $\mathcal{B}(x^*)$ には含まれないため、領域外への遷移が証明される。 $\square$

コメント 4.2 (既存の厳密ペナルティ理論との違い)

Han–Mangasarian の厳密ペナルティ理論 [2] は、制約付き最適化問題と $L^1$ 型ペナルティ付き問題との「解集合の同値性」に焦点を当てている。これに対して本稿の定理 4.1 は、勾配流の吸引領域 $\mathcal{B}(x^*)$ とポテンシャルの加法的変形を明示的に結びつけることで、 もともと実行不可能な大域的最小解 $x^*$ から制約充足解 $\tilde{x}^*$ への遷移 が実際にどのようなパラメータ操作で実現されるかを記述している。すなわち、厳密ペナルティが保証する「どこかに存在する制約付き大域解」に対し、本稿はガウス核を用いた局所的変形という具体的操作を通じて、エネルギー地形上での遷移メカニズムを構成的に与えている。

5. 結論

本稿では、非凸ポテンシャル場における大域的最小解が、実行不可能な局所領域に停留している場合において、ポテンシャルの加法的変形を用いることで、制約を満たすより低エネルギーな状態への遷移が可能であることを示した。この数理モデルは、最適化理論における「局所解からの脱出」と「制約充足」を統一的に扱う枠組みを提供するものである。今後の課題として、本稿で構成したポテンシャル変形スキームを具体的な数値最適化アルゴリズムや学習ダイナミクスに組み込み、標準的なベンチマーク問題に対して局所解からの脱出挙動や制約充足性能を数値実験により体系的に評価することが挙げられる。

参考文献

[1] A. Ambrosetti and P. H. Rabinowitz, "Dual variational methods in critical point theory and applications", J. Funct. Anal. 14, 1973.
[2] S. P. Han and O. L. Mangasarian, "Exact penalty functions in nonlinear programming", Math. Program. 17, 1979.
[3] D. P. Bertsekas, Nonlinear Programming, 3rd ed., Athena Scientific, 2016.
[4] J. Nocedal and S. J. Wright, Numerical Optimization, Springer, 2006.
[5] G. Di Pillo and L. Grippo, "Exact penalty functions for nondifferentiable programming problems", in Nondifferentiable Optimization, Springer, 1985.
[6] W. Huyer and A. Neumaier, "A new exact penalty function", SIAM J. Optim. 13(4), 1141–1158, 2003.
[7] R. Estrin et al., "Implementing a smooth exact penalty function for equality-constrained nonlinear optimization", arXiv:1910.04300, 2019.
[8] Z. Yan, X. Jiang and S. Wang, "Objective penalty function method for nonlinear programming with inequality constraints", AIMS Mathematics 9(12), 33572–33590, 2024.
[9] D. J. Wales and J. P. K. Doye, "Global optimization by basin-hopping and the lowest energy structures of Lennard-Jones clusters", 1998.
[10] A. M. Westerlund and L. Delemotte, "InfleCS: Clustering free energy landscapes with Gaussian mixtures", J. Chem. Theory Comput. 15(11), 6752–6762, 2019.
[11] C. Boy et al., "Energy landscapes for the quantum approximate optimization algorithm", Phys. Rev. A 109, 062602, 2024.
[12] A. F. Ilersich and P. B. Nair, "Deep learning with Gaussian continuation", Foundations of Data Science 7(3), 790–813, 2025.
[13] H. Mobahi and J. Fisher III, "A theoretical analysis of optimization by Gaussian continuation", AAAI, 2015.
[14] P. Cheridito, A. Jentzen and F. Rossmannek, "Gradient Descent Provably Escapes Saddle Points in the Training of Shallow ReLU Networks", J. Optim. Theory Appl. 203, 2617–2648, 2024.
[15] R. M. Bora and I. N. Kar, "Survey On Non-Convex Optimization Problem: A Comparative Analysis of Gradient Descent Based Techniques", preprint, 2025.