概要.
本稿では、非凸最適化問題における局所最適解からの脱出と、実行不可能制約の充足を実現するための厳密な数学的枠組みを提示する。
多峰性ポテンシャル関数によって定義される勾配系において、大域的最小解がある吸引領域に捕捉され、特定の制約条件を満たせない状況を考える。
本稿では、ガウス核関数を用いたポテンシャルの加法的変形(Additive Deformation)により、システムの状態をエネルギー的に有利かつ制約を満たす新たな領域へと遷移させる構成的手法を提案する。
厳密ペナルティ関数(Exact Penalty Function)の理論に基づき、制約充足を保証する有限なペナルティパラメータの存在と、任意のエネルギー減少を達成するための変形パラメータの構成法を証明する。
1. 序論
大域的最適化において、目的関数が多峰性(multi-modal)を持つ場合、勾配法に基づく探索はしばしば局所最適解(local minima)に捕捉される。
特に、目的とする解の性質(制約条件)が現在の吸引領域(Basin of Attraction)の外部にしか存在しない場合、局所的な探索では解に到達することは原理的に不可能である。
Ambrosetti と Rabinowitz による峠の補題(Mountain Pass Lemma)[1] は、このような状況下での鞍点の存在を示唆するが、具体的な脱出プロセスを構成的に与えるものではない。
また、一般の非凸最適化において、厳密サドル(strict saddle)からの脱出や初期値依存性を理論的に分析する研究も近年充実しており [14, 15]、局所解への停留問題は依然として重要な課題である。
本研究では、ポテンシャル関数自体を動的に変形させるアプローチを採用する。
これは、物理学における活性化プロセスや、機械学習におけるカリキュラム学習の概念を数理的に定式化したものと見なせる。
具体的には、既存のポテンシャル関数に対して局所的な核関数(Kernel Function)を追加することで、現在の安定平衡点のエネルギー準位を相対的に上昇させ、
大域的により好ましい、かつ制約を満たす新たな平衡点への遷移を誘導する。
我々は、Han と Mangasarian による厳密ペナルティ関数 [2] の理論を拡張し、この遷移が数学的に保証される条件を導出する。
1.1 本研究の位置づけと貢献
本稿の立ち位置を簡潔に整理しておく。
Ambrosetti–Rabinowitz の峠の補題 [1] や Han–Mangasarian による厳密ペナルティ理論 [2] は、
いずれも「存在」や「同値性」を与えるものの、
どのようにポテンシャルを操作すれば
実際に局所解の吸引領域から脱出し、
制約を満たす新たな平衡点へ遷移できるかについては、
具体的な構成を与えない。
本稿の貢献は、こうした既存理論を背景として、
以下の 3 点を明示的に構成する点にある。
-
厳密ペナルティと吸引領域の結合:
$L^1$ 型の厳密ペナルティ関数により
「制約付き大域解のみが大域的に残る」状況を作り出し、
それを勾配流の吸引領域の枠組みの中で解釈する。
-
局所核によるポテンシャル変形の構成:
ガウス核による加法的変形を通じて、
具体的にどの点のエネルギーをどれだけ持ち上げればよいか、
目標降下量 $\varepsilon$ をパラメータとして与える構成的手順を示す(補題 3.3)。
-
制約充足遷移の主定理:
上記 2 つを組み合わせることで、
初期の大域的最小解 $x^*$ が制約を満たさない場合でも、
ポテンシャル変形によって
「より低エネルギーかつ制約を満たす」新たな大域的最小解
$\tilde{x}^*$ への遷移が保証されることを定理 4.1 として示す。
これにより、本稿は「非凸ポテンシャル場における局所解からの脱出」と
「厳密ペナルティによる制約充足」とを 1 つのポテンシャル変形モデルとして統合し、
機械学習や数値解析の応用においても直接実装可能な形で提示する。
2. 問題設定と定義
状態空間 $\R^n$ 上のポテンシャル関数 $\phi: \R^n \to \R$ を、有限個の核 $\{\mu_k\}_{k=1}^K \subset \R^n$ を持つガウス混合モデルの対数負尤度として定義する。
\[
\phi(x) := -\log\Big(\sum_{k=1}^K \alpha_k e^{-\|x-\mu_k\|^2}\Big)
\]
ここで、重み係数は $\alpha_k > 0, \sum \alpha_k = 1$ を満たすものとする。
$\phi$ は $C^\infty$級であり、下に有界である。
$\phi$ の大域的最小解(Global Minimizer)を $x^* \in \argmin \phi(x)$ とする。
勾配流 $\dot{x} = -\nabla\phi(x)$ に関する $x^*$ の吸引領域 $\mathcal{B}(x^*)$ を以下で定義する。
\[
\mathcal{B}(x^*) := \left\{ x_0 \in \R^n : \lim_{t\to\infty} \Phi_t(x_0) = x^* \right\}
\]
ここで $\Phi_t$ はフロー写像である。
次に、現在のシステムでは実現不可能な制約条件を導入する。
制約関数 $C: \R^n \to \R$ に対し、現在の吸引領域内の全ての点は制約違反状態にあるとする。
\[
\forall x \in \mathcal{B}(x^*), \quad C(x) < 0
\]
制約 $C(x) \ge 0$ を満たす点 $\bar{x} \in \R^n$ が少なくとも一つ存在する。
仮定 2.3 より、必然的に $\bar{x} \notin \mathcal{B}(x^*)$ である。
3. 厳密ペナルティとポテンシャル変形
制約違反に対するペナルティ関数を $\Xi(x) := \max\{0, -C(x)\}$ とする。
ペナルティパラメータ $\lambda > 0$ に対し、評価関数を $\phi_\lambda(x) := \phi(x) + \lambda \Xi(x)$ と定義する。
ここで導入したペナルティ付きポテンシャル $\phi_\lambda$ は、
物理的には「制約面 $C(x)=0$ から外れた領域に
堅いエネルギー壁を築く」操作とみなせる。
$\lambda$ を大きくすると、制約違反の領域では急激にエネルギーが増大し、
実行可能集合 $C(x)\ge 0$ の内部にのみ
物理的に安定な状態が残る。
後続の補題 3.2 は、この直感を
厳密ペナルティ理論の言葉で形式化したものである。
ペナルティ関数の理論的基盤については、Han–Mangasarian [2] による古典的な厳密ペナルティ関数に続いて、その後の非微分・客観ペナルティ関数の系統的整理や、滑らかな厳密ペナルティ関数の構成も盛んに研究されている [5–8]。本稿の手法はこれらと整合的である。
$\phi : \R^n \to \R$ および $C : \R^n \to \R$ は連続微分可能であり、
制約付き最小化問題
\[
\min\{\phi(x) : C(x) \ge 0\}
\]
は少なくとも 1 つの大域的解 $\bar{x}$ を持つとする。
さらに、$\phi$ はコアシブであり、制約資格条件として
Mangasarian–Fromovitz 条件(MFCQ)が
制約付き大域解の集合上の各点で成立していると仮定する。
このとき、ある閾値 $\lambda^* > 0$ が存在し、任意の $\lambda \ge \lambda^*$ に対して、
ペナルティ付き関数
\[
\phi_\lambda(x) := \phi(x) + \lambda\,\Xi(x),
\qquad
\Xi(x) := \max\{0,-C(x)\}
\]
の大域的最小解はすべて制約 $C(x) \ge 0$ を満たし、
かつ元の制約付き問題の大域的最小解と一致する。
証明の骨格を述べる。
まず、$\phi$ のコアシブ性と連続性より、
ペナルティ付き問題 $\min_x \phi_\lambda(x)$ は任意の $\lambda > 0$ に対して
少なくとも 1 つの大域的解 $x_\lambda$ を持つ。
一方、制約付き問題の任意の大域解 $\bar{x}$ に対しては
$C(\bar{x}) \ge 0$ であるから $\Xi(\bar{x}) = 0$ が成り立ち、
\[
\phi_\lambda(\bar{x}) = \phi(\bar{x})
\]
がすべての $\lambda > 0$ について成立する。
次に、MFCQ の下で Karush–Kuhn–Tucker 条件が
制約付き大域解の集合上で成立することを用いる。
各制約付き大域解 $\bar{x}$ に対し、
あるラグランジュ乗数 $\mu_{\bar{x}} \ge 0$ が存在して
\[
\nabla \phi(\bar{x}) - \mu_{\bar{x}}\,\nabla C(\bar{x}) = 0,
\qquad
\mu_{\bar{x}}\,C(\bar{x}) = 0,
\qquad
C(\bar{x}) \ge 0
\]
が成り立つ。
制約付き大域解の集合は(コアシブ性の下で)有界閉集合となるので、
その上で $\mu_{\bar{x}}$ の上限
\[
\mu^* := \sup\{\mu_{\bar{x}} : \bar{x} \text{ は制約付き大域解}\}
\]
をとることができる(有限であることは [2, §3] の議論と同様)。
ここで任意に $\lambda^* > \mu^*$ を 1 つ選ぶ。
あとは古典的な $L^1$ ペナルティの議論に従う。
任意の $x$ に対し、もし $C(x) \ge 0$ であれば
$\Xi(x) = 0$ なので $\phi_\lambda(x) = \phi(x)$ である。
一方、$C(x) < 0$ の場合には $\Xi(x) = -C(x) > 0$ となり、
適当な制約付き大域解 $\bar{x}$ との比較と
KKT 条件を用いることで
\[
\phi_\lambda(x) - \phi_\lambda(\bar{x})
\;\ge\;
(\lambda - \mu^*)\,\Xi(x)
\;>\;
0
\]
が得られる(詳細は [2, Thm. 1] および [3, Chap. 4] を参照)。
したがって、$\lambda \ge \lambda^*$ のとき
ペナルティ付き問題のあらゆる大域的最小解は
制約付き大域解と一致し、特に制約を満たす。
$\square$
次に、ポテンシャル関数自体を変形させ、目的の実行可能点へシステムを誘導する構成法を与える。
任意の点 $x_0 \in \R^n$ と目標降下量 $\varepsilon > 0$ に対し、
新たな核 $\mu_{new} := x_0$ と重み $\beta \in (0,1)$ を用いてポテンシャルを以下のように拡張する。
\[
\tilde{\phi}(x) := -\log\left( (1-\beta)e^{-\phi(x)} + \beta e^{-\|x-x_0\|^2} \right)
\]
このとき、$\beta$ を適切に選ぶことで、$\tilde{\phi}(x_0) \le \phi(x_0) - \varepsilon$ を達成できる。
$Z_0 = e^{-\phi(x_0)}$ とする。拡張後のエネルギーは
$-\log((1-\beta)Z_0 + \beta)$ となる。
不等式 $-\log((1-\beta)Z_0 + \beta) \le -\log Z_0 - \varepsilon$ を $\beta$ について解くことで、
必要な重み $\beta$ が構成的に定まる。
$\square$
4. 主定理
仮定 2.3, 2.4 の下で、あるパラメータ $\lambda^* > 0$ とポテンシャル変形 $(\mu_{new}, \beta)$ が存在し、
変形後のシステム $\tilde{\phi}_\lambda$ の大域的最小解 $\tilde{x}^*$ は以下を満たす。
- エネルギー改善: $\tilde{\phi}_\lambda(\tilde{x}^*) < \phi(x^*)$
- 領域遷移: $\tilde{x}^* \notin \mathcal{B}(x^*)$
- 制約充足: $C(\tilde{x}^*) \ge 0$
補題 3.2 より十分大きな $\lambda$ を固定する。
仮定 2.4 より実行可能点 $\bar{x}$ が存在し、そこではペナルティ項は消滅する($\Xi(\bar{x})=0$)。
この $\bar{x}$ を新たな核の中心 $x_0$ として採用し、補題 3.3 を適用する。
十分な降下量 $\varepsilon$ を設定することで、
$\tilde{\phi}_\lambda(\bar{x}) = \tilde{\phi}(\bar{x}) < \phi(x^*)$ となるようにポテンシャルを変形できる。
変形後の関数の大域的最小値は $\bar{x}$ での値以下となるため、元の最小値よりも真に小さくなる。
また、補題 3.2 の帰結として、この新たな最小解 $\tilde{x}^*$ は制約を満たす。
最後に、仮定 2.3 より制約を満たす点は元の吸引領域 $\mathcal{B}(x^*)$ には含まれないため、領域外への遷移が証明される。
$\square$
5. 結論
本稿では、非凸ポテンシャル場における大域的最小解が、実行不可能な局所領域に停留している場合において、
ポテンシャルの加法的変形を用いることで、制約を満たすより低エネルギーな状態への遷移が可能であることを示した。
この数理モデルは、最適化理論における「局所解からの脱出」と「制約充足」を統一的に扱う枠組みを提供するものである。
今後の課題として、本稿で構成したポテンシャル変形スキームを具体的な数値最適化アルゴリズムや学習ダイナミクスに組み込み、標準的なベンチマーク問題に対して局所解からの脱出挙動や制約充足性能を数値実験により体系的に評価することが挙げられる。
参考文献
- [1] A. Ambrosetti and P. H. Rabinowitz, "Dual variational methods in critical point theory and applications", J. Funct. Anal. 14, 1973.
- [2] S. P. Han and O. L. Mangasarian, "Exact penalty functions in nonlinear programming", Math. Program. 17, 1979.
- [3] D. P. Bertsekas, Nonlinear Programming, 3rd ed., Athena Scientific, 2016.
- [4] J. Nocedal and S. J. Wright, Numerical Optimization, Springer, 2006.
- [5] G. Di Pillo and L. Grippo, "Exact penalty functions for nondifferentiable programming problems", in Nondifferentiable Optimization, Springer, 1985.
- [6] W. Huyer and A. Neumaier, "A new exact penalty function", SIAM J. Optim. 13(4), 1141–1158, 2003.
- [7] R. Estrin et al., "Implementing a smooth exact penalty function for equality-constrained nonlinear optimization", arXiv:1910.04300, 2019.
- [8] Z. Yan, X. Jiang and S. Wang, "Objective penalty function method for nonlinear programming with inequality constraints", AIMS Mathematics 9(12), 33572–33590, 2024.
- [9] D. J. Wales and J. P. K. Doye, "Global optimization by basin-hopping and the lowest energy structures of Lennard-Jones clusters", 1998.
- [10] A. M. Westerlund and L. Delemotte, "InfleCS: Clustering free energy landscapes with Gaussian mixtures", J. Chem. Theory Comput. 15(11), 6752–6762, 2019.
- [11] C. Boy et al., "Energy landscapes for the quantum approximate optimization algorithm", Phys. Rev. A 109, 062602, 2024.
- [12] A. F. Ilersich and P. B. Nair, "Deep learning with Gaussian continuation", Foundations of Data Science 7(3), 790–813, 2025.
- [13] H. Mobahi and J. Fisher III, "A theoretical analysis of optimization by Gaussian continuation", AAAI, 2015.
- [14] P. Cheridito, A. Jentzen and F. Rossmannek, "Gradient Descent Provably Escapes Saddle Points in the Training of Shallow ReLU Networks", J. Optim. Theory Appl. 203, 2617–2648, 2024.
- [15] R. M. Bora and I. N. Kar, "Survey On Non-Convex Optimization Problem: A Comparative Analysis of Gradient Descent Based Techniques", preprint, 2025.