数学×矩阵的特征值和特征向量
设 $A$ 为 $n \times n$ 阶方阵,若存在常数 $\lambda$ 与 $n$ 维非零列向量 $X$ 使 $AX=\lambda X$ 成立,则称 $\lambda$ 为方阵 $A$ 的特征值,非零向量 $X$ 为 $A$ 的对应于 $\lambda$ 的特征向量。
由 $AX=\lambda X$ → $(A-\lambda E)X=0$。
此方程有非零解的充要条件是:$|A-\lambda E|=0$,即 特征多项式方程 :
\[\begin{vmatrix} a_{11}-\lambda & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22}-\lambda & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \dots & a_{nn}-\lambda \end{vmatrix} = 0\]$P_{A}(\lambda)$ 是高次的多项式,它的求根是很困难的。没有数值方法是通过求它的根来求矩阵的特征值。通常对某个特征值,可以用些针对性的方法来求其近似值。若要求所有的特征值,则可以对 $A$ 做一系列的相似变换,“收敛”到对角阵或上(下)三角阵,从而求得所有特征值的近似。
求矩阵 \(A=\left(\begin{array}{rr} 3 & -1 \\ -1 & 3 \end{array}\right)\) 的特征值与特征向量。
解得 $A$ 的两个特征值:$\lambda_1=4$,$\lambda_2=2$。
对应于 $\lambda_1=4$ 的基础解向量:\(\vec{P}_{1}=\left(\begin{array}{r}1 \\-1\end{array}\right)\)。
对应于 $\lambda_2=2$ 的基础解向量:\(\vec{P}_{2}=\left(\begin{array}{r}1 \\1\end{array}\right)\)。
幂法是一种迭代法。基本思想:把矩阵的特征值和特征向量作为一个无限序列的极限来求得。求按模最大特征值,即:
\[|\lambda|=\max _{1 \leq i \leq n}\left|\lambda_{i}\right|\]求按模最小特征值,即:
\[|\lambda|=\min _{1 \leq i \leq n}\left|\lambda_{i}\right|\]求实对称矩阵所有特征值和特征向量。
泰勒公式(Taylor's formula)是数学分析中的一个重要公式,用于在某一点附近用多项式逼近函数。它以英国数学家 布鲁克 · 泰勒(Brook Taylor) 命名,是 泰勒展开 (Taylor series expansion)的基础。
设 $ f(x) $ 在某点 $ x = a $ 处具有足够阶的导数,则可以用泰勒展开式表示它在 $ x $ 附近的近似值: \(f(x) = f(a) + f'(a)(x-a) + \frac{f''(a)}{2!}(x-a)^2 + \dots + \frac{f^{(n)}(a)}{n!}(x-a)^n + R_n\) 其中:
常见的泰勒余项形式是 拉格朗日型余项 : \(R_n = \frac{f^{(n+1)}(\xi)}{(n+1)!} (x-a)^{n+1}, \quad \text{ 其中 } \quad \xi \text{ 介于 } a \text{ 和 } x \text{ 之间 }\) 当 $ n \to \infty $ 且 $ R_n \to 0 $ 时,泰勒级数可以无穷展开,并 完全等于 原函数。
麦克劳林公式(Maclaurin's formula) 当 $ a=0 $ 时,泰勒公式化为: \(f(x) = f(0) + f'(0)x + \frac{f''(0)}{2!}x^2 + \dots + \frac{f^{(n)}(0)}{n!}x^n + R_n\) 这被称为 麦克劳林展开 (Maclaurin series)。
常见函数的泰勒展开
拉格朗日乘子法(Lagrange Multiplier Method) 是一种用于求解 带约束的最优化问题 (即在一定约束条件下找到目标函数的极值)的数学方法。它通过引入一个或多个 拉格朗日乘子(Lagrange Multipliers) 将约束合并到目标函数中,转换为无约束优化问题,从而求解。
假设有一个优化问题: \(\text{Maximize or Minimize } f(x, y)\) 在约束条件: \(g(x, y) = 0\) 下求解。
其中:
为了将约束条件合并到目标函数中,我们引入一个新的变量 $ \lambda $(拉格朗日乘子) ,定义 拉格朗日函数(Lagrange function) : \(\mathcal{L}(x, y, \lambda) = f(x, y) - \lambda g(x, y)\) 然后,我们通过求解 KKT 条件 (一阶必要条件)来找到极值点。
要找到极值点,需要解以下方程组: \(\begin{cases} \frac{\partial \mathcal{L}}{\partial x} = f_x - \lambda g_x = 0 \\ \frac{\partial \mathcal{L}}{\partial y} = f_y - \lambda g_y = 0 \\ g(x, y) = 0 \end{cases}\) 其中:
拉格朗日乘子法的几何直觉是:
例子: 求解函数 $ f(x, y) = x^2 + y^2 $ 在约束 $ x + y = 1 $ 下的最小值。
步骤:
所以, 在 $ x + y = 1 $ 的约束下,$ f(x, y) $ 的最小值是 $ \frac{1}{2} $ ,发生在 $ (x, y) = (\frac{1}{2}, \frac{1}{2}) $ 。
拉格朗日乘子法的核心思想:
这一方法广泛应用于 经济学、物理学、工程优化、机器学习 等领域,例如:
SVD(Singular Value Decomposition,奇异值分解)是矩阵分解的一种方法,适用于任何 $ m \times n $ 的实数或复数矩阵。其基本形式是:
\[A = U \Sigma V^T\]其中:
如果 $ A $ 是方阵且满秩,SVD 还可以用于计算矩阵的伪逆、条件数等重要性质。
马尔可夫不等式(Markov's inequality)是概率论中的一个基本不等式,用于估计随机变量取较大值的概率。其数学表达式如下:
设 $X$ 是一个非负的随机变量,且其数学期望 $E[X]$ 存在,则对于任意 $a > 0$,有: \(P(X \geq a) \leq \frac{E[X]}{a}\)
解释:
切比雪夫不等式(Chebyshev's Inequality) 描述了随机变量偏离其数学期望的概率上界。具体来说,对于任意随机变量 $ X $ (不一定服从特定分布),如果它的数学期望 $ \mathbb{E}[X] $ 存在,且方差 $ \text{Var}(X) $ 有限,则对于任意 $ k > 0 $,有:
\[P(|X - \mathbb{E}[X]| \geq k\sigma) \leq \frac{1}{k^2}\]其中,$ \sigma $ 是随机变量的标准差,即 $ \sigma = \sqrt{\text{Var}(X)} $。
直观理解 : 切比雪夫不等式给出了随机变量偏离其均值一定倍数的标准差的概率上限。它适用于任何具有有限方差的分布,即使该分布不是正态分布。例如,当 $ k = 2 $ 时,不等式表明随机变量至少偏离均值 2 倍标准差的概率不会超过 $ 1/4 $,即最多 25%。
应用 :
马尔科夫不等式
\[\begin{aligned} & P(X \geqslant a) \\ & =\int_a^{+\infty} f(x) d x \leqslant \int_a^{+\infty} \frac{X}{a} f(x) d x \\ & \text { 由于 } \mathcal{\text { E }}\left(\frac{x}{a}\right)=\int_{-\infty}^{a} \frac{X}{a} f(x) d x+\int_a^{+\infty} \frac{X}{a} f(x) d x \\ & \text { 所以 } P(x \geqslant a) \leqslant \int_a^{+\infty}-\frac{x}{a} f(x) d x \leqslant E\left(\frac{x}{a}\right) \\ & \text { 即 } P(X \geqslant a) \leqslant E\left(\frac{X}{a}\right)=\frac{E(X)}{a} \end{aligned}\]切比雪夫不等式
\[\begin{aligned} & P\{|X-E(x)| \geqslant \varepsilon\} \leqslant \frac{\delta^2}{\varepsilon^2} \\ & P\{|X-E(x)|<\varepsilon\} \geqslant 1-\frac{\delta^2}{\varepsilon^2} \\ & \text { 将 } \mid x-\mu \mid \text { 带入 } \text { 马尔科夫不等式 } \\ & P(|x-\mu|>\alpha) \leqslant \frac{E(|x-\mu|)}{\alpha} \\ & \text { 即 } P\left((x-\mu)^2 \geqslant a^2\right) \leqslant \frac{E\left((x-\mu)^2\right)}{a^2}=\frac{\sigma^2}{a^2} \end{aligned}\]https://onlinestatbook.com/stat_sim/sampling_dist/index.html 应用 在 n 重贝努里试验中,若已知每次试验事件 A 出现的概率为 0.75,试利用契比雪夫不等式估计 n, 使 A 出现的频率在 0.74 至 0.76 之间的概率不小于 0.90。
\[\begin{aligned} &\text { 设在 } n \text { 重贝努里试验中,事件 } A \text { 出现的次数为 } X \text { ,}\\ &\begin{aligned} & \text { 则 } \mathrm{X} \sim b(n, 0.75), \\ & E(X)=n p=0.75 n, D(X)=n p q=0.1875 n, \\ & \begin{aligned} \text { 又 } f_n(A)=\frac{X}{n} \quad \text { 而 } P\left\{0.74<\frac{X}{n}<0.76\right\}=P\{|X-0.75 n|<0.01 n\} \geq 1-\frac{0.1875 n}{(0.01 n)^2} & =1-\frac{1875}{n} \geq 0.90 \\ & \Rightarrow n \geq 18750 \end{aligned} \end{aligned} \end{aligned}\]