Thomas' Calculus - 多元函数及其微积分

多元函数及其导数

- Multivariable Functions and Their Derivatives

在学习概率论和统计学的时候,我们会发现多元函数乃是更自然的存在,在其它学科如流体动力学和电学等领域亦是如此。本章就是介绍多元函数的,值得庆幸的是,在多元函数的情形,微积分的法则本质上保持原样。我们需要了解同一时间里各个方向上的变化,但我们要做的无非是同时在各个方向上运用单变量微积分

多元函数

- Functions of Several Variables

许多函数依赖多于一个的自变量。如$f(x, y) = x^2 + y^2$表示抛物面在点$P(x, y)$上方的高度。

二元函数

定义:二元函数

假定$D$是有序实数对$(x, y)$的集合,$D$上的二元实函数$f$是一个规则,它对$D$中的每一个有序对指定唯一的一个实数$w = f(x, y)$,$D$为定义域,$w$的取值集合为值域

与一元函数相比,除了定义域略有不同,其它完全一致。

例:求函数的定义域和值域。

  • $w = \sqrt{y - x^2}$:定义域是$y \geq x^2$,抛物线上方区域;值域是$[0, \infty)$
  • $w = \sin xy$:定义域是全平面;值域是$[-1, 1]$

二元函数的定义域可以有内点边界点,这跟一元函数区间的情形相似。

定义:内点、边界点、开集合闭集

$xy$平面上的集合$R$的一个点$(x_0, y_0)$是$R$的内点,如果它是一个含于$R$内的圆盘的中心。一个点$(x_0, y_0)$是$R$的边界点,如果每个以$(x_0, y_0)$为中心的圆盘有不属于$R$的点,也有不属于$R$的点(边界点本身不要求属于$R$)。

注:理解时,可类比于区间的内点与端点。

一个集合的内点全体构成其内部,边界点构成其边界。如果一个集合完全有内点构成,则称它为开集,如果一个集合包含它的所有边界点,则称之为闭集

注:可类比于开区间、闭区间和半开半闭区间。

定义:有界集与无界集

一个平面集合是有界的,如果它包含在一个固定半径的圆盘里,否则是无界的

二元函数的图像和等位线

有两种标准化方法形象化一个函数$f(x, y)$的值。一是在定义域里标注$f$有同一个值的曲线,即等位线,二是在空间里画曲面(与一元函数的曲线相对应)。

此外,等高线与等位线类似,很多时候不作区别。典型的等高线应用是地图,它可以看作是定义在经度纬度实数对上的函数。

计算机作图

在$Mathematica$中,可使用$Plot3D$作图:

1
Plot3D[Sin[x] Sin[y]^2, {x, 0, Pi}, {y, 0, Pi}]

三元及多元函数

二元函数的概念可以自然地推广到三元的情形。我们无法在三维框架内表示四维空间,但可考虑使用等位面来观察其行为。

内部、边界、有界性等概念也可以推广到三元函数。

最后,以上诸概念可以推广到$n$元函数$w = f(x_1, x_2, \cdots, x_n)$的情形。

高维函数的极限和连续

- Limits and Continuity in Higher Dimensions

多元函数极限的定义类似于一元函数,但有一个颇重要的区别。

二元函数的极限

在一元函数的情形下,我们说$x$趋于某值,其意义是明确的,自变量沿着$x$轴向指定点靠近。二元情形下,“趋于”变得复杂,因为自变量可以从无数种可能的方向上靠近指定点。

定义:二元函数的极限

当$(x, y)$趋于$(x_0, y_0)$时,函数$f$有极限$L$,如果给定给定任意正数$\epsilon$,存在一个正数$\delta$,使得对所有在$f$定义域中且满足$0 < \sqrt{(x-x_0)^2 + (y - y_0)^2} < \delta$的点$(x, y)$有$|f(x, y) - L| < \epsilon$,写作

$$\lim_{(x, y) \to (x_0, y_0)} f(x, y) = L$$

看起来有些复杂,其实是完全等价于一元函数的情形,主要区别是,所考察的定义域范围由”区间“变为”圆盘“。另外,圆盘也可以换作”正方形“,即$0 < |x - x_0| < \delta, 0 < |y - y_0| < \delta$。

求一元函数时,需要考虑左、右两个方向,二元函数则需要多个不同的方向,若干不同方向(或曰路径)有不同的极限,那么函数极限不存在。这一点可作为判别法使用。

例:求函数$f(x, y) = \frac{2x^2y}{x^4+y^2}$趋于$(0, 0)$时的极限。

解:沿路径$y = kx^2, x \neq 0$,函数有常数值$\frac{2k}{1+k^2}$,这说明函数沿不同路径趋于$(0, 0)$有不同极限,故函数极限不存在。

极限性质

按惯例,常规的和、差、积、商、幂等法则都是适用的。

二元函数连续性

其定义与一元函数本质上是一样的,即函数在点$(x_0, y_0)$有定义,在该点极限存在,两者相等。

多于二元的函数

二元函数的极限、连续之定义,以及和、差、积、商、幂法则,以及复合函数的性质都可以推广到多于二元的函数。

有界闭集上连续函数的极值

一元连续函数在闭区间上的极值性质可以推广到多元连续函数的情形。在多元的情形下,闭集有多种不同的可能,在平面上,可以是线段、圆盘和填满的三角形等,在空间内,可以是球体、立方体或球壳等。

具体如何求解极值,在后面介绍了导数后会了解到。

偏导数

- Partial Derivatives

对于多元函数,如果我们固定一个自变量之外的自变量,仅对这一自变量求导,就得到偏(partial)导数

二元函数的偏导数

若$(x_0, y_0)$是函数定义域中一点,竖直平面$y = y_0$割曲面$z = f(x, y)$得到曲线$z = f(x, y_0)$。曲线在竖直平面内,成为关于$x$的一元函数,因此可以对其求出一般的导数。

定义:关于$x$的偏导数

在点$(x_0, y_0)$,$f(x, y)$对$x$的偏导数是

$\frac{\partial f}{\partial x} |_{(x_0, y_0)} = \frac{d}{dx}f(x, y_0)$

有时也记为$f_x(x_0, y_0)$。类似地,也可以定义$f(x, y)$对$y$的偏导数$f_y$。

现在来看,在$y = y_0$平面内,可由$f_x$找出过点$P(x_0, y_0, f(x_0, y_0))$的切线,在$x = x_0$平面内,可作出过$P$的另一切线,这两条切线确定的平面是否是函数曲面的切平面呢?这个问题的解答有赖于更多关于偏导数的知识。

注:函数对$x$和$y$的偏导数,可理解为函数在两个不同方向或路径上的切线斜率,因此两者的值不等就不足为怪了。

隐函数的偏导数

与一元函数的求解方法相同。

多于二元的函数

不管有几个自变量,所谓偏导数总是仅对一个自变量而言,因而本质上它可以理解为一元函数的导数。

偏导数与连续性

一个函数可以在一个点有对于$x$和$y$的偏导数,但在该点不连续,这与一元函数的情形不同。这个可以这么理解,偏导数仅说明了在两个方向上函数的变化特征,但连续性却包含了任意可能的方向。

二阶偏导数

对函数$f(x, y)$求导两次,就得到二阶导数。

$\frac{\partial^2f}{\partial x^2}$对$x$求导两次,$\frac{\partial^2f}{\partial x \partial y}$先对$y$求导,再对$x$求导。

定理:混合导数定理

若$f(x, y)$以及它的偏导数$f_x, f_y, f_{xy}, f_{yx}$定义在含点$(a, b)$的开集,且都在$(a, b)$连续,则

$$f_{xy}(a, b) = f_{yx}(a, b)$$

也就是说,在计算二阶混合导数时,可按任意次序微分,从而可以先选择较易进行的计算。

更高阶的偏导数

没有什么能够阻挡对更高阶偏导数的计算,而且它们依然遵循混合导数定理。

可微性

二元函数的可微性出发点不是差商,而是增量。一元函数中,当$x$从$x_0$改变到$x_0 + \Delta x$时,$f$的改变用等式

$$\Delta y = f’(x_0) \Delta x + \epsilon \Delta x$$

给出,其中当$\Delta x \to 0$时,$\epsilon \to 0$。

定理:二元函数的增量定理

假定$f(x, y)$的一阶偏导数在包含$(x_0, y_0)$的一个开集上有定义,并且$f_x$和$f_y$在$(x_0, y_0)$连续,则从$(x_0, y_0)$移动到$(x_0 + \Delta x, y_0 + \Delta y)$时引起的函数改变量$\Delta z$满足

$$\Delta z = f_x(x_0, y_0)\Delta x + f_y(x_0, y_0)\Delta y + \epsilon_1\Delta x + \epsilon_2\Delta y$$

其中,当$\Delta x, \Delta y \to 0$时,$\epsilon_1, \epsilon_2 \to 0$

定义:二元函数的可微性

一个函数$z = f(x, y)$在$(x_0, y_0)$是可微的,若$f_x(x_0, y_0)$和$f_y(x_0, y_0)$存在,且$\Delta z$满足

$$\Delta z = f_x(x_0, y_0)\Delta x + f_y(x_0, y_0)\Delta y + \epsilon_1\Delta x + \epsilon_2\Delta y$$

其中,当$\Delta x, \Delta y \to 0$时,$\epsilon_1, \epsilon_2 \to 0$。如果函数在定义域的每个点都是可微的,那么说函数是可微的

增量定理的推论:偏导数的连续性蕴含可微性

定理:可微性蕴含连续性

链式法则

我们可以在适当定义域内复合多变量函数,这跟建立单变量函数的复合一样。一元函数的链式法则表示为

$$\frac{dw}{dt} = \frac{dw}{dx} \frac{dx}{dt}$$

定理:二元函数的链式法则

若$w = f(x, y)$是可微的,而$x$和$y$是$t$的可微函数,则$w$是$t$的可微函数,并且

$$\frac{dw}{dt} = \frac{\partial f}{\partial x} \frac{dx}{dt} + \frac{\partial f}{\partial y} \frac{dy}{dt}$$

TODO:定理5的证明需要再看一遍。

注:该定理的记忆可按照树形图解,该方法也适用于更高维的函数。

定理:三元函数的链式法则

若$w = f(x, y, z)$是可微的,而$x$、$y$和$z$是$t$的可微函数,则$w$是$t$的可微函数,并且

$$\frac{dw}{dt} = \frac{\partial f}{\partial x} \frac{dx}{dt} + \frac{\partial f}{\partial y} \frac{dy}{dt} + \frac{\partial f}{\partial z} \frac{dz}{dt}$$

注意到这两个链式法则最后都是一元的,如果是多于一元的,那么将有关于偏导数的链式法则,比如$x, y, z$到$r, s$,然后求$w$关于$r, s$的偏导数。又或者是一对多的情况,从$x$到$r, s$,那么也可以求$w$关于$r, s$的偏导数。

链式法则确然是多才多艺的,如此结论还有证据,即它还可以简化隐函数求导过程。

隐函数求导法

假定$F(x, y)$是可微的,并且方程$F(x, y) = 0$定义$y$为$x$的可微函数。则在$F_y \neq 0$的点,

$$\frac{dy}{dx} = - \frac{F_x}{F_y}$$

证:令$w = F(x, y) = 0$,此时可定义$y = h(x), x = x$,这样可应用链式法则,从而

$$\frac{dw}{dx} = F_x\frac{dx}{dx} + F_y\frac{dy}{dx} = 0$$

这样证明了隐函数微分公式

链式法则小结

上面可以看到链式法则的不同应用场景,但它们都遵循同一个公式或思路。想象有一个树形结构,从因变量到中间变量再到自变量,为求得选定自变量的导数,从因变量开始,往下读树的每条路径到自变量,各条路径导数之和即为所求。

方向导数、梯度向量和切平面

- Directional Derivatives, Gradient Vectors, and Tangent Planes

如果我们看一下等高线地图,会发现河流都是垂直于等高线流动,即沿着最陡峭的路径流动。本节将分析为何大自然如此安排河流的走向。

平面内的方向导数

假定函数$f(x, y)$定义在$xy$平面的区域$R$内,$P_0(x_0, y_0)$是$R$中的一个点,而$u = u_1i + u_2j$是一个单位向量,则方程

$$x = x_0 + su_1, y = y_0 + su_2$$

过$P_0$且平行于$u$的直线的参数方程。我们通过计算在$P_0$的$df/ds$来求$f$在$P_0$沿方向$u$的变化率。

定义:方向导数

$f$在$P_0(x_0, y_0)$沿单位向量$u = u_1i + u_2j$的方向的导数是

$$(\frac{df}{ds})_{u, P_0} = \lim_{s \to 0} \frac{f(x_0 + su_1, y_0 + su_2) - f(x_0, y_0)}{s}$$

如果极限存在的话。方向导数又可以表示为$(D_uf)_{P_0}$

初次看到方向导数的定义会感觉比较抽象,因为里面涉及到一个单位向量,这似乎和目前为止所遇到的各种导数都不同。但其实本质并无不同。想一想偏导数的定义,当我们求$f_x$时,是固定$y$的值,求$f$关于$x$的导数,此时自变量沿着直线$y = y_0$变化,于是也可以说$f$沿着单位向量$u = i$的方向变化。这样偏导数就是一种特殊的方向导数了。另一方面,既然$f$可以沿着$y = y_0$变化,就也可以沿着其它方向变化,将方向以单位向量变化,就得到方向导数的定义了。可以说,方向导数推广了两个偏导数。

几何上,相当于以垂直于$xy$平面的一个平面切割曲面,求所得曲线在某点的导数。

方向导数的计算

对方向导数的定义应用链式法则,可以简化其计算

$$(\frac{df}{ds})_{u, P_0} = [(\frac{\partial f}{\partial x})_{P_0} i + (\frac{\partial f}{\partial y})_{P_0}j] \cdot [u_1 i + u_2 j]$$

这样就引出了梯度向量的概念。

梯度向量

定义:梯度向量或梯度

$f(x, y)$在点$P_0(x_0, y_0)$的梯度向量是由$f$在$P_0$的偏导数得到的向量

$\nabla f = \frac{\partial f}{\partial x} i + \frac{\partial f}{\partial y}j$

注意到,函数在一点的偏导数是固定值,故方向梯度是由函数与点本身确定的,与方向导数无关。

综上,得出如下结论:

定理:方向导数是点积

若$f(x, y)$在$P_0(x_0, y_0)$可微,则

$$(\frac{df}{ds})_{u, P_0} = (\nabla f)_{P_0} \cdot u$$

只要计算梯度向量与方向向量的点积即可。

方向导数的性质

$(D_uf)_{P_0} = (\nabla f)_{P_0} \cdot u = |\nabla f||u|\cos \theta = |\nabla f| \cos \theta$

其中$\theta$是向量与梯度向量的夹角,此公式揭示出以下性质:

  • 函数$f$当$\cos \theta = 1$时,或当$u$是梯度的方向时增加最快
  • 函数$f$当$\cos \theta = -1$时,或当$u$是梯度的反方向时减少最快
  • 正交于梯度的方向$u$是$f$变化率为零的方向,此时$\theta = \pi/2$,方向导数为0。

梯度和等高线的切线

若一个可微函数$f(x, y)$沿一条光滑曲线$r = g(t) i + h(t) j$取常数值$c$(从而该曲线成为函数的一条等高线(level curve)),有$f(g(t), h(t)) = c$,对$t$求导此等式两端并应用链式法则,得到

$$(\frac{\partial f}{\partial x} i + \frac{\partial f}{\partial y}j) \cdot (\frac{dg}{dt}i + \frac{dh}{dt}j) = 0$$

梯度向量正交于切向量$\frac{dr}{dt}$,于是它正交于切线。所以,我们的结论是$f$的梯度正交于过一点的等高线。

河流必须是以最快的方式往下流动的,而最快即沿着负梯度向量的方向,从而必然垂直于等高线。

既然如此,便可由梯度求得等高线的切线方程。过$P_0(x_0, y_0)$垂直于向量$Ai + Bj$的直线方程是

$$A(x - x_0) + B(y - y_0) = 0$$

故切线方程为

$$f_x(x_0, y_0)(x - x_0) + f_y(x_0, y_0)(y - y_0) = 0$$

梯度的代数法则

梯度计算满足若干代数法则,如和、差、积和商的梯度,对于积和商有:

  • $\nabla (fg) = f \nabla g + g \nabla f$
  • $\nabla (f/g) = \frac{g \nabla f - f \nabla g}{g^2}$

增量和距离

若要估计从点$P_0$到邻近的另外一点移动一个小的距离,函数变化有多少,通常会用到方向导数。在一元函数中,这种估计即是微分$df = f’(P_0)ds$,二元函数与此类似:

$$df = (\nabla f|_{P_0} \cdot u)ds$$

即方向导数乘以该方向上移动的距离。以平面之切片来看,完全是一元函数的样子。

三元函数

在三元函数例,梯度向量和方向导数有着完全一致的定义和性质。比如沿梯度增加最快,正交于梯度则方向导数为0。

切平面和法线

等位面$f(x, y, z) = c$在点$P_0(x_0, y_0, z_0)$的切平面是过点$P_0$正交于$\nabla|_{P_0}$的平面,曲面在$P_0$的法线是过$P_0$平行于$\nabla|_{P_0}$的直线。

这里的切平面对应于二元函数下的切线。切平面和法线的方程分别是:

$$f_x(P_0)(x - x_0) + f_y(P_0)(y - y_0) + f_z(P_0)(z - z_0) = 0$$

$$x = x_0 + f_x(P_0)t, y = y_0 + f_y(P_0)t, z = z_0 + f_z(P_0)t$$

线性化和微分

- Linearization and Differentials

一元函数的线性化和微分可以推广到多元函数。

二元函数的线性化

如果$z = f(x, y)$在$(x_0, y_0)$是可微的,那么由增量定理可知

$$\Delta z = f_x(x_0, y_0)\Delta x + f_y(x_0, y_0)\Delta y + \epsilon_1\Delta x + \epsilon_2\Delta y$$

当$\Delta x$和$\Delta y$足够小的时候,后两项可以忽略,这样就得到了线性化

定义:线性化、标准线性逼近

当函数$f$可微时,$f(x, y)$在点$(x_0, y_0)$的线性化是函数

$$L(x, y) = f(x_0, y_0) + f_x(x_0, y_0)(x - x_0) + f_y(x_0, y_0)(y - y_0)$$

逼近$f(x, y) = L(x, y)$是函数的标准线性逼近

可以看到,$L(x, y)$也是函数在该点的切平面,正如微分是一元函数的切线。

标准线性逼近的精确度

假定$L(x, y)$是可微函数$f$的线性化,那么此逼近的精确度是多少?它依赖于三个因素:

  • $\Delta x$
  • $\Delta y$
  • $f$在点附近用二阶导数的大小衡量的”弯曲程度“

由此得到如下结论:标准线性逼近的误差

若$f$在包含以$(x_0, y_0)$为中心的矩形$R$的开集上有连续的一阶和二阶导数,而$M$是$|f_{xx}|, |f_{xy}, |f_{yy}|$的值在$R$上的一个上界,则标准线性逼近带来的误差$E(x, y)$满足:

$$|E(x, y)| \leq \frac{1}{2}M(|x - x_0| + |y - y_0|)^2$$

全微分

以$L$线性化时,$\Delta L = f_x(x_0, y_0)\Delta x + f_y(x_0, y_0)\Delta y$,由此可得全微分之定义。

定义:全微分

如果我们从$(x_0, y_0)$移动到附近的点$(x_0 + \Delta x, y_0 + \Delta y)$,由此引起的线性化的变化

$$df = f_x(x_0, y_0)dx + f_y(x_0, y_0)dy$$

称为$f$的全微分。

全微分可用于了解函数对于自变量变化的敏感性。

对于两元的函数

二元函数中的线性化、全微分概念可以自然地推广到多于二元的函数。

极值和鞍点

- Extreme Values and Saddle Points

求多元函数的极值以及极值点是多元微分学的重要应用之一。在本节我们将讨论如何通过偏导数来解决此类问题。

闭有界区域上的状况

一元函数情形下,导数用于了解函数的极值点,极值只可能出现在端点和临界点。同时导数为零的点未必取到极值。比如,在拐点处没有极值。

二元函数呈现类似的情况。它的极值也是仅出现在区域边界点或两个偏导数为零的内点,或至少有一个偏导数不存在的点。对应于拐点的是鞍点

局部极值的导数判别法

二元函数有与一元函数类似的局部极大值与极小值概念,不再赘述。

局部极大值对应曲面的山峰,局部极小值则对应曲面的谷底。在这样的点,如果切平面是存在的,那么它必是水平的。局部极值判断的关键是一阶导数判别法

定理:局部极值一阶导数判别法

若$f(x, y)$在定义域的一个内点$(a, b)$有局部极大值或局部极小值,且一阶偏导数在该点存在,那么有$f_x = f_y = 0$

若求出该点的切平面,则是$z = f(a, b)$,这是曲面的水平切平面。

这样,二元函数$f(x, y)$仅有的极值点位置包括:

  • 在使$f_x = f_y = 0$的内点(即上面定理)
  • $f_x$和$f_y$的一个或两个不存在的内点
  • 定义域的边界点

前两类又称为临界点

鞍点

一个可微函数$f(x, y)$在一个临界点$(a, b)$取鞍点,如果在以$(a, b)$为中心的每个开圆盘内既存在点满足$f(x, y) > f(a, b)$,又存在点满足$f(x, y) < f(a, b)$。

例:函数$z = y^2 - x^2$在$(0, 0)$取到鞍点。

定理:局部极值的二阶导数判别法

假定$f$和它的一阶及二阶导数在以$(a, b)$为中心的一个圆盘内连续,且$f_x(a, b) = f_y(a, b) = 0$。

  1. 如果在$(a, b), f_{xx} < 0且f_{xx}f_{yy} - f_{xy}^2 > 0$,则$f$在该点取得局部极大值
  2. 如果在$(a, b), f_{xx} > 0且f_{xx}f_{yy} - f_{xy}^2 > 0$,则$f$在该点取得局部极小值
  3. 如果在$(a, b), f_{xx}f_{yy} - f_{xy}^2 < 0$,则$f$在该点取得鞍点
  4. 如果在$(a, b), f_{xx}f_{yy} - f_{xy}^2 = 0$,则判别法无法得出结论,需借助它法。

$f_{xx}f_{yy} - f_{xy}^2$称为函数的判别式,或$Hess$,有时以行列式的形式记忆之。

闭有界区域上的绝对最大值和最小值

与一元函数类似,分为三步:

  • 检查$R$的内点中的临界点
  • 检查边界点
  • 查看列表

拉格朗日乘子

- Lagrange Multipliers

有的极值问题,定义域约束在平面的某个特殊子集,比如一个圆盘或闭三角形区域,当然也可以有其它类型的约束。拉格朗日乘子是求函数约束极值的强有力的方法。

对于11.8例1中那样的问题,使用替换法可以解决,但并非最有效的方法。

拉格朗日乘子法

定理:正交梯度定理

假定$f(x, y, z)$在一个其内部含有以下曲线的区域内可微:

$$C: r(t) = g(t)i + h(t)j + k(t)k$$

若$P_0$是$C$上的点,在该点$f$取相对于$C$上其它值的局部最大值或最小值,则$\nabla f$在$P_0$正交于$C$。

推论:取消正交梯度定理中含$z$的项,则可得到关于二元函数的结果。

此定理是拉格朗日乘子法的关键。

拉格朗日乘子法:假定$f(x, y, z)$和$g(x, y, z)$是可微的,为求$f$在约束$g(x, y, z) = 0$下的局部最大值和最小值,就求$x, y, z, \lambda$,使它们同时满足

$$\nabla f = \lambda \nabla g, g(x, y, z) = 0$$

对于二元的情形,则去掉$z$即可。

几何解释:例3和例4中,通过等高线的运动来理解正交梯度定理和拉格朗日乘子法。

带两个约束条件的乘子法

此类问题可看作一个约束条件的推广。在一个约束的情形,两个梯度平行,两个约束的情形下,原函数之梯度在两个约束函数之梯度所决定的平面上,故而可表示为后两者的线性组合。

此时有非常美妙的几何解释,详见11.8图11.64。

带约束变量的偏导数

- Partial Derivatives with Constrained Variables

暂从略。

两个变量的泰勒公式

- Taylor's Formula for Two Variables

暂从略。