Thomas' Calculus - 微分

托马斯微积分》,以前看过前八章,内容大致包括导数、积分和无穷级数。最近想更系统的学习数学分析,从本书开始,先补完后面几章,尤其是多元函数的微分和重积分,然后是科朗的《微积分和数学分析引论》,增强一下理论基础。

另外,edX上有公开课18.01.1x Calculus 1A: Differentiation,它源自更早的MIT 18.01 on OCW,后者在网易公开课上早已有翻译。大概浏览过一遍,其思路与托马斯微积分接近。从数学上来说强调直观理解,难度不算高,适合自学。但如果想获得关于微积分的坚实理论基础,托马斯微积分和公开课无疑是缺失了很多的。

所以这一关于微积分的系列文章,将从两种角度来了解微积分,先从托马斯微积分开始,之后是科朗的。

预备知识

  • 了解函数、参数方程的概念
  • 以函数或参数方程为现实世界的问题建立模型

直线

增量

定义:当平面上一个质点从一点移动到另一点,其坐标的纯改变或增量通过把终点坐标减去起点坐标而求得。从点$(x_1, y_1)$到$(x_2, y_2)$,其坐标增量为:

$$\Delta x = x_2 - x_1, \Delta y = y_2 - y_1$$

后面会多次看到“增量”的使用。

斜率(Slope)

每条非垂直的直线$L$都有斜率(垂直于$x$轴的就“不斜”了),若$(x_1, y_1)$和$(x_2, y_2)$是$L$上两点,那么$L$的斜率是:$\frac{\Delta y}{\Delta x}$。

斜率的直接意义是,$x$每行进单位距离时,高度的变化。又可以看做直线与横轴夹角的正切值,这也从另一方面说明垂直于横轴的直线没有斜率。

注意:斜率对于“导数”的定义有着根本的重要性,导数的几何意义即曲线在一点的切线斜率。

方程

  • 点斜式:$y = m(x - x_1) + y_1$
  • 斜截式:$y = mx + b$
  • 一般式:$Ax + By = C$,($A$和$B$不全为0)

点斜式和斜截式预设了斜率是存在的,一般式不是,但前两种使用起来更方便。

点$(a, b)$到直线$Ax + By = C$的距离是:$\frac{|Aa + Bb - C|}{\sqrt{A^2+B^2}}$

线性回归

可使用scikit-learn或R之类的工具。

函数与图形

函数

定义:从集合$D$到集合$R$的一个函数是对$D$中每个元素指定$R$中唯一确定的元素的一种规则

我最喜欢的数学家欧拉(Leonhard Euler)首先使用一种符号表示函数的方法:$y = f(x)$。这也是我们最熟悉的一种记法了。根据函数的定义,函数本质上由规则定义域决定,因为一旦二者确定,其值域也就确定下来了。这也符合自变量因变量两个名称的含义。

基本性质

  • 单调性:增函数、减函数
  • 奇偶性:奇函数、偶函数,注意两者图像之特征

分段函数

绝对值函数$y = |x|$定义如下:

$$[ f(n) =
\begin{cases}
-x & \quad \text{if } x < 0\
x & \quad \text{if } x \geq 0 \
\end{cases}
]$$

该函数定义颇简单,但可作为连续而不可导的基本示例。$|x|$等价于$\sqrt{x^2}$。绝对值相关的一个基本不等式是:$|a + b| \leq |a| + |b|$。

函数图像的移位

  • 水平移位:$y = f(x + h)$与$y = f(x)$的关系
  • 垂直移位:$y = f(x) + k$与$y = f(x)$的关系

复合函数

复合函数无处不在,毕竟基本函数就那么几个。

指数函数

在科学和工程应用中指数函数$y = a^x$特别重要。其中对自然、物理和经济现象的建模中用到的最重要的指数函数是自然指数函数$y = e^x$,后面将会看到为何该函数是”自然的“。

存款的复利是指数增长的一个例子,碳-14原子的衰减是放射性衰减的一个例子。

反函数与对数函数

如果一个函数是一对一的,那么可以定义其反函数,即原函数规则的。反函数与原函数的图像关于直线$y = x$对称。反函数与原函数的复合函数形成恒等式

指数函数的反函数称为对数函数。两个重要的恒等式:

$$a^{log_a x} = x, log_a a^x = x$$

对数的乘积法则、商法则、幂法则和换底公式都是很常用的。

速算技巧:70法则:$ln2 \approx 0.70$,如果连续复利率为$r\%$,那么其翻倍的年数为$\frac{70}{r}$。

三角函数

由于三角函数的周期性,很多自然发生的周期过程可以用三角函数建模,如脑电波、心跳、家用的电流与电压,有强烈的证据表明冰河期是周期性的,其周期为9万年到10万年。

进一步地,一个令人惊讶且优美的高等微积分的定理(哪一个呢?)说明,每个周期函数都可以表示为正弦与余弦的代数组合。

一般的三角函数的图像往往是基本三角函数的移位、伸缩、反射。

参数方程

有时候一条曲线不能用形如$y = f(x)$的形式表示,但可以借助于参数变量描述。

定义:如果$x$和$y$由$t$值的区间上的函数
$$x = f(t), y = g(t)$$
给出,那么由这些方程定义的点集$(x, y) = (f(t), g(t))$是一条参数曲线。方程称为曲线的参数方程

例:$x = acost, y = bsint, 0 \leq t \leq 2 \pi$,定义了一个椭圆。

极限和连续

极限无疑是微积分诸概念的基础,是微积分有别于初等代数与三角的诸多概念之一。

变化率和极限

平均变化率

运动物体在一段时间内的平均速度是我们熟悉的概念,应该在小学时就接触到了。以自由落体运动为例,物体位移与时间的关系为$y = \frac{1}{2}gt^2$。依此可知,物体在一段时间行进距离和平均速度。如果时间改变量$\Delta t$很小,那么我们可以认为物体在某一时刻的速度大致是多少。事实上,汽车时速表的瞬时速度(当前速度)即是以这种方式计算得来。

平均速度涉及到函数的平均变化率

定义:$y = f(x)$关于$x$在区间$[x_1, x_2]$上的平均变化率是:

$$\frac{\Delta y}{\Delta x} = \frac{f(x_2) - f(x_1)}{x_2 - x_1} = \frac{f(x_1+h) - f(x_1)}{h}$$

几何上,平均变化率就是割线的斜率。注意,这里数学上的平均变化率在几何上和物理上分别对应到了割线斜率和平均速度。那么瞬时速度对应到什么呢?由上面介绍可知,它的近似值是当$\Delta t$很小很小时的平均速度,但”很小很小“显然不是一个严谨的术语,要给出瞬时速度的严格定义,需要借助于极限的概念。

函数的极限

考虑下面函数在$x = 1$附近的性态:

$$f(x) = \frac{x^2 - 1}{x - 1}$$

此函数在$x = 1$处无定义,对于$x \neq 1$则可以简化为$f(x) = x + 1$,因此$f$的图形就是抠掉了点$(1, 2)$的直线$y = x + 1$。

尽管$f(1)$无定义,但我们仍可以说,当$x$充分靠近1时,函数值能够任意靠近2。换言之,不管你希望$f(x)$多么靠近,通过选择足够靠近1的$x$,就是可以做到的。由此例可引出一般的极限的非正式定义

设$f(x)$除了可能在点$x_0$没有定义外,在$x_0$的一个开区间内均有定义。如果对充分靠近$x_0$的$x$,$f(x)$能够任意靠近$L$,那么我们就说当$x$趋于$x_0$时$f$趋于极限$L$,记作:

$$\lim_{x \to x_0} f(x) = L$$

这里用到了充分靠近任意靠近这样的词,很不严谨,因此说是非正式定义,但我们通过上例可以得到直观的概念。值得特别注意的是,极限的判断与求值与$x_0$处是否有定义及值为多少没有任何关系。

极限的定义中,要求函数值要能够任意靠近某值,若当$x \to x_0$时,不能满足这一点,那么极限就不存在了。常见的几种情况是:

  • 函数跳跃:如单位阶梯函数、下取整函数
  • 函数无限增大:如$y = 1/x$
  • 振荡:如$y = sin \frac{1}{x}$

极限的正式定义

下面的定义说明充分靠近任意靠近的精确含义是什么:

设$f(x)$除了可能在点$x_0$没有定义外,在$x_0$的一个开区间内均有定义。我们说当$x$趋于$x_0$时$f$趋于极限$L$,记作:

$$\lim_{x \to x_0} f(x) = L$$

如果,对充分任何数$\epsilon > 0$,存在相应的数$\delta > 0$使得对所有满足$0 < |x - x_0| < \delta $的$x$,有$|f(x) - L| < \epsilon$。

如果选取的$\epsilon$非常小,那么$|f(x) - L| < \epsilon$意味着$f(x)$在某邻域内离$L$非常近,而“某邻域”有赖于找到相应的$\delta$。总之,不管你希望函数值离$L$多么近,总能找到$\delta$保证之,就可以确保极限是存在的,且值为$L$。

极限的求值与单侧极限

极限法则

通过图像和极限定义,我们可以求出一下简单函数的极限,如$y = c$,$y = x$。在此基础上,通过若干极限法则,我们可以求得更复杂函数的极限。这些法则是:若$\lim_{x \to c} f(x) = L$,$\lim_{x \to c} g(x) = M$

  • 和法则:$\lim_{x \to c} (f(x)+g(x)) = L + M$
  • 差法则
  • 积法则
  • 商法则:$\lim_{x \to c} \frac{f(x)}{g(x)} = \frac{L}{M}, if M \neq 0$
  • 幂法则:若$r$和$s$都是整数,$s \neq 0$,那么$\lim_{x \to c} f(x)^{\frac{r}{s}} = L^{\frac{r}{s}}$

通过这些法则,我们就立即了解了如何求得有理函数的极限(除了分母极限为$0$的情况)。对于分母为$0$的情况,一般先考虑能否消去零分母。

三明治(夹逼)定理

设在包含$c$在内的某个开区间中除$x = c$外所有的$x$,有$g(x) \leq f(x) \leq h(x)$,又设

$$\lim_{x \to c} g(x) = \lim_{x \to c} h(x) = L$$

那么,$\lim_{x \to c} f(x) = L$。

由此定理可求得:$\lim_{x \to 0} sin(x) = 0$,$\lim_{x \to 0} cos(x) = 1$

双侧极限

当$x \to c$时,若只查看在$c$一侧的$x$,则得到单侧极限,相应地上面所说的极限即双侧极限,两者的关系是:当$x \to c$时,函数$f(x)$有极限当且仅当$f$的左侧极限和右侧极限存在且相等。

例:$\lim_{x \to 0} \frac{sin \theta}{\theta } = 1$

与无穷有关的极限

无穷($\infty$)的记号并非表示它是一个实数,它用来描述函数的性态,即定义域或值域中的值会超过任意有限的界限。

当$x \to \pm \infty$时的极限

此时极限的定义与趋于某点是一致,只是此时寻找的不是某个邻域了。

另外,此时的极限也遵循与有限值相同的极限法则。

当$x \to \pm \infty$时有理函数的极限

当分子次数不大于分母次数时有极限,否则无。

水平和垂直渐近线:无穷极限

当函数图像愈来愈远离原点地移动时和某条固定直线见的距离趋于零时,我们说该图像渐进地趋于该直线,该直线是该图像的一条渐近线(即字面意思)。图像可在水平和垂直方向上移动,相应地有水平渐近线与垂直渐近线。

注意:这里是说图像移动,而非自变量。

例:函数$f(x) = \frac{1}{x}$,水平渐近线是$x$轴,垂直渐近线是$y$轴。

对于函数$f(x) = \frac{2 x^2 - 3}{7x+4}$,有$f(x) = (\frac{2}{7}x - \frac{8}{49}) - \frac{115}{49 * (7x+4)}$,左边部分所表示的直线是函数的一条斜渐近线

无穷极限的精确定义

无穷极限与有限极限有非常类似的正式定义,在此不再赘述。

连续性

现在对极限有了基本的认识。如果我们把考虑的极限限定在有界的极限上,并且关注该极限值与函数在该点函数值的关系,会得到什么有趣的结果呢?

在我们手绘函数图像时,会选择用一条不间断的、光滑曲线来表示。这里的不间断和光滑属于直观的感觉,同时也有其数学基础。先看不间断的,所谓不间断,我们就假设了函数是连续的,即函数的取值不会发生跳跃。

在经典力学领域内,连续函数是最主要的一类函数,在如此大的尺度下,我们足可以认为函数是连续的。但在量子力学和计算机科学内就不如此了。无论如何,连续函数都是具有重要意义的一类函数。函数在一点的连续性是如下定义的:

函数$f(x)$在其定义域的内点$c$处是连续的,如果:

$$\lim_{x \to c} f(x) = f(c)$$

端点处的定义类似,只需要双侧极限替换为单侧极限。(实际上,不管是内点还是端点,我们都可以考虑其单侧连续性,此时称为左连续或右连续)

上述为函数在内点与端点的连续性定义。此定义符合我们的直觉,若函数在$c$点有极限,那么函数值在该点附近靠近其极限值,如果极限值不等于函数值,那么必然就出现了跳跃情况。另外,此定义也给出了检验函数连续性的基本方法。

间断点

如果函数$f$在点$c$处不是连续的,我们就说$f$在$c$间断,而$c$是$f$的一个间断点。间断点有如下几种情况:

  • 可去间断点:如果改变在该点的函数值,函数就变为连续的了,故曰可去。可去间断点又有两种情况,一是函数值无定义,一是函数值不等于极限值。
  • 跳跃间断:函数出现了跳跃,单侧极限都存在但不相等,故极限不存在
  • 无穷间断:此时极限不存在
  • 振荡间断:此时极限不存在

连续函数

函数在一个区间上连续当且仅当它在该区间的每一点连续。连续函数是在定义域内每一点连续的函数。

我们最熟悉的那些函数(多项式函数、有理函数、三角函数、反三角函数、指数函数、对数函数)都是连续函数,从中学就开始接触这些函数,并不令人意外:)

连续函数的反函数也是连续函数,这一点从图像的对称性可以得知。另外,它们也有自然的运算法则。

连续函数的复合函数也是连续函数。

连续函数的中间值定理

在区间上连续的函数具有在数学上和应用中特别有用的性质。其中之一是中间值性质——连续函数的中间值定理

在闭区间$[a, b]$上连续的函数一定取到$f(a)$和$f(b)$之间的每一个值。

几何上,用一支笔不离开纸面从$a$画到$b$,连续性保证函数值不会跳跃,从而画出的线是不间断的,这一点称为连通性。也可以说,在数$f(a)$和$f(b)$之间与$y$轴相交的任何水平直线$y = y_0$与曲线$y = f(x)$至少相交一次。

某些情况下,这一点也可以用来判断方程根的存在性。看下面的例子:

不动点定理:设函数$f$在闭区间$[0, 1]$上连续并且对$[0, 1]$上任一点有$0 \leq f(x) \leq 1$,试证明$[0, 1]$中一定存在一点$c$使得$f(c) = c$($c$称为$f$的不动点)

证明:令$g(x) = f(x) - x$,考察$g(0)与g(1)$的值,以及何处有零点。

切线

在第一节曾从图像上简单地讨论过曲线的割线与切线,彼时我们通过割线斜率的极限来求得曲线的切线斜率。

什么是曲线的切线?

如果是初次接触“曲线的切线”这一说法,也许你会想到的是中学里圆的切线。圆的切线垂直于过切点的半径(或者说切点与曲线中心的连线),与圆恰好有一个交点,而且切线位于圆的一侧。但对于一般的曲线来说,上述三个特点不足以表达切线的含义。

就是说,满足上述某一特点的未必是切线,反过来一条切线未必满足上述特点。那么,怎样定义一般曲线的切线呢?回想1.1中提到的平均速度和瞬时速度,这里以同样的思路考察割线之变化,其斜率的极限就是切线斜率。

历史求曲线的切线这个问题是17世纪早期首要的数学问题。光学中,切线决定着光线射入弯曲的镜头的角度;力学中,切线揭示了物体沿其运动路径每一点的运动方向。

切线的定义

现在看上面所说从割线斜率到切线斜率,有如下定义:

曲线$y = f(x)$在点$P(x_0, f(x_0))$的斜率是数:

$$m = \lim_{h \to 0} \frac{f(x_0 + h) - f(x_0)}{h},若该极限存在$$

从而有,曲线在点$P$的切线是过点$P$且以$m$为斜率的直线。

上面极限的函数表示的就是过点$P$的割线的斜率,当$h$趋于零时,如果极限存在,我们就认为它是切线的斜率。

例:如果我们把此定义应用在直线$y = mx +b$上,那么会得到,过直线上一点的切线就是其自身。首先从切线定义来看,这是自然的结果;另外,若从割线斜率之变化来看,割线的斜率等于直线自身的斜率,也就是说上面的极限中,所求的乃是一个常数函数的极限,其结果就是常数本身,也就是直线自身的斜率。

需要注意的是,切线定义中的极限里,变化的是$h$(也就是自变量的增量)而不是自变量本身,即我们关心的增量变化时的结果,这在初次接触时可能会觉得有点绕。我们把$x$作为固定下来的常量,把增量作为自变量,就很自然了——这只是一个普通的函数极限求值。

变化率:在一点的导数

表达式

$$\frac{f(x_0 + h) - f(x_0)}{h}$$

称为$f$在$x_0$处增量为$h$的差商。如果$h \to 0$时差商有极限,那么该极限就称为$f$在$x_0$的导数。如果我们把差商解释为割线的斜率,那么导数就给出了函数在$x = x_0$处曲线的斜率切线的斜率。如果把差商解释为1.1中讨论过的平均变化率,那么导数就给出了函数在$x = x_0$处关于$x$的变化率。而如果把差商解释为平均速度,那么导数就给出了物体在一时刻的瞬时速度。

此时,我们应该能感觉到导数的重要性,它是微积分所考虑的两个最重要的对象之一,另一个是积分

习题

给$0^0$指定值:指数法则告诉我们如果$a$不等于$0$,那么$a^0 = 1$,如果$n$是正数,那么$0^n = 0$,那么$0^0$的值应该是什么比较合理呢?

提示:方法1:计算当$x$趋于$0$时,$x^x$如何变化;方法2:做函数$y = x^x$的图形,比如在Mathematica中,然后考虑连续性。

只在一点连续的函数:设有函数定义如下

$$[ f(x) =
\begin{cases}
x & \quad \text{如果 } x \text{ 是有理数}\
0 & \quad \text{如果 } x \text{ 是无理数}\
\end{cases}
]$$

那么,函数只在$x = 0$处连续。

狄利克雷(Dirichlet)直尺函数:$f(x)$定义域为$[0, 1]$,且定义为

$$[ f(x) =
\begin{cases}
\frac{1}{n} & \quad \text{如果 } x = \frac{m}{n},以最低项表示的有理数 \
0 & \quad \text{如果 } x \text{ 是无理数}\
\end{cases}
]$$

那么,$f$在每个有理数处间断;$f$在每个无理数处连续。

小结

本章先是定义了极限,借助于极限我们可以考察函数在趋于某个值(或$\pm \infty$)时变化的趋势。很重要的一点是,这里不止是趋势,它最终还是一个确定的数值。要定义出这个数值,我们需要实数连续统,加之严格的极限定义,如此方可确信我们确实拿到了一个有效定义的数值。

有了极限,考察函数在趋于一点时的变化趋势——即它的极限——与函数值本身的关系,我们得到的是连续性的概念。通过连续性可以考察函数值变化的性态。

然后考察平均变化率(或割线斜率/平均速度)的极限,便得到瞬时变化率(或切线斜率/瞬时速度)。瞬时变化率称为导数,导数与它在几何和物理上的解释都是极为基础和重要的。

导数

作为函数的导数

导函数

导数定义在函数定义域内的一点上。对于导数存在的一点来说,可认为是定义了从$x$到其导数的一个映射,或者说一个函数,这个函数称为导函数

$$f’(x) = \frac{f(x+h) - f(x)}{h}$$

计算导数的过程称为微分。如果在一点$x$处$f’$存在,我们就说$f$在$x$是可微的(有导数)。如何函数$f$在定义域内每一点都可微,那么就说$f$是可微的。

记号

记号$f’(x)$来自于牛顿,$\frac{dy}{dx}$来自于莱布尼兹。

常见函数之导函数

$f$定义了与$x$的对应关系,那么理论上可由此得出$f’$与$x$的对应关系,而无须逐一求值。

  • 常数函数$f(x) = c$,$f’(x) = 0$,常数函数的变化率为0,在任一点的”切线“斜率为0。
  • 正整数幂函数:$\frac{d}{dx} x^n = n x^{n-1}$
  • 乘常数法则:$\frac{d}{dx} (cu) = c \frac{du}{dx}$
  • 导数和法则

区间上的可微性

与连续性一样,我们同样可考察函数在一个区间上的可微性,并且在端点上可以判断其单侧导数。

例:绝对值函数$y = |x|$在$x = 0$处不可微。其图像说明此处有一”角“,那么在该点没有切线,故不可微。因此可微性是一种”光滑性“条件

可微与连续

可以证明:可微性蕴含着连续性

该结论同时也给出了一个函数不可微的一种原因:不连续。

函数在一点不连续的情形:

  • 角点:单侧导数不相等
  • 尖点:一侧趋于$\infty$,另一侧趋于$-\infty $
  • 垂直切线:(无斜率)
  • 间断:不连续

导数的中间值性质

中间值定理:如果$a$和$b$是$f$在其上可微的区间中的两个点,那么$f’$一定取到$f’(a)$和$f’(b)$中间的每个值。

该定理实际上是对导函数做出了限定,这意味着并非每个函数都能成为某个的导函数。这个中间值定理看起来与连续函数的中间值定理颇相关,至于连续函数、导函数与原函数的关系,等后面学习积分时能了解到。

二阶与高阶导数

导函数可看作函数的一阶导数,而一阶导数作为函数,亦有自己的函数,成为二阶导数,以此类推。

作为变化率的导数

瞬时变化率

定义:瞬时变化率就是导数

$$f’(x_0) = \lim_{h \to 0} \frac{f(x_0 + h) - f(x_0)}{h}$$

倘若该极限存在。

习惯上,即使$x$不表示时间,我们也说瞬时变化率。同时,常常将“瞬时”二字略去,当我们说变化率时,就是在说瞬时变化率。

例:圆面积$A$和直径的关系由方程$A = \frac{\pi}{4} D^2$表示,当直径为10米时,面积关于直径的变化率有多大?

考虑面积关于直径的平均变化率,它表示当直径增加1个单位长度时,面积的增量。而关于一点的变化率,则是其极限情况。后面学习线性近似时会了解到此变化率的作用。

直线运动

  • 位移:$s = f(t)$
  • 速度:$v(t) = \frac{ds}{dt} = \lim_{\Delta t \to 0} \frac{f(t + \Delta t) - f(t)}{\Delta t}$,速度除了告诉我们速率,还告诉我们方向。
  • 速率:速度的绝对值
  • 加速度:$a(t) = \frac{dv}{dt}$
  • 急推:$j(t) = \frac{da}{dt}$

急推是位移函数的三阶导数。这意味着,对于自由落体运动来说,急推为0。

经济学中的导数

工程师用速度和加速度描述运动,经济学家则用边际来指称他们的变化率。生产的边际成本是成本关于生产水平的变化率。若产品成本$c(x)$是所生产单位产品数量$x$的函数,边际成本是$\frac{dc}{dx}$。

有时把生产的边际成本近似为多生产一个单位产品的超值成本:

$$\frac{\Delta c}{\Delta x} = \frac{c(x+1) - c(x)}{1}$$

注:经济学家一般用低次的多项式来说明成本和收入这样复杂的现象。这是一种权衡,三次多项式容易处理,又不至于过于简单。考虑奥卡姆剃刀。

积、商以及负幂的导数

2.1里给出了导函数的定义,从而可以从整体上求得导函数,不需要逐点计算。本节将给出几个导数的运算法则,进一步简化导函数之求解。

  • 积法则:$\frac{d}{dx} (uv) = u \frac{dv}{dx} + v \frac{du}{dx}$
  • 商法则:$\frac{d}{dx} (\frac{u}{v}) = \frac{v \frac{du}{dx} - u \frac{dv}{dx}}{v^2}$
  • 负整数次幂法则:$\frac{d}{dx} (x^n) = n x^{n-1}$,可由商法则证明
  • 倒数法则:$\frac{d}{dx} (\frac{1}{v}) = - \frac{1}{v^2} \frac{dv}{dx}$

三角函数的导数

使用极限定义、弧度、和角恒等式和导数法则,我们能求得六个三角函数的导数。

  • $\frac{d}{dx} (sinx) = cosx$
  • $\frac{d}{dx} (cosx) = -sinx$
  • $\frac{d}{dx} (tanx) = sec^2x$
  • $\frac{d}{dx} (secx) = secx \quad tanx$
  • $\frac{d}{dx} (cotx) = -csc^2x$
  • $\frac{d}{dx} (cscx) = -\csc x \cot x$

简谐运动

在弹簧或蹦极绳索端点的物体的上下自由摆动就是简谐运动的一个例子。

链式法则

用定义求导数可能会很繁琐,各个导数法则大大简化了某些求导,但这些法则只是针对函数间的四则运算。现在来学习非常强大有效的链式法则

例:函数$y = 6x - 10 = 2(3x-5)$是函数$y = 2u$和$u = 3x - 5$的复合函数,于是$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$。

此公式在一般情况下是否成立?答案是肯定的。导数表示变化率,$y$和$u$对复合函数的变化率都有贡献。直观上,$\frac{dy}{du}$是建立在$\frac{du}{dx}$基础之上的。

链式法则即是:

$$(f \circ g)’(x) = f’(g(x)) \cdot g’(x)$$

或以莱布尼兹的记号:

$$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$$

简单的理解是,先把$u$看作自变量求导,再乘以$u’$。

参数化曲线的斜率

$$\frac{dy}{dx} = \frac{dy/dt}{dx/dt}$$

隐函数微分法

方程$x^3 + y^3 - 9xy = 0$的图像称为叶形线,在1638年由笛卡尔所作。它确定的不是一个函数,但该曲线可以分割为几条弧线,每条都是$x$的函数的图像。

在曲线上的每一点,我们都可以求其切线斜率(或导数),而且并不需要求出一个显式的函数解析式。我们使用的是各个求导法则与链式法则。这种求解导数的过程称为隐函数微分法

例:若$y^2 = x$,求$dy/dx$。

我们可以求出$y$的显式解析式,这样得到两个函数,再分别求导。不过这里还是看一下如何隐式地求导。首先需要明确的是,无论是否有显式解析式,$y$都是$x$的函数。所以$y^2$就是一个复合函数了,对方程两边求导有:

$$2y \frac{dy}{dx} = 1$$

$$\frac{dy}{dx} = \frac{1}{2y}$$

就是这么简单。

类似地,隐函数也可以定义和求解其高阶导数。

相关变化率

链式法则与隐函数微分法之应用。

小结

先由极限给出导数的定义,然后导数有其重要的几何、物理意义,同时导数在各领域都有重要应用,比如经济学。可微着蕴含着连续性。各个求导法则与链式法则、隐函数微分法结合起来,我们已经能够求出很多函数的导数。

导数的应用

已经看到许多导数的应用,本章将会继续给出导数应用的例子。

函数的极值

导数的最重要应用之一是求函数的极值。中学时一般用函数的单调性和基本的不等式来求极值,很快就可以看到,使用导数要简单得多。

绝对极值

定义:绝对极值

设$f$是定义域为$D$的函数,$c \in D$,则$f(c)$是

  • $f$在$D$上的绝对最大值,当且仅当对一切$x \in D$,有$f(x) \leq f(c)$
  • $f$在$D$上的绝对最小值,当且仅当对一切$x \in D$,有$f(x) \geq f(c)$

绝对最大值和最小值也称为绝对极值,绝对之意为全局的。”绝对“两字常常省去。

例:$f(x) = \sin x$在$[-\pi/2, \pi/2]$上有最大值1,最小值-1。

一般来说,一个函数在一个区间上,可能没有最大值或最小值。但对于有限闭区间上的连续函数来说,其最大值和最小值是必然存在的。这就是连续函数的极值定理。该定理的证明需要用到实数连续统的知识。

相对极值

与绝对极值相对应的是相对极值,所谓相对是说该极值仅对于邻近的某开区间而言,不需要是全局上的极值。

绝对极值必然也是相对极值,所以我们要求绝对极值,可以列出所有的相对极值,再从中选择。

求极值

局部极值定理:如果函数$f$在定义域的内点$c$点取得局部极值,又若其导数存在,那么$f’(c) = 0$。

如果函数在某内点取得极值,且在该点可导,那么其导数为0。那么考虑区间上所有的点,取得局部极值的点只可能是:

  • 使$f’ = 0$的内点(内点,可导)
  • 不可导的内点(内点,不可导)
  • 端点

由本节提到的两个定理,连续函数极值定理保证极值是存在的,局部极值定理说明到哪里去寻找极值。

又,如果函数在一点导数为0或导数不存在,那么该点成为临界点(Critical Point)。

综上,若有极值,那么只能在临界点和端点出取到。需要特别注意的是,临界点和端点处不一定取得极值。

中值定理和微分方程

现在已经了解如何由运动物体的位置函数求得其速度与加速度。但是,如果我们只知道加速度,能否回过来求得其速度与位置函数呢?

这里的问题是,什么样的函数可以有另一个函数作为自己的导数?什么样的位置函数其导数恰好是给定的速度函数?中值定理的推论给出了答案。中值定理把函数在区间上的平均变化率和该区间内一点处的瞬时变化率联系起来。

罗尔(Rolle)定理

假设$y = f(x)$在$[a, b]$的每一点上连续,又假设在$(a, b)$上每一点可微,如果$f(a) = f(b) = 0$,那么$(a, b)$中至少有一个数$c$,$f’(c) = 0$。

如果做出这样一个函数的图像,会发现这个定理相当符合我们的直观。

证:闭区间上的连续函数必有绝对极值。极值点只可能在临界点和端点,而内点皆可微,故极值点只有两种可能:

  • 可微的内点:此内点满足所需
  • 端点:这意味着该函数在区间上为常数函数,故每一内点皆满足所需。故得证。

中值定理(The Mean Value Theorem)

如果函数仍满足罗尔定理的假设,即闭区间连续,内点可微,那么有什么结论呢?这就是主要的中值定理(好像有好多的中值定理):

假设$y = f(x)$在$[a, b]$的每一点上连续,又假设在$(a, b)$上每一点可微,那么$(a, b)$中至少有一个数$c$,使得$f’(c) = \frac{f(b) - f(a)}{b - a}$。

证:等式的右边是函数在区间上的平均变化率。如罗尔定理一样,作一个函数的图像观察一下,发现它很像倾斜了的罗尔定理。那么把它摆正试试看。

中值定理是说,函数在区间内至少有一点的瞬时变化率等于区间上的平均变化率。物理上即是说,某一刻的速度必然等于平均速度。直观上想一想:物体从一点运动到另一点,速度在变化之中,或快或慢,那么平均速度将是最快速度与最慢速度之间,同时物体的速度也不会发生跳跃式变化,从而必然在某时刻恰好等于平均速度。

中值定理的推论(Corollary)

推论1:如果在区间$I$的每一点上$f’(x) = 0$,那么对$I$上的一切$x$有$f(x) = C$,其中$C$是常数。

推论2:如果在区间$I$的每一点上$f’(x) = g’(x)$,那么存在常数$C$,使得对$I$中一切$x$,$f(x) = g(x) + C$成立。

具有相同导函数的函数必然仅相差一个常数

微分方程以及抛射体的高度

微分方程(Differential Equation)就是把未知函数及其一个或多个导数联系在一起的方程,一个函数称为微分方程的一个

例:$y = - \cos t + 3$是微分方程$dy/dx = \sin x$的一个解。

图像的形状

中学时经常要手工作图,先找几个点,然后再以”光滑曲线“连接之,现在知道所谓光滑是指可微。那么一般来说,为确定图形的形状,我们需要知道什么信息?需要知道它的单调性,以及图形是如何弯曲的。这些可以从一阶与二阶导数获得。

根据上节的中值定理,容易得到如下重要推论

假设$f$在$[a, b]$上连续并且在$(a, b)$上可微,则有

  • 如果在$(a, b)$上每一点$f’ > 0$,那么$f$在$[a, b]$上是(严格)增函数
  • 如果在$(a, b)$上每一点$f’ < 0$,那么$f$在$[a, b]$上是(严格)减函数

这时临界点的重要性体现了出来,找出临界点,那么定义域可以划分为几部分,每一部分里函数可能是递增或递减的。

例:求函数$f(x) = x^3 - 12x - 5$的单调区间。

$f’(x) = 3x^2 - 12 = 3(x+2)(x-2)$,这样找到了临界点为$\pm 2$,单调区间也就找到了。

局部极值与导数的关系

如果在一临界点的左侧有$f’ < 0$,右侧有$f’ > 0$,那么可知函数在左侧递减,右侧递增,从而在这一点取得局部极小值。这一结论可以推广为:

在临界点$x = c$处,

  • $f$有局部极小值,如果$f’$在$c$从负变到正;
  • $f$有局部极大值,如果$f’$在$c$从正变到负;
  • $f$没有局部极值,如果$f’$在$c$两边正负号相同;

端点处的检验法与此类似,但只需要考虑一侧的情形。

至此,我们对于单调区间、极值有了一定的了解,接下来考虑如何了解函数图像弯曲的方式

凹性

对于$y = x^3$的图像,可以看到它在$x = 0$处以不同的方式转向。先是凹向下,再是凹向上。凹向下的部分曲线位于切线下面,凹向上的部分曲线位于切线上面(故曰向上、向下)。

定义:凹性

可微函数$y = f(x)$的图形是

  • 在开区间$I$上是凹向上的,如果$y’$在$I$上递增
  • 在开区间$I$上是凹向下的,如果$y’$在$I$上递减

观察凹向上的曲线,其切线位于曲线之下,切线斜率递增,而凹向下者则是切线斜率递减。

$y’$的符号可以决定$y$的单调性,凹性定义中涉及到$y’$的单调性,那么自然地,可以借助于$y’’$考察函数的凹性。这就是凹性的二阶导数检验法

二次可微函数$y = f(x)$的图形

  • 在$y’’ > 0$的任何区间上是凹向上的
  • 在$y’’ < 0$的任何区间上是凹向下的

注:凹向上和凹向下在图形上与我们的直观理解一致。以前看过的数学教材中,将两者情形分别称为凸的和凹的。这个定义相较而言更容易有歧义。凹性定义中的向上和向下总是与曲线与切线的位置关系一致。

例:$y = x^2$在$(-\infty, \infty)$上是凹向上的,因为其二阶导数总是为正。

拐点(Inflection point)

一点称为函数的拐点,如果函数在该点有切线而且在该点改变函数的凹性

在拐点处,$y’’$或为零,或没有定义(所以,拐点是一阶导数的临界点)。如果在该点二阶可微,那么在拐点处$y’’ = 0$且$y’$在拐点处取得局部极值。

局部极值的二阶导数检验法

  • 如果$f’(c) = 0$且$f’’(c) < 0$,那么$f$在$x = c$取到局部最大值
  • 如果$f’(c) = 0$且$f’’(c) > 0$,那么$f$在$x = c$取到局部最小值

$f’’(c) < 0$意味着$f’$在$c$的某个邻域内递减,从而函数先增后减,即取得局部最大值。

从函数的导数了解函数

通过函数的一阶和二阶导数我们可以理解函数的大量信息:

  • 可微:光滑、连通
  • $y’ > 0$:递增
  • $y’ < 0$:递减
  • $y’’ > 0$:凹向上,且没有波动
  • $y’’ < 0$:凹向下,且没有波动
  • 拐点:$y’’$改变正负号
  • $y’$改变正负号:局部极值
  • 在一点$y’ = 0$且$y’’ < 0$,局部最大值
  • 在一点$y’ = 0$且$y’’ > 0$,局部最小值

自治微分方程的图形解

我们可以把有关导数怎样确定图形的形状的知识作为图形地求解微分方程的基础。这基于相直线平衡点的概念。

至此已了解临界点在确定函数的性态以及函数极值中的重要作用。现在来看以不同的角度考察当函数导数为零时会发生什么。对于下面的函数隐式地求其导数:

$$y^2 = x + 1$$

得到$\frac{dy}{dx} = \frac{1}{2y}$

注意到此导数仅与$y$有关,故此类方程称为自治微分方程

平衡点或静止点

如果$dy/dx = g(y)$是自治微分方程,那么使$dy/dx = 0$的$y$值称为平衡点静止点

可以看到平衡点意味着导数为零,这又对应着临界点。由于导数为零,故因变量在这些点不发生变化(变化率为零),认为$y$处于静止状态。这是平衡点和静止点得名之由来。

例:求自治微分方程$\frac{dy}{dx} = (y+1)(y-2)$的图形解。

为构造图形解,需要先作出方程的相直线在y轴上找出平衡点位置和一阶、二阶导数的正负区域。如此就可以了解什么地方的解释递减和递增的,以及解曲线的凹性。

一般而言,一阶、二阶导数由$x$表示,但这里却是通过$y$表示的。在了解了单调性与凹性之后,我们可以画出函数解的略图。

建模与最优化

最优化某个量意即极大化或极小化该量的某一方面。如最小成本、最大利润等等。其步骤是:

  • 了解问题:什么是未知量?什么是给定的?什么是要求的?
  • 建立模型
  • 确定定义域
  • 识别临界点与端点:这是极值可能发生的地方
  • 求解模型
  • 对解进行解释

Fermat原理和Snell定律

光速依赖于光所经过的介质,在稠密介质中会慢下来。真空中其速度$c = 3 \times 10^8 m/s$行进,在大气层会稍慢,在玻璃会更慢。

Fermat原理说光永远以速度最快(时间最短)的路径行进。这样,当光从介质一中的A点出发,到达介质二中的B点,其路径可以确定下来。所谓路径确定下来,实际上是说其入射点可以确定下来。

依此思路所得的结果称为Snell定律或折射定律。

最大利润

在给出最大利润的生产水平上,边际收入等于边际成本(即边际利润的临界点)。

用可微函数对离散现象建模

对于成本与收入这样的函数,自变量只能取整数。但我们仍然“假装”它们可以取到一般的实数以建模。当$x$较大时,这样是没问题的,只是需要注意,如何舍入到合适的整数。

此时需要考虑对于不同的舍入值,函数的变化有多敏感,然后取较不敏感的那个值。

线性化(Linearization)和微分(Differential)

有时候我们需要处理复杂的函数,而在一定的精度要求内,可以考虑较为简单的函数近似之。本节讨论的近似方法是线性化,以后会介绍其它近似方法。

我们会看到莱布尼兹的$dy/dx$记法可被赋予新的含义,而$dy$可用于估计函数变化的度量的误差和敏感度。

线性化

以$y = x^2$为例,作出它的图像,在其上一点作出切线来。如果我们放大图像到足够的程度,会发现曲线很接近于切线,既然如此,在很小的区间内,我们可以考虑使用直线上的值来近似函数值。

一般来说,在$f(x)$可微的点$x = a$处$y = f(x)$的切线方程为:

$$y = f(a) + f’(a)(x-a)$$

这条切线是线性函数

$$L(x) = f(a) + f’(a)(x-a)$$

如果区间足够小,切线与函数曲线足够接近,$L(x)$就给出了$f(x)$足够好的近似。这称为函数$f$在$a$的线性化

例:根式和幂函数的线性化为:

$$(1+x)^k \approx 1 + kx,x在0附近$$

类似地,在0附近,还有:$\sin x \approx x$,$\cos x \approx 1$,$\tan x \approx x$。

微分

莱布尼兹的记法中,$dy/dx$表示导数,它并不表示一个比值。现在我们引入新的(两个)变量$dx$和$dy$,如果它们的比存在,其比值就等于导数。

定义:微分

设$y = f(x)$是一个可微函数。微分$dx$是一个自变量,微分$dy$是

$$dy = f’(x)dx$$

注意,这里有两个微分,其中$dx$是自变量,$dy$是因变量。

微分有一个很直观的几何解释,即函数线性化的变化。

绝对、相对和百分比变化

当我们从$a$移动到邻近点$a + dx$时,可以用三种方式描述$f$的变化:

  • 绝对变化:$\Delta f = f(a + dx) - f(a)$
  • 相对变化:$\frac{\Delta f}{f(a)}$
  • 百分比变化:$\frac{\Delta f}{f(a)} \times 100$

若以线性化近似,那么估计的变化是

  • 绝对变化:$df = f’(a) dx$
  • 相对变化:$\frac{df}{f(a)}$
  • 百分比变化:$\frac{df}{f(a)} \times 100$

敏感度:在$x$处的$f’$越大,给定的变化$dx$的影响越大。

误差:如果$y = f(x)$在$x = a$可微而$x$从$a$变到$a + \Delta x$,那么$\Delta y$由形为

$$\Delta y = f’(a) \Delta x + \varepsilon \Delta x$$

的等式给出,当$\Delta x \to 0$时,$\varepsilon \to 0$

例:质能转换

牛顿第二定律$F = ma$假定质量是不变的,后来被爱因斯坦修订为

$$m = \frac{m_0}{\sqrt {1 - v^2/c^2}}$$

当$v$远小于$c$时,我们可使用如下的近似式:

$$\frac{1}{\sqrt {1 - v^2/c^2}} \approx 1 + \frac{1}{2} (\frac{v^2}{c^2})$$

牛顿法

一元一次、二次方程有简单的公式解,而三次和四次则有更为复杂的公式。人们一度希望对五次和更高次方程也可能求得类似的公式,但阿贝尔(Abel)证明了次数大于四的多项式方程不可能有类似地求解公式。

在没有确切公式时,我们考虑使用数值方法在求得近似解。最经典的方法之一是牛顿法(或Newton-Raphson法)。其思路是,在$f = 0$的$x$值附近用$f$的切线来替代$f(x)$的切线,其中线性化是求解的关键。

牛顿法的步骤

方程的根对应于函数的零点。牛顿法使用函数的线性化近似其零点。在合适的情况下,线性化的零点会快速收敛到要求的零点精确近似值。其大概步骤如下:

首先通过作图或简单猜测找出初始估计值$x_0$,然后用函数在点$(x_0, f(x_0))$的切线近似函数曲线,把切线和$x$轴的交点记作$x_1$。$x_1$通常是比$x_0$更好的近似。

重复上述过程,以在点$(x_1, f(x_1))$处的切线近似函数曲线,寻找下一个交点。如此下去,直到充分接近零点。

由于每次求得下一个近似值的方法完全一样,可以得出它们的递推公式,即

$$x_{n+1} = x_n - \frac{f(x_n)}{f’(x_n)}$$

例:求$\sqrt 2$。

解:所求值即函数$f(x) = x^2 - 2$正的零点。采用牛顿法,从$x_0 = 1$开始,经过少数几步就得到相当精确的近似解。

多数计算器可用牛顿法求根,因为它收敛得特别快。经过三步就可以得到$\sqrt 2$的5位精确数字的解。

牛顿法的收敛性

牛顿法看起来是如此简单高效,那么它是否总是如此呢?答案是否定的,详情此处暂略。

如果$f’(x_n) = 0$,那么上面的递推公式无效。有时牛顿法是不收敛的,它会在几个点之间来回跳跃。

如果牛顿法是收敛的,那么它一定会收敛到一个零点。

如果从很远的地方开始牛顿法,最终得到的可能是另一个零点,而不是所求的。