你好,我是朱维刚。欢迎你继续跟我学习线性代数,今天我们要讲的内容是“矩阵”。
在开始学习之前,我想先问你个问题,你觉得,学习矩阵有什么用呢?你可以先自己想一想。之后我们讲任何一个知识的时候,你都可以从这个角度出发,自己先思考一下,这样有助于你对所学内容理解得更深刻。
对于刚才那个问题,我的答案很简单,就一句话,从我们程序员的角度去理解的话,矩阵可以极大地提高计算机的运算效率。怎么说呢?我给你举一个例子。在机器学习中(特别是深度学习,或者更具体一点,神经网络),并行计算是非常昂贵的。
上图是一个典型的神经网络架构,在这时候,矩阵就能发挥用武之地了,计算 隐藏层输出的公式是:,其中 是权重矩阵, 是激活函数, 是偏差, 是输入层矩阵。而这个计算过程就叫做向量化(Vectorization),这也是 GPU 在深度学习中非常重要的原因,因为 GPU 非常擅长做类似矩阵乘之类的运算。
不过,矩阵也不仅仅局限于神经网络的应用,同时它也可以用在计算机图形图像的应用中,比如,三维物体从取景到屏幕的显示,就需要经历一系列的空间变换,才能生成二维图像显示在显示器上。在这个计算过程中,我们都需要用到矩阵。
矩阵是非常实用的,但它正式作为数学中的研究对象出现,其实是在行列式的研究发展起来之后。英国数学家 Arthur Cayley 被公认为矩阵论的创立人,他提出的矩阵概念可能来自于行列式。但我相信另一种说法,提出矩阵是为了更简单地表达线性方程组,也就是说,矩阵是线性方程组的另一种表达。
线性方程组的概念很简单,上节我们已经简单提过。你在小学或中学肯定也学过二元一次方程和二元一次方程组。
在这样一个方程组中,、、、 不能同时为 0。当我们把二元一次方程组再扩展一下,变成多元一次方程组时,我们就能得到线性方程组的一般表达,即 。
于是,这个线性方程组的所有系数就构成了一个 的 行 列矩阵:
我们把 称为该方程组的系数矩阵,而当我们把等式右边的常数 放入矩阵后,就是下面这样:
这样我们就得到了 矩阵的增广矩阵 ,可以表示为 ,这里的 表示的是方程组常数项所构成的列向量,也就是 的 行 列矩阵:
如果设 为 的 行 列矩阵:
那么线性方程组 ,就可以表示为 的矩阵形式。如果我们再换一种表示形式,设: 表示增广矩阵 的列向量,则线性方程组 又可表示为 。
线性方程组的矩阵和向量形式都是线性方程组的其他表达形式。在工作中,你可以用它们来简化求解,甚至可以提升计算效率,就如之前提到的神经网络的隐藏层的输出计算、图形图像的三维空间变换。在数学中也是同样的,你可以经常运用它们来简化求解。具体线性方程组求解的内容比较多,我们下一节课再来详细讲解求解过程。
通过前面的讲解,我相信你对矩阵有了一定的了解,现在我们再回头来看看矩阵的定义吧。
矩阵的定义是:一个 矩阵 ,是由 个元素组成, 和 是实数,其中元素 按 行 列的矩形排布方式后可以形成矩阵 :
其中 属于实数 ,按通常的惯例, 矩阵叫做行, 矩阵叫做列,这些特殊的矩阵叫做行或列向量。
定义完矩阵后,我接着讲一个比较有趣的概念,矩阵转换(Matrix transformation)。矩阵转换经常被用在计算机图形图像的转换中,比如,一张彩色图片从 RGB 角度来说是三维的,如果要转换成灰度图片,也就是一维图片,那就要做矩阵转换。
我们来看一下矩阵转换的过程。设 是实数矩阵 的集合, 可以表示成另一种形式 。我们把矩阵的 列堆叠成一个长向量后完成转换。这个转换也叫做 reshape,其实就是重新调整原矩阵的行数、列数和维数,但是元素个数不变。
了解了矩阵的基本定义后,我们才能进入矩阵的运算环节,就是矩阵的加和乘。
加运算很简单,两个矩阵 , 的加运算其实就是矩阵各自元素的加。
我推荐你使用 NumPy 的 einsum 来高效地做这类运算,因为它在速度和内存效率方面通常可以超越我们常见的 array 函数。
C= np.einsum('il, lj', A, B)
接下来,我们一起来看看矩阵的乘。这里你需要注意,矩阵的乘和通常意义上“数之间的乘”不同,矩阵的乘有多种类型,这里我讲三种最普遍,也是在各领域里用得最多的矩阵乘。
普通矩阵乘是应用最广泛的矩阵乘,两个矩阵 ,,普通矩阵则乘可以表示为 , 中元素的计算规则是矩阵 、 对应两两元素乘积之和。
我们举例来说明。 的第一个元素 。
这里需要特别注意的是,只有相邻阶数匹配的矩阵才能相乘,例如,一个 矩阵 和一个 矩阵 相乘,最后得出 矩阵 ,而这里的 就是相邻阶数。
但反过来 B 和 A 相乘就不行了,因为相邻阶数 不等于 。
哈达玛积理解起来就很简单了,就是矩阵各对应元素的乘积, 。举个例子:
哈达玛积其实在数学中不常看到,不过,在编程中哈达玛积非常有用,因为它可以用来同时计算多组数据的乘积,计算效率很高。
克罗内克积是以德国数学家利奥波德·克罗内克(Leopold Kronecker)的名字命名的。它可以应用在解线性矩阵方程和图像处理方面,当然从更时髦的角度说,它还能用在量子信息领域,我们也称之为直积或张量积。
和普通矩阵乘和哈达玛积不同的是,克罗内克积是两个任意大小矩阵间的运算,表示为 ,如果 是一个 的矩阵,而 是一个 的矩阵,克罗内克积则是一个 的矩阵。
接下来我们需要定义一个在矩阵的乘法中起着特殊作用的矩阵,它就是单位矩阵。高等代数中,在求解相应的矩阵时,若添加单位矩阵,通过初等变换进行求解,往往可以使问题变得简单。按照百度百科的解释,单位矩阵如同数的乘法中的 ,这种矩阵就被称为单位矩阵。它是个方阵,从左上角到右下角的对角线,也就是主对角线上的元素均为 ,除此以外全都为 。
在线性代数中,大小为 的单位矩阵就是在主对角线上均为 1,而其他地方都是 的 的方阵,它用 表示,表达时为了方便可以忽略阶数,直接用 来表示:
在了解了矩阵加和乘,以及单位矩阵后,我们是时候来看一看矩阵的性质了。了解矩阵的性质是进行矩阵计算的前提,就像我们小时候学加减乘除四则运算法则时那样。所以,这块内容对你来说应该不难,你作为了解就好,重点是之后的运算。
任意实数 矩阵 , 矩阵 , 矩阵 之间相乘,满足结合律 。这个很好理解,我就不多说了。
任意实数 矩阵 和 , 矩阵 和 之间相乘满足分配律 ,。
任意实数 矩阵 A 和单位矩阵之间的乘,等于它本身 。
注意,这里的行和列不同, 意味着,根据矩阵乘,左乘和右乘单位矩阵也不同,也就是 。
了解矩阵基本概念、运算,以及性质后,我来讲一讲矩阵应用中的两个核心内容——逆矩阵和转置矩阵。逆矩阵和转置矩阵在实际应用中大有用处,比如:坐标系中的图形变换运算。我们先来看下什么是逆矩阵。
下面这个图你应该非常熟悉了,图中表现的是数字的倒数, 的倒数是 , 的倒数是 。
其实逆矩阵也有着类似的概念,只不过是写法不一样,我们会把逆矩阵写成 。那为什么不是 呢?那是因为数字 1 无法被矩阵除。
我们知道, 乘以它的倒数 等于 。同样的道理, 乘以它的逆矩阵 就等于单位矩阵,即 ( 即单位矩阵),反过来也一样,。
为方便你理解,我用一个 矩阵 来解释一下逆矩阵的算法。首先,我们交换 和 的位置,然后在 和 前加上负号,最后除以行列式 。
那我们该如何验证这是不是正解呢?
方法其实很简单,记得刚才的公式就行,。现在我们就代入公式来验证一下, 和它的逆矩阵相乘,通过刚才的算法最终得出的结果是单位矩阵。
这里有一点需要特别说明,不是每一个矩阵都是可逆的。如果一个矩阵是可逆的,那这个矩阵我们叫做非奇异矩阵,如果一个矩阵是不可逆的,那这个矩阵我们就叫做奇异矩阵,而且如果一个矩阵可逆,那它的逆矩阵必然是唯一的。
还记得行列式 吗?如果我们要证明矩阵是可逆的,只要证明行列式不等于零就行。更高阶的逆矩阵的算法也是一样的原理。
最后,我想通过一个现实生活中的案例来让你更多地了解逆矩阵。
一个旅游团由孩子和大人组成,去程他们一起做大巴,每个孩子的票价 元,大人票价 元,总共花费 元。回程一起做火车,每个孩子的票价 元,大人票价 元,总共花费 元。请问旅游团里有多少小孩和大人?
首先,我们设置一些矩阵,组成线性方程 。
要解 ,我们就要先计算 的逆矩阵 :
接下来再计算 :
最终,我们得出这个旅游团有 16 个小孩和 22 个大人。
这也是解线性方程组的一种方法,类似这样的计算被广泛应用在各领域中,比如建筑工程、游戏和动画的 3D 效果上。虽然现在有很多程序包封装了这类数学计算的底层实现,但如果你能很好地理解这些概念,就可以为编程或算法调优打下坚实的基础。
Last but not least,方程次序很重要,也就是说, 和 的结果是不同的,这个一定要牢记哦!
一般伴随逆矩阵之后出现的就是转置矩阵。在计算机图形图像处理中,如果要对一个物体进行旋转、平移、缩放等操作,就要对描述这个物体的所有矩阵进行运算,矩阵转置就是这类运算之一,而矩阵的转置在三维空间中的解释就相当于“得到关于某个点对称的三维立体”。所以,转置矩阵的定义很简单。
将矩阵的行列互换,得到的新矩阵就叫做转置矩阵(transpose)。转置矩阵的行列式不变。我们把 矩阵 的行列互换,得到转置矩阵 。
最后,为了方便你理解,我们再总结一下逆矩阵和转置矩阵的性质。你不用死记硬背,重在理解。
好了,到这里矩阵这一讲就结束了,最后我再带你总结一下前面讲解的内容。
今天的知识,你只需要知道矩阵是线性方程组的另一种表达,了解和掌握矩阵的定义和性质就足够了。当然,矩阵还有很多内容,但我认为掌握了我讲的这些内容后,就为以后的一些矩阵应用场景打下了坚实的数学基础,也是下一讲的解线性方程组的前置知识。
对于 10 维列向量 , ,如果要计算 ,其中 是 10 阶单位矩阵。你会怎么做?
友情提醒,这里有多种方式解题。你能不能找到一个最简单的方法来解这道题?虽然结果很重要,但我想说的是过程更重要,而且往往解题过程不同,从计算机角度来说,运算的效率会有极大的不同。
欢迎你在留言区晒出你的运算过程和结果。如果有收获,也欢迎你把这篇文章分享给你的朋友。