03 | 矩阵:为什么说矩阵是线性方程组的另一种表达?

你好,我是朱维刚。欢迎你继续跟我学习线性代数,今天我们要讲的内容是“矩阵”。

在开始学习之前,我想先问你个问题,你觉得,学习矩阵有什么用呢?你可以先自己想一想。之后我们讲任何一个知识的时候,你都可以从这个角度出发,自己先思考一下,这样有助于你对所学内容理解得更深刻。

对于刚才那个问题,我的答案很简单,就一句话,从我们程序员的角度去理解的话,矩阵可以极大地提高计算机的运算效率。怎么说呢?我给你举一个例子。在机器学习中(特别是深度学习,或者更具体一点,神经网络),并行计算是非常昂贵的。

上图是一个典型的神经网络架构,在这时候,矩阵就能发挥用武之地了,计算 隐藏层输出的公式是:

不过,矩阵也不仅仅局限于神经网络的应用,同时它也可以用在计算机图形图像的应用中,比如,三维物体从取景到屏幕的显示,就需要经历一系列的空间变换,才能生成二维图像显示在显示器上。在这个计算过程中,我们都需要用到矩阵。

矩阵是非常实用的,但它正式作为数学中的研究对象出现,其实是在行列式的研究发展起来之后。英国数学家 Arthur Cayley 被公认为矩阵论的创立人,他提出的矩阵概念可能来自于行列式。但我相信另一种说法,提出矩阵是为了更简单地表达线性方程组,也就是说,矩阵是线性方程组的另一种表达。

矩阵的基本概念

线性方程组的概念很简单,上节我们已经简单提过。你在小学或中学肯定也学过二元一次方程和二元一次方程组。

在这样一个方程组中, 不能同时为 0。当我们把二元一次方程组再扩展一下,变成多元一次方程组时,我们就能得到线性方程组的一般表达,即

于是,这个线性方程组的所有系数就构成了一个

我们把 称为该方程组的系数矩阵,而当我们把等式右边的常数 放入矩阵后,就是下面这样:

这样我们就得到了 矩阵的增广矩阵 ,可以表示为 ,这里的 表示的是方程组常数项所构成的列向量,也就是

如果设

那么线性方程组 ,就可以表示为

线性方程组的矩阵和向量形式都是线性方程组的其他表达形式。在工作中,你可以用它们来简化求解,甚至可以提升计算效率,就如之前提到的神经网络的隐藏层的输出计算、图形图像的三维空间变换。在数学中也是同样的,你可以经常运用它们来简化求解。具体线性方程组求解的内容比较多,我们下一节课再来详细讲解求解过程。

通过前面的讲解,我相信你对矩阵有了一定的了解,现在我们再回头来看看矩阵的定义吧。

矩阵的定义是:一个 矩阵 ,是由

其中 属于实数 ,按通常的惯例, 矩阵叫做行, 矩阵叫做列,这些特殊的矩阵叫做行或列向量。

定义完矩阵后,我接着讲一个比较有趣的概念,矩阵转换(Matrix transformation)。矩阵转换经常被用在计算机图形图像的转换中,比如,一张彩色图片从 RGB 角度来说是三维的,如果要转换成灰度图片,也就是一维图片,那就要做矩阵转换。

我们来看一下矩阵转换的过程。设 是实数矩阵 的集合,

矩阵的运算

了解了矩阵的基本定义后,我们才能进入矩阵的运算环节,就是矩阵的加和乘。

加运算很简单,两个矩阵

我推荐你使用 NumPy 的 einsum 来高效地做这类运算,因为它在速度和内存效率方面通常可以超越我们常见的 array 函数。

C= np.einsum('il, lj', A, B)

接下来,我们一起来看看矩阵的乘。这里你需要注意,矩阵的乘和通常意义上“数之间的乘”不同,矩阵的乘有多种类型,这里我讲三种最普遍,也是在各领域里用得最多的矩阵乘。

1. 普通矩阵乘

普通矩阵乘是应用最广泛的矩阵乘,两个矩阵

我们举例来说明。 的第一个元素

这里需要特别注意的是,只有相邻阶数匹配的矩阵才能相乘,例如,一个

但反过来 B 和 A 相乘就不行了,因为相邻阶数 不等于

2. 哈达玛积

哈达玛积理解起来就很简单了,就是矩阵各对应元素的乘积,

哈达玛积其实在数学中不常看到,不过,在编程中哈达玛积非常有用,因为它可以用来同时计算多组数据的乘积,计算效率很高。

3. 克罗内克积

克罗内克积是以德国数学家利奥波德·克罗内克(Leopold Kronecker)的名字命名的。它可以应用在解线性矩阵方程和图像处理方面,当然从更时髦的角度说,它还能用在量子信息领域,我们也称之为直积或张量积。

和普通矩阵乘和哈达玛积不同的是,克罗内克积是两个任意大小矩阵间的运算,表示为

接下来我们需要定义一个在矩阵的乘法中起着特殊作用的矩阵,它就是单位矩阵。高等代数中,在求解相应的矩阵时,若添加单位矩阵,通过初等变换进行求解,往往可以使问题变得简单。按照百度百科的解释,单位矩阵如同数的乘法中的 ,这种矩阵就被称为单位矩阵。它是个方阵,从左上角到右下角的对角线,也就是主对角线上的元素均为 ,除此以外全都为

在线性代数中,大小为 的单位矩阵就是在主对角线上均为 1,而其他地方都是

矩阵的性质

在了解了矩阵加和乘,以及单位矩阵后,我们是时候来看一看矩阵的性质了。了解矩阵的性质是进行矩阵计算的前提,就像我们小时候学加减乘除四则运算法则时那样。所以,这块内容对你来说应该不难,你作为了解就好,重点是之后的运算。

1. 结合律

任意实数

2. 分配律

任意实数

3. 单位矩阵乘

任意实数

注意,这里的行和列不同,

逆矩阵与转置矩阵

了解矩阵基本概念、运算,以及性质后,我来讲一讲矩阵应用中的两个核心内容——逆矩阵和转置矩阵。逆矩阵和转置矩阵在实际应用中大有用处,比如:坐标系中的图形变换运算。我们先来看下什么是逆矩阵。

逆矩阵

下面这个图你应该非常熟悉了,图中表现的是数字的倒数, 的倒数是

其实逆矩阵也有着类似的概念,只不过是写法不一样,我们会把逆矩阵写成 。那为什么不是

我们知道, 乘以它的倒数

为方便你理解,我用一个

那我们该如何验证这是不是正解呢?

方法其实很简单,记得刚才的公式就行,

这里有一点需要特别说明,不是每一个矩阵都是可逆的。如果一个矩阵是可逆的,那这个矩阵我们叫做非奇异矩阵,如果一个矩阵是不可逆的,那这个矩阵我们就叫做奇异矩阵,而且如果一个矩阵可逆,那它的逆矩阵必然是唯一的。

还记得行列式

最后,我想通过一个现实生活中的案例来让你更多地了解逆矩阵。

一个旅游团由孩子和大人组成,去程他们一起做大巴,每个孩子的票价 元,大人票价 元,总共花费 元。回程一起做火车,每个孩子的票价 元,大人票价 元,总共花费 元。请问旅游团里有多少小孩和大人?

首先,我们设置一些矩阵,组成线性方程

要解 ,我们就要先计算 的逆矩阵

接下来再计算

最终,我们得出这个旅游团有 16 个小孩和 22 个大人。

这也是解线性方程组的一种方法,类似这样的计算被广泛应用在各领域中,比如建筑工程、游戏和动画的 3D 效果上。虽然现在有很多程序包封装了这类数学计算的底层实现,但如果你能很好地理解这些概念,就可以为编程或算法调优打下坚实的基础。

Last but not least,方程次序很重要,也就是说,

转置矩阵

一般伴随逆矩阵之后出现的就是转置矩阵。在计算机图形图像处理中,如果要对一个物体进行旋转、平移、缩放等操作,就要对描述这个物体的所有矩阵进行运算,矩阵转置就是这类运算之一,而矩阵的转置在三维空间中的解释就相当于“得到关于某个点对称的三维立体”。所以,转置矩阵的定义很简单。

将矩阵的行列互换,得到的新矩阵就叫做转置矩阵(transpose)。转置矩阵的行列式不变。我们把

最后,为了方便你理解,我们再总结一下逆矩阵和转置矩阵的性质。你不用死记硬背,重在理解。

  1. 矩阵和自身逆矩阵相乘得道单位矩阵,
  2. 两矩阵相乘的逆,等于逆矩阵 和逆矩阵 相乘,这里强调一下乘的顺序很重要,
  3. 两矩阵相加后的逆矩阵,不等于各自逆矩阵的相加,
  4. 矩阵转置的转置还是它本身,
  5. 两矩阵相加后的转置矩阵,等于各自转置矩阵的相加,
  6. 两矩阵相乘后的转置矩阵,等于转置矩阵 B 和转置矩阵 A 的相乘,这里再次强调乘的顺序很重要,

本节小结

好了,到这里矩阵这一讲就结束了,最后我再带你总结一下前面讲解的内容。

今天的知识,你只需要知道矩阵是线性方程组的另一种表达,了解和掌握矩阵的定义和性质就足够了。当然,矩阵还有很多内容,但我认为掌握了我讲的这些内容后,就为以后的一些矩阵应用场景打下了坚实的数学基础,也是下一讲的解线性方程组的前置知识。

线性代数练习场

对于 10 维列向量

友情提醒,这里有多种方式解题。你能不能找到一个最简单的方法来解这道题?虽然结果很重要,但我想说的是过程更重要,而且往往解题过程不同,从计算机角度来说,运算的效率会有极大的不同。

欢迎你在留言区晒出你的运算过程和结果。如果有收获,也欢迎你把这篇文章分享给你的朋友。