|
发布人:软件工程师 Sami Tolvanen
1. 概览
Android 使用多层保护机制来保障用户的安全。其中一层就是验证启动,该机制使用加密完整性检查来检测操作系统所发生的更改,从而提高安全性。自 Marshmallow 开始,Android 即具有系统完整性警告功能,但是从首批搭载 Android 7.0 的设备开始,我们要求严格强制执行验证启动。这意味着如果设备的启动映像损坏或者带有已验证的分区,则设备将无法启动,或者在有限能力模式下启动(需要用户同意)。同时,此类严格检查意味着非恶意数据损坏(以前可见性较低)现在可能开始更显著地影响进程功能。
默认情况下,Android 会使用 dm-verity 内核驱动程序验证大分区,dm-verity 内核驱动程序将分区细分为若干个 4 KiB 块,并在读取数据时根据已签名的哈希树对每个块进行验证。因此,当 dm-verity 处于强制模式时,检测到的单字节损坏将导致整个块无法访问,从而导致内核在访问已验证的分区数据时向用户空间返回 EIO 错误。
此博文介绍我们如何通过引入向前纠错 (FEC) 技术来增强 dm-verity 稳健性,并阐释我们可以如何藉此使操作系统更不易受数据损坏的影响。这些改进功能适用于所有运行 Android 7.0 的设备,此博文反映了我们 Nexus 设备上搭载的 AOSP 中的默认实现。
2. 纠错码
利用向前纠错技术,我们可以通过搭载使用纠错码生成的冗余编码数据来检测并纠正源数据中的错误。可纠正错误的确切数量取决于所使用的代码以及为编码数据分配的空间量。
Reed-Solomon 是最常用的纠错码族,已可用于 Linux 内核,是 dm-verity 的一个良好候补方案。当添加 t 个编码符号时,这些代码最多可以纠正⌊t/2⌋个未知错误和 t 个已知错误(也称为erasure)。
一个典型 RS(255, 223) 码可以为每 223 字节源数据生成 32 字节编码数据,在每个 255 字节块中最多可以纠正 16 个未知错误。但是,使用此代码会导致约 15% 的空间开销,这对于存储有限的移动设备是不可接受的。我们可以通过牺牲纠错能力来降低空间开销。一个 RS(255, 253) 码只能纠正一个未知错误,而且只有 0.8% 的空间开销。
另一个难题是,基于块的存储损坏常发生于整个块,有时横跨多个连续的块。Reed-Solomon 只能从相对较短的编码块内数量有限的损坏字节中恢复数据,因此如果没有巨大的空间开销,朴素实现方法不是很有效。
3. 从连续的损坏块恢复
在我们针对 Android 7.0 对 dm-verity 所做的更改中,我们使用了一个称为交错的技术,利用该技术,我们不仅可以从丢失的整个 4 KiB 源块恢复数据,还可从多个连续块恢复数据,与此同时,与朴素实现相比,该技术还可显著降低实现可用纠错能力所需的空间开销。
有效交错意味着将块中的每个字节均映射至单独的 RS 码,且每个代码涵盖跨相应 N 个源块的 N 个字节。其中每个代码涵盖连续 N 个块的一个普通交错就已经让我们可以从最多 (255 - N) / 2 个损坏块恢复数据,例如,对于 RS(255, 223),意味着可以从 64 KiB 块恢复数据。
一个更好的解决方案是,使每个代码分布于整个分区,从而最大程度增加同一代码所涵盖字节之间的距离,通过这种方式,可以将一个 RS(255, N) 码在包含 T 个块的分区上可处理的最大连续损坏块数量增加至⌈T/N⌉ × (255 - N) / 2。
与距离 D 和块大小 B 交错。
交错的另一优点是,通过结合 dm-verity 已经执行的完整性验证,我们可以确切指出错误在每个代码中的位置。由于代码的每个字节均涵盖一个不同的源块,并且我们可以使用现有的 dm-verity 元数据验证每个块的完整性,因此我们可以知道哪些字节包含错误。能够准确指出 erasure 位置让我们可以将纠错性能有效地翻一番,最多可以纠正⌈T/N⌉ × (255 - N) 个连续块。
对于一个具有 524256 个 4 KiB 块和 RS(255, 253) 码的约 2 GiB 分区,单个代码的最大字节距离是 2073 个块。每个代码均可从两个 erasure 中恢复数据,因此,我们可以使用此交错方法最多从 4146 个连续损坏块 (~16 MiB) 恢复数据。当然,如果编码数据本身损坏,或者我们丢失了任何单个代码所涵盖的两个以上的块,那么我们无法再进行恢复。
虽然利用交错方法可以对基于块的存储进行纠错,但它也有一个负面影响,即:使解码速度减慢,因为我们需要读取横跨整个分区的多个块(而非读取单个块)方可从错误中恢复。幸运的是,这在与 dm-verity 和固态存储器结合使用时并不是一个大问题,因为我们只需要在块确实损坏时进行解码,而块损坏的情况仍然相当罕见,并且即使我们必须纠正错误,随机访问读取的速度也比较快。
4. 结论
严格强制验证启动提高了安全性,但也可能因扩大了设备磁盘损坏(可能因软件漏洞或硬件问题而发生)的影响而导致可靠性降低。
我们针对 dm-verity 开发的这项最新纠错功能可以让设备从一个典型 2-3 GiB 系统分区上任何位置中最多丢失 16-24 MiB 的连续块进行恢复,空间开销只有 0.8%,并且只要没有检测到损坏,即毫不影响性能。这增强了运行 Android 7.0 的设备的安全性和可靠性。
|
|