ZFS是下一代文件系统,它支持许多高级存储技术,例如卷管理,快照,校验和,压缩和去重,复制等。
它由Sun Microsystems(现为Oracle Corporation)创建,并以CDDL许可证开源。由于CDDL和GPL之间的许可不兼容,因此ZFS不能作为主线Linux内核的一部分提供。但是,Linux上的ZFS(ZoL)项目提供了树外内核模块和用户空间工具,可以分别安装它们。
Linux上的ZFS(ZoL)port健壮且成熟。但是,目前不建议将zfs
Docker存储驱动程序用于生产,除非您对Linux上的ZFS有丰富的经验。
注意:在Linux平台上还有ZFS的FUSE实现。不建议使用它。原生ZFS驱动程序(ZoL)经过了更多测试,性能更高且得到了更广泛的使用。本文档的其余部分指的是本机ZoL port。
先决条件
- ZFS需要一个或多个专用块设备,最好是固态驱动器(SSD)。
- ZFS仅在Docker Engine - Community和Ubuntu 14.04或更高版本上受支持,安装了
zfs
软件包(16.04和更高版本)或zfs-native
和ubuntu-zfs
软件包(14.04)。- 对于Ubuntu 14.04,您需要先启用补充软件包仓库
ppa:zfs-native/stable
,然后才能安装软件包。参见https://launchpad.net/~zfs-native/+archive/ubuntu/stable以获得说明。
- 对于Ubuntu 14.04,您需要先启用补充软件包仓库
- Docker EE或CS-Engine或任何其他Linux平台不支持ZFS。
- 必须将
/var/lib/docker/
目录挂载在ZFS格式的文件系统上。 - 更改存储驱动程序将使您已经创建的在本地系统上所有容器均不可访问。使用
docker save
保存容器,并将现有镜像推送到Docker Hub或私有仓库,以便您以后无需重新创建它们。
注意:无需在Docker Engine 18.09或更高版本上使用
MountFlags=slave
,因为dockerd
和containerd
位于不同的挂载命名空间中。
配置Docker使用zfs
存储驱动程序
停止Docker。
将
/var/lib/docker/
的内容复制到/var/lib/docker.bk
并删除/var/lib/docker/
的内容。
$ sudo cp -au /var/lib/docker /var/lib/docker.bk
$ sudo rm -rf /var/lib/docker/*
- 在一个或多个专用块设备上创建一个新的
zpool
,并将其挂载到/var/lib/docker/
。确保指定了正确的设备,因为这是破坏性操作。本示例将两个设备添加到池中。
$ sudo zpool create -f zpool-docker -m/var/lib/docker/dev/xvdf/dev/xvdg
该命令创建zpool
并将其命名为zpool-docker
。该名称仅用于显示目的,您可以使用其他名称。使用zfs list
检查是否创建并正确挂载了该池。
$ sudo zfs list
NAME USED AVAIL REFER MOUNTPOINT
zpool-docker 55K 96.4G 19K /var/lib/docker
- 配置Docker使用
zfs
。编辑/etc/docker/daemon.json
并将storage-driver
设置为zfs
。如果文件以前是空的,编辑应如下所示:
{
"storage-driver": "zfs"
}
保存并关闭文件。
- 启动Docker。使用
docker info
来验证存储驱动程序是zfs
。
$ sudo docker info
Containers: 0
Running: 0
Paused: 0
Stopped: 0
Images: 0
Server Version: 17.03.1-ce
Storage Driver: zfs
Zpool: zpool-docker
Zpool Health: ONLINE
Parent Dataset: zpool-docker
Space Used By Parent: 249856
Space Available: 103498395648
Parent Quota: no
Compression: off
<output truncated>
管理zfs
增加正在运行的设备的容量
为了增加zpool
的大小,您需要向Docker主机添加一个专用的块设备,然后使用zpool add
命令将其添加到zpool
中:
$ sudo zpool add zpool-docker /dev/xvdh
限制容器的可写存储配额
如果要基于每个镜像/数据集实施配额,则可以设置size
存储选项以限制单个容器可用于其可写层的空间量。
编辑/etc/docker/daemon.json
并添加以下内容:
{
"storage-driver": "zfs",
"storage-opts": ["size=256M"]
}
查看每个存储驱动程序的所有存储选项:
保存并关闭文件,然后重新启动Docker。
zfs
存储驱动程序如何工作
ZFS使用以下对象:
- 文件系统:按需分配,根据需要从
zpool
分配空间。 - 快照:文件系统的只读节省空间的时间点副本。
- 克隆:快照的读写副本。用于存储与上一层的差异。
创建克隆的过程:
- 从文件系统创建一个只读快照。
- 从快照创建可写克隆。这包含与父层的任何差异。
文件系统,快照和克隆都从下面的zpool分配空间。
磁盘上的镜像和容器层
每个正在运行的容器的联合文件系统都挂载在/var/lib/docker/zfs/graph/
中的挂载点上。继续阅读有关联合文件系统组成的说明。
镜像分层和共享
镜像的基础层是ZFS文件系统。每个子层都是一个基于其下一层的ZFS快照的ZFS克隆。容器是一个ZFS克隆,基于从其创建镜像的顶层的ZFS快照。
下图显示了在一个基于两层镜像的正在运行的容器里,它们是如何放置一起的。
启动容器时,将按顺序执行以下步骤:
镜像的基础层作为ZFS文件系统存在于Docker主机上。
其他镜像层是数据集的克隆,托管正好在其下面的镜像层。
在该图中,通过获取基础层的ZFS快照,然后从该快照创建克隆来添加“Layer 1”。该克隆是可写的,并从zpool按需消耗空间。快照是只读的,将基本层保留为不变的对象。
- 启动容器后,将在镜像上方添加可写层。
在该图中,通过对镜像顶层(“Layer 1”)生成快照并从该快照创建克隆来创建容器的读写层。
- 随着容器修改其可写层的内容,将为更改的块分配空间。默认情况下,这些块为128k。
容器如何使用zfs
进行读写
读取文件
每个容器的可写层都是ZFS克隆,它与其创建的数据集(其父层的快照)共享所有数据。即使正在读取的数据来自较深的一层,读取操作也是最快的。下图说明了块共享的工作方式:
写入文件
编写新文件:根据需要从底层的zpool
中分配空间,并将这些块直接写入容器的可写层。
修改现有文件:仅为更改的块分配空间,并使用写时复制(CoW)策略将这些块写入容器的可写层。这样可以最小化层的大小并提高写入性能。
删除文件或目录:
删除较低层中存在的文件或目录时,即使文件或目录仍存在于较低的只读层中,ZFS驱动程序也会在容器的可写层中屏蔽该文件或目录的存在。
如果在容器的可写层中创建然后删除文件或目录,则
zpool
将回收这些块。
ZFS和Docker性能
有几个因素会影响Docker使用zfs
存储驱动程序的性能。
内存:内存对ZFS性能有重大影响。 ZFS最初是为具有大量内存的大型企业级服务器设计的。
ZFS功能:ZFS包含重复数据删除功能。使用此功能可以节省磁盘空间,但会占用大量内存。建议您为
zpool
禁用此功能,除非您正在使用SAN,NAS或其他硬件RAID技术。ZFS缓存:ZFS将磁盘块缓存在称为自适应替换缓存(ARC)的内存结构中。 ZFS的单一副本ARC功能允许块的多个克隆共享一个块的单个缓存副本。使用此功能,多个运行中的容器可以共享一个缓存块的单个副本。此功能使ZFS成为PaaS和其他高密度用例的不错选择。
碎片:碎片是ZFS等写时复制文件系统的自然副产品。 ZFS通过使用128k的小块大小来减轻这种情况。 ZFS意向日志(ZIL)和合并写入(延迟写入)也有助于减少碎片。您可以使用
zpool status
监视碎片。但是,如果不重新格式化和还原文件系统,就无法对ZFS进行碎片整理。对Linux使用原生ZFS驱动程序:由于性能不佳,不建议使用ZFS FUSE实现。
性能最佳做法
使用快速存储:固态驱动器(SSD)提供比旋转磁盘更快的读写速度。
将卷用于繁重的工作负载:卷为繁重的工作负载提供最佳和最可预测的性能。这是因为它们绕过了存储驱动程序,并且不会产生任何按需分配和写时复制所带来的潜在开销。卷还有其他好处,例如,允许您在容器之间共享数据,并且即使没有正在运行的容器正在使用它们也可以持久存储。