总所周知 Docker 最早诞生于 Linux 平台,利用的是 Linux LXC 技术作为基础。Docker 作为一种 “轻量级虚拟机” 跑在通用操作系统中,那么势必就要对容器进行隔离,保证在宿主机内的独立性。

Namespace Overview

在 Linux Kernel 中有一组名为 Namespace 的系统调用 API。主要作用是封装了全局的系统资源的调用分配,在一个进程中隔离了其他进程的可见性,让自己 “拥有” 整个计算机的资源的能力。一个典型的用途就是容器的实现。

namespace 一种只有 4 个 API:

  • clone:创建一个隔离的进程,可以通过参数控制所拥有的资源
  • setns:允许一个进程到现有的 namespace
  • unshare:从现有 namespace 中移除一个进程
  • ioctl:用法发现 namespace 信息

接下来主要讨论如何创建一个具有隔离性的进程,也就是 clone 这个系统调用的用法。

clone 创建一个新的 namespace(进程),可以对其控制几个方面的资源(通过 CLONE_NEW* 这系列参数)。

  • IPC:CLONE_NEWIPC,System V IPC 和 POSIX message queue
  • Network:CLONE_NEWNET,网络设备等
  • Mount:CLONE_NEWNS,挂载点
  • PID:CLONE_NEWPID,进程的 ID
  • User:CLONE_NEWUSER:用户或组的 ID
  • UTS:CLONE_NEWUTS:Hostname 和 NIS domain

这里 CLONE_NEWNS 比较奇特,这是最早的一个参数,后面也想不到还有更多粒度的资源控制,所以这是一个历史遗留问题。

Namespace Usage

由于 Namespace 是 Linux 的系统调用,所以在其他操作系统是无法编译通过的。可以在 build 时候通过设置 GOOS = linux 解决,但是运行还是要放在 Linux 上运行。

在 Golang 中创建一个新的进程,通过 CLONE_NEW* flag 设置资源隔离。

// +build linux

package main

import (
    "log"
    "os"
    "os/exec"
    "syscall"
)

func main() {
    cmd := exec.Command("sh")

    cmd.SysProcAttr = &syscall.SysProcAttr{
        Cloneflags: syscall.CLONE_NEWUTS | 
        syscall.CLONE_NEWIPC | 
        syscall.CLONE_NEWPID | 
        syscall.CLONE_NEWNS | 
        syscall.CLONE_NEWUSER | 
        syscall.CLONE_NEWNET,
    }

    cmd.Stdin = os.Stdin
    cmd.Stdout = os.Stdout
    cmd.Stderr = os.Stderr

    if err := cmd.Run(); err != nil {
        log.Fatal(err)
    }
}

使用 env GOOS=linux go build -o nsprocess 编译后,copy nsprocess 到 linux 机器上执行。

先看一下 CLONE_NEWUSER 的功能:

$ id
uid=65534(nobody) gid=65534(nogroup) groups=65534(nogroup)

我们可以看到,这时候 UID 和我们宿主机上的不同,表明 user 资源被隔离了。

$ ifconfig
$

网络设备信息也是空的,CLONE_NEWNET 的隔离也生效了。

# hostname -b zxytest
# hostname
zxytest

修改 hostname 后到宿主机发现 hostname 并没有被修改,这就是 CLONE_NEWUTS 的隔离性。

# mount -t proc proc /proc
# ps -ef
UID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 12:16 pts/0    00:00:00 sh
root         3     1  0 12:17 pts/0    00:00:00 ps -ef

mount proc 之后发现进程信息都没有了,只有当前的进程信息。

ps 命名是通过读取 /proc 文件输出的,所以要先 mount proc

以上就 Linux Namespace 的基本用法,也是 docker 的基础技术。