Zookeeper 教程

ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。

Zookeeper 的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来,构成一个高效可靠的原语集,并以一系列简单易用的接口提供给用户使用。

ZooKeeper 是 Apache 软件基金会的一个开源软件项目,是 Google的 Chubby 一个开源的实现,是Hadoop和Hbase的重要组件。

Zookeeper 官网:https://zookeeper.apache.org/


1. Zookeeper 功能

Zookeeper 是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

ZooKeeper包含一个简单的原语集,提供 Java 和 C 的接口。

Zookeeper 一个典型的分布式数据一致性的解决方案,分布式应用程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。

 

2. Zookeeper 数据结构

Zookkeeper 提供的名称空间非常类似于标准文件系统,key-value 的形式存储。名称 key 由斜线 / 分割的一系列路径元素,zookeeper 名称空间中的每个节点都是由一个路径标识。

 

3. CAP 理论

Zookeeper 是一个为分布式应用提供一致性服务的软件。一个分布式系统最多只有同事满足一致性(Consistency),可用性(Availability)和分区容错性(Partition tolearance)这三项的两项。 CAP 理论指出对于一个分布式计算系统来说,不可能同时满足以下三点:

  • 一致性:在分布式环境中,一致性是指数据在多个副本之间是否能够保持一致的特性,等同于所有节点访问同一份最新的数据副本。在一致性的需求下,当一个系统在数据一致的状态下执行更新操作后,应该保证系统的数据仍然处于一致的状态。
  • 可用性:每次请求都能获取到正确的响应,但是不保证获取的数据为最新数据。
  • 分区容错性:分布式系统在遇到任何网络分区故障的时候,仍然需要能够保证对外提供满足一致性和可用性的服务,除非是整个网络环境都发生了故障。

一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的两项。

在这三个基本需求中,最多只能同时满足其中的两项,P 是必须的,因此只能在 CP 和 AP 中选择,zookeeper 保证的是 CP,对比 spring cloud 系统中的注册中心 eruka 实现的是 AP。

 

4. BASE 理论

BASE 是 Basically Available(基本可用)、Soft-state(软状态) 和 Eventually Consistent(最终一致性) 三个短语的缩写。

  • 基本可用:在分布式系统出现故障,允许损失部分可用性(服务降级、页面降级)。
  • 软状态:允许分布式系统出现中间状态。而且中间状态不影响系统的可用性。这里的中间状态是指不同的 data replication(数据备份节点)之间的数据更新可以出现延时的最终一致性。
  • 最终一致性:data replications 经过一段时间达到一致性。

BASE 理论是对 CAP 中的一致性和可用性进行一个权衡的结果,理论的核心思想就是:我们无法做到强一致,但每个应用都可以根据自身的业务特点,采用适当的方式来使系统达到最终一致性。

 

5. 谁适合阅读本教程?

本教程是为专业的程序开发人员,通过本教程你可以一步一步了解 zookeeper 的应用。

Zookeeper 可以安装在 Linux、Windows 以及 MacOS 等平台。1. Linux 安装:Zookeeper 下载地址为: https://zookeeper.apache.org/releases.html。选择一稳定版本,本教程使用的 release 版本为3.4.14,下载并安装。3. MacOS 安装:MacOS 下可以直接使用 brew 安装 Zookeeper。使用 Homebrew 安装。