架构 | Tony Bai

标签架构下的文章

基于consul实现微服务的服务发现和负载均衡

九月 10, 2018
0 条评论

一. 背景

随着2018年年初国务院办公厅联合多个部委共同发布了《国务院办公厅关于促进“互联网+医疗健康”发展的意见(国办发〔2018〕26号)》，国内医疗IT领域又迎来了一波互联网医院建设的高潮。不过互联网医院多基于实体医院建设，虽说挂了一个“互联网”的名号，但互联网医院系统也多与传统的院内系统，比如：HIS、LIS、PACS、EMR等共享院内的IT基础设施。

如果你略微了解过国内医院院内IT系统的现状，你就知道目前的多数医院的IT系统相比于互联网行业、电信等行业来说是相对“落伍”的，这种落伍不仅体现在IT基础设施的专业性和数量上，更体现在对新概念、新技术、新设计理念等应用上。虽然国内医院IT系统在技术层面呈现出“多样性”的特征，但整体上偏陈旧和保守 – - 你可以在全国范围内找到10-15年前的各种主流语言(VB、delphi、c#等实现的IT系统，并且系统架构多为两层C/S结构的。

近几年“互联网+医疗”的兴起的确在一些方面提升了医院的服务效率和水平，但这些互联网医疗系统多部署于院外，并主要集中在“做入口”。它们并不算是医院的核心系统：即没有这些互联网系统，医院的业务也是照常进行的(患者可以在传统的窗口办理所有院内业务，就是效率低罢了)。因此，虽然这些互联网医疗系统采用了先进的互联网系统设计理念和技术，但并没有真正提升院内系统的技术水平，它们也只能与院内那些“陈旧”的、难于扩展的系统做对接。

不过互联网医院与这些系统有所不同，虽然它依然“可有可无”，但它却是部署在院内IT基础设施上的系统，同时也受到了院内IT基础设施条件的限制。在我们即将上线的一个针对医院集团的互联网医院版本中，我们就遇到了“被限制”的问题。我们本想上线的Kubernetes集群因为院方提供的硬件“不足”而无法实施，只能“降级”为手工打造的基于consul的微服务服务发现和负载均衡平台，初步满足我们的系统需要。而从k8s到consul的实践过程，总是让我有一种从工业时代回到的农业时代或是“消费降级”的赶脚^_^。

本文就来说说基于当前较新版本的consul实现微服务的服务发现和负载均衡的过程。

二. 实验环境

这里有三台阿里云的ECS，即用作部署consul集群，也用来承载工作负载的节点（这点与真实生产环境还是蛮像的，医院也仅能提供类似的这点儿可怜的设备）：

consul-1: 192.168.0.129
consul-2: 192.168.0.130
consul-3: 192.168.0.131

操作系统：Ubuntu server 16.04.4 LTS
内核版本：4.4.0-117-generic

实验环境安装有：

实验所用的样例程序镜像：

三. 目标及方案原理

本次实验的最基础、最朴素的两个目标：

所有业务应用均基于容器运行
某业务服务容器启动后，会被自动注册服务，同时其他服务可以自动发现该服务并调用，并且到达这个服务的请求会负载均衡到服务的多个实例。

这里选择了与编程语言技术栈无关的、可搭建微服务的服务发现和负载均衡的Hashicorp的consul。关于consul是什么以及其基本原理和应用，可以参见我多年前写的这篇有关consul的文章。

但是光有consul还不够，我们还需要结合consul-template、gliderlab的registrator以及nginx共同来实现上述目标，原理示意图如下：

img{512x368}

原理说明：

对于每个biz node上启动的容器，位于每个node上的Registrator实例会监听到该节点上容器的创建和停止的event，并将容器的信息以consul service的形式写入consul或从consul删除。
位于每个nginx node上的consul-template实例会watch consul集群，监听到consul service的相关event，并将需要expose到external的service信息获取，按照事先定义好的nginx conf template重新生成nginx.conf并reload本节点的nginx，使得nginx的新配置生效。
对于内部服务来说（不通过nginx暴露到外部)，在被registrator写入consul的同时，也完成了在consul DNS的注册，其他服务可以通过特定域名的方式获取该内部服务的IP列表（A地址)和其他信息，比如端口(SRV)，并进而实现与这些内部服务的通信。

参考该原理，落地到我们实验环境的部署示意图如下：

img{512x368}

四. 步骤

下面说说详细的实验步骤。

1. 安装consul集群

首先我们先来安装consul集群。consul既支持二进制程序直接部署，也支持Docker容器化部署。如果consul集群单独部署在几个专用节点上，那么consul可以使用二种方式的任何一种。但是如果consul所在节点还承载工作负载，考虑consul作为整个分布式平台的核心，降低它与docker engine引擎的耦合（docker engine可能会因各种情况经常restart），还是建议以二进制程序形式直接部署在物理机或vm上。这里的实验环境资源有限，我们采用的是以二进制程序形式直接部署的方式。

consul最新版本是1.2.2（截至发稿时），consul 1.2.x版本与consul 1.1.x版本最大的不同在于consul 1.2.x支持service mesh了，这对于consul来说可是革新性的变化，因此这里担心其初期的稳定性，因此我们选择consul 1.1.0版本。

我们下载consul 1.1.0安装包后，将其解压到/usr/local/bin下。

在$HOME下建立consul-install目录，并在其下面存放consul集群的运行目录consul-data。在consul-install目录下，执行命令启动节点consul-1上的consul：

consul-1 node:

# nohup consul agent -server -ui -dns-port=53 -bootstrap-expect=3 -data-dir=/root/consul-install/consul-data -node=consul-1 -client=0.0.0.0 -bind=192.168.0.129 -datacenter=dc1 > consul-1.log & 2>&1

# tail -100f consul-1.log
bootstrap_expect > 0: expecting 3 servers
==> Starting Consul agent...
==> Consul agent running!
           Version: 'v1.1.0'
           Node ID: 'd23b9495-4caa-9ef2-a1d5-7f20aa39fd15'
         Node name: 'consul-1'
        Datacenter: 'dc1' (Segment: '<all>')
            Server: true (Bootstrap: false)
       Client Addr: [0.0.0.0] (HTTP: 8500, HTTPS: -1, DNS: 53)
      Cluster Addr: 192.168.0.129 (LAN: 8301, WAN: 8302)
           Encrypt: Gossip: false, TLS-Outgoing: false, TLS-Incoming: false

==> Log data will now stream in as it occurs:

    2018/09/10 10:21:09 [INFO] raft: Initial configuration (index=0): []
    2018/09/10 10:21:09 [INFO] raft: Node at 192.168.0.129:8300 [Follower] entering Follower state (Leader: "")
    2018/09/10 10:21:09 [INFO] serf: EventMemberJoin: consul-1.dc1 192.168.0.129
    2018/09/10 10:21:09 [INFO] serf: EventMemberJoin: consul-1 192.168.0.129
    2018/09/10 10:21:09 [INFO] consul: Adding LAN server consul-1 (Addr: tcp/192.168.0.129:8300) (DC: dc1)
    2018/09/10 10:21:09 [INFO] consul: Handled member-join event for server "consul-1.dc1" in area "wan"
    2018/09/10 10:21:09 [INFO] agent: Started DNS server 0.0.0.0:53 (tcp)
    2018/09/10 10:21:09 [INFO] agent: Started DNS server 0.0.0.0:53 (udp)
    2018/09/10 10:21:09 [INFO] agent: Started HTTP server on [::]:8500 (tcp)
    2018/09/10 10:21:09 [INFO] agent: started state syncer
==> Newer Consul version available: 1.2.2 (currently running: 1.1.0)
    2018/09/10 10:21:15 [WARN] raft: no known peers, aborting election
    2018/09/10 10:21:17 [ERR] agent: failed to sync remote state: No cluster leader

我们的三个节点的consul都以server角色启动（consul agent -server）,consul集群初始有三个node( -bootstrap-expect=3)，均位于dc1 datacenter(-datacenter=dc1)，服务bind地址为192.168.0.129(-bind=192.168.0.129 )，允许任意client连接（ -client=0.0.0.0）。我们启动了consul ui(-ui)，便于以图形化的方式查看consul集群的状态。我们设置了consul DNS服务的端口号为53（-dns-port=53），这个后续会起到重要作用，这里先埋下小伏笔。

这里我们使用nohup+&符号的方式将consul运行于后台。生产环境建议使用systemd这样的init系统对consul的启停和配置更新进行管理。

从consul-1的输出日志来看，单节点并没有选出leader。我们需要继续在consul-2和consul-3两个节点上也重复consul-1上的操作，启动consul：

consul-2 node:

#nohup consul agent -server -ui -dns-port=53  -bootstrap-expect=3 -data-dir=/root/consul-install/consul-data -node=consul-2 -client=0.0.0.0 -bind=192.168.0.130 -datacenter=dc1 -join 192.168.0.129 > consul-2.log & 2>&1

consul-3 node:

# nohup consul agent -server -ui -dns-port=53  -bootstrap-expect=3 -data-dir=/root/consul-install/consul-data -node=consul-3 -client=0.0.0.0 -bind=192.168.0.131 -datacenter=dc1 -join 192.168.0.129 > consul-3.log & 2>&1

启动后，我们查看到consul-3.log中的日志:

    2018/09/10 10:24:01 [INFO] consul: New leader elected: consul-3
    2018/09/10 10:24:01 [WARN] raft: AppendEntries to {Voter a215865f-dba7-5caa-cfb3-6850316199a3 192.168.0.130:8300} rejected, sending older logs (next: 1)
    2018/09/10 10:24:01 [INFO] raft: pipelining replication to peer {Voter a215865f-dba7-5caa-cfb3-6850316199a3 192.168.0.130:8300}
    2018/09/10 10:24:01 [WARN] raft: AppendEntries to {Voter d23b9495-4caa-9ef2-a1d5-7f20aa39fd15 192.168.0.129:8300} rejected, sending older logs (next: 1)
    2018/09/10 10:24:01 [INFO] raft: pipelining replication to peer {Voter d23b9495-4caa-9ef2-a1d5-7f20aa39fd15 192.168.0.129:8300}
    2018/09/10 10:24:01 [INFO] consul: member 'consul-1' joined, marking health alive
    2018/09/10 10:24:01 [INFO] consul: member 'consul-2' joined, marking health alive
    2018/09/10 10:24:01 [INFO] consul: member 'consul-3' joined, marking health alive
    2018/09/10 10:24:01 [INFO] agent: Synced node info
==> Newer Consul version available: 1.2.2 (currently running: 1.1.0)

consul-3 node上的consul被选为初始leader了。我们可以通过consul提供的子命令查看集群状态：

#  consul operator raft list-peers
Node      ID                                    Address             State     Voter  RaftProtocol
consul-3  0020b7aa-486a-5b44-b5fd-be000a380a89  192.168.0.131:8300  leader  true   3
consul-1  d23b9495-4caa-9ef2-a1d5-7f20aa39fd15  192.168.0.129:8300  follower  true   3
consul-2  a215865f-dba7-5caa-cfb3-6850316199a3  192.168.0.130:8300  follower    true   3

我们还可以通过consul ui以图形化方式查看集群状态和集群内存储的各种配置信息：

img{512x368}

至此，consul集群就搭建ok了。

2. 安装Nginx、consul-template和Registrator

根据前面的“部署示意图”，我们在consul-1和consul-2上安装nginx、consul-template和Registrator，在consul-3上安装Registrator。

a) Nginx的安装

我们使用ubuntu 16.04.4默认源中的nginx版本:1.10.3，通过apt-get install nginx安装nginx，这个无须赘述了。

b) consul-template的安装

consul-template是一个将consul集群中存储的信息转换为文件形式的工具。常用的场景是监听consul集群中数据的变化，并结合模板将数据持久化到某个文件中，再执行某一关联的action。比如我们这里通过consul-template监听consul集群中service信息的变化，并将service信息数据与nginx的配置模板结合，生成nginx可用的nginx.conf配置文件，并驱动nginx重新reload配置文件，使得nginx的配置更新生效。因此一般来说，哪里部署有nginx，我们就应该有一个配对的consul-template部署。

在我们的实验环境中consul-1和consul-2两个节点部署了nginx，因此我们需要在consul-1和consul-2两个节点上部署consul-template。我们直接安装comsul-template的二进制程序（我们使用0.19.5版本），下载安装包并解压后，将consul-template放入/usr/local/bin目录下：

# wget -c https://releases.hashicorp.com/consul-template/0.19.5/consul-template_0.19.5_linux_amd64.zip

# unzip consul-template_0.19.5_linux_amd64.zip
# mv consul-tempate /usr/local/bin
# consul-template -v
consul-template v0.19.5 (57b6c71)

这里先不启动consul-template，后续在注册不同服务的场景中，我们再启动consul-template。

c) Registrator的安装

Registrator是另外一种工具，它监听Docker引擎上发生的容器创建和停止事件，并将启动的容器信息以consul service的形式存储在consul集群中。因此，Registrator和node上的docker engine对应，有docker engine部署的节点上都应该安装有对应的Registator。因此我们要在实验环境的三个节点上都部署Registrator。

Registrator官方推荐的就是以Docker容器方式运行，但这里我并不使用lastest版本，而是用master版本，因为只有最新的master版本才支持service meta数据的写入，而当前的latest版本是v7版本，年头较长，并不支持service meta数据写入。

在所有实验环境节点上执行：

 # docker run --restart=always -d \
    --name=registrator \
    --net=host \
    --volume=/var/run/docker.sock:/tmp/docker.sock \
    gliderlabs/registrator:master\
      consul://localhost:8500

我们看到registrator将node节点上的/var/run/docker.sock映射到容器内部的/tmp/docker.sock上，通过这种方式registrator可以监听到node上docker引擎上的事件变化。registrator的另外一个参数：consul://localhost:8500则是Registrator要写入信息的consul地址（当然Registrator不仅仅支持consul，还支持etcd、zookeeper等），这里传入的是本node上consul server的地址和服务端口。

Registrator的启动日志如下：

# docker logs -f registrator
2018/09/10 05:56:39 Starting registrator v7 ...
2018/09/10 05:56:39 Using consul adapter: consul://localhost:8500
2018/09/10 05:56:39 Connecting to backend (0/0)
2018/09/10 05:56:39 consul: current leader  192.168.0.130:8300
2018/09/10 05:56:39 Listening for Docker events ...
2018/09/10 05:56:39 Syncing services on 1 containers
2018/09/10 05:56:39 ignored: 6ef6ae966ee5 no published ports

在所有节点都启动完Registrator后，我们来先查看一下当前consul集群中service的catelog以及每个catelog下的service的详细信息：

// consul-1:

# curl  http://localhost:8500/v1/catalog/services
{"consul":[]}

目前只有consul自己内置的consul service catelog，我们查看一下consul这个catelog service的详细信息：

// consul-1:

# curl  localhost:8500/v1/catalog/service/consul|jq
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  1189  100  1189    0     0   180k      0 --:--:-- --:--:-- --:--:--  193k
[
  {
    "ID": "d23b9495-4caa-9ef2-a1d5-7f20aa39fd15",
    "Node": "consul-1",
    "Address": "192.168.0.129",
    "Datacenter": "dc1",
    "TaggedAddresses": {
      "lan": "192.168.0.129",
      "wan": "192.168.0.129"
    },
    "NodeMeta": {
      "consul-network-segment": ""
    },
    "ServiceID": "consul",
    "ServiceName": "consul",
    "ServiceTags": [],
    "ServiceAddress": "",
    "ServiceMeta": {},
    "ServicePort": 8300,
    "ServiceEnableTagOverride": false,
    "CreateIndex": 5,
    "ModifyIndex": 5
  },
  {
    "ID": "a215865f-dba7-5caa-cfb3-6850316199a3",
    "Node": "consul-2",
    "Address": "192.168.0.130",
    "Datacenter": "dc1",
    "TaggedAddresses": {
      "lan": "192.168.0.130",
      "wan": "192.168.0.130"
    },
    "NodeMeta": {
      "consul-network-segment": ""
    },
    "ServiceID": "consul",
    "ServiceName": "consul",
    "ServiceTags": [],
    "ServiceAddress": "",
    "ServiceMeta": {},
    "ServicePort": 8300,
    "ServiceEnableTagOverride": false,
    "CreateIndex": 6,
    "ModifyIndex": 6
  },
  {
    "ID": "0020b7aa-486a-5b44-b5fd-be000a380a89",
    "Node": "consul-3",
    "Address": "192.168.0.131",
    "Datacenter": "dc1",
    "TaggedAddresses": {
      "lan": "192.168.0.131",
      "wan": "192.168.0.131"
    },
    "NodeMeta": {
      "consul-network-segment": ""
    },
    "ServiceID": "consul",
    "ServiceName": "consul",
    "ServiceTags": [],
    "ServiceAddress": "",
    "ServiceMeta": {},
    "ServicePort": 8300,
    "ServiceEnableTagOverride": false,
    "CreateIndex": 7,
    "ModifyIndex": 7
  }
]

3. 内部http服务的注册和发现

对于微服务而言，有暴露到外面的，也有仅运行在内部，被内部服务调用的。我们先来看看内部服务，这里以一个http服务为例。

对于暴露到外部的微服务而言，可以通过域名、路径、端口等来发现。但是对于内部服务，我们怎么发现呢？k8s中我们可以通过k8s集群的DNS插件进行自动域名解析实现，每个pod中container的DNS server指向的就是k8s dns server。这样service之间可以通过使用固定规则的域名(比如：your_svc.default.svc.cluster.local)来访问到另外一个service(仅需配置一个service name)，再通过service实现该服务请求负载均衡到service关联的后端endpoint(pod container)上。consul集群也可以做到这点，并使用consul提供的DNS服务来实现内部服务的发现。

我们需要对三个节点的DNS配置进行update，将consul DNS server加入到主机DNS resolver(这也是之前在启动consul时将consul DNS的默认监听端口从8600改为53的原因)，步骤如下：

编辑/etc/resolvconf/resolv.conf.d/base，加入一行：

nameserver 127.0.0.1

重启resolveconf服务

 /etc/init.d/resolvconf restart

再查看/etc/resolve.conf文件：

# cat /etc/resolv.conf
# Dynamic resolv.conf(5) file for glibc resolver(3) generated by resolvconf(8)
#     DO NOT EDIT THIS FILE BY HAND -- YOUR CHANGES WILL BE OVERWRITTEN
nameserver 100.100.2.136
nameserver 100.100.2.138
nameserver 127.0.0.1
options timeout:2 attempts:3 rotate single-request-reopen

我们发现127.0.0.1这个DNS server地址已经被加入到/etc/resolv.conf中了（切记：不要直接手工修改/etc/resolve.conf）。

好了！有了consul DNS，我们就可以发现consul中的服务了。consul给其集群内部的service一个默认的域名：your_svc.service.{data-center}.consul. 之前我们查看了cluster中只有一个consul catelog service，我们就来访问一下该consul service：

# ping -c 3 consul.service.dc1.consul
PING consul.service.dc1.consul (192.168.0.129) 56(84) bytes of data.
64 bytes from iZbp15tvx7it019hvy750tZ (192.168.0.129): icmp_seq=1 ttl=64 time=0.029 ms
64 bytes from iZbp15tvx7it019hvy750tZ (192.168.0.129): icmp_seq=2 ttl=64 time=0.025 ms
64 bytes from iZbp15tvx7it019hvy750tZ (192.168.0.129): icmp_seq=3 ttl=64 time=0.031 ms

# ping -c 3 consul.service.dc1.consul
PING consul.service.dc1.consul (192.168.0.130) 56(84) bytes of data.
64 bytes from 192.168.0.130: icmp_seq=1 ttl=64 time=0.186 ms
64 bytes from 192.168.0.130: icmp_seq=2 ttl=64 time=0.136 ms
64 bytes from 192.168.0.130: icmp_seq=3 ttl=64 time=0.195 ms

# ping -c 3 consul.service.dc1.consul
PING consul.service.dc1.consul (192.168.0.131) 56(84) bytes of data.
64 bytes from 192.168.0.131: icmp_seq=1 ttl=64 time=0.149 ms
64 bytes from 192.168.0.131: icmp_seq=2 ttl=64 time=0.184 ms
64 bytes from 192.168.0.131: icmp_seq=3 ttl=64 time=0.179 ms

我们看到consul服务有三个实例，因此DNS轮询在不同ping命令执行时返回了不同的地址。

现在在主机层面上，我们可以发现consul中的service了。如果我们的服务调用者跑在docker container中，我们还能找到consul服务么？

# docker run busybox ping consul.service.dc1.consul
ping: bad address 'consul.service.dc1.consul'

事实告诉我们：不行！

那么我们如何让运行于docker container中的服务调用者也能发现consul中的service呢？我们需要给docker引擎指定DNS：

在/etc/docker/daemon.json中添加下面配置:

{
    "dns": ["node_ip", "8.8.8.8"] //node_ip： consul_1为192.168.0.129、consul_2为192.168.0.130、consul_3为192.168.0.131
}

重启docker引擎后，再尝试在容器内发现consul服务：

# docker run busybox ping consul.service.dc1.consul
PING consul.service.dc1.consul (192.168.0.131): 56 data bytes
64 bytes from 192.168.0.131: seq=0 ttl=63 time=0.268 ms
64 bytes from 192.168.0.131: seq=1 ttl=63 time=0.245 ms
64 bytes from 192.168.0.131: seq=2 ttl=63 time=0.235 ms

这次就ok了！

接下来我们在三个节点上以容器方式启动我们的一个内部http服务demo httpbackend：

# docker run --restart=always -d  -l "SERVICE_NAME=httpbackend" -p 8081:8081 bigwhite/httpbackendservice:v1.0.0

我们查看一下consul集群内的httpbackend service信息：

# curl  localhost:8500/v1/catalog/service/httpbackend|jq
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  1374  100  1374    0     0   519k      0 --:--:-- --:--:-- --:--:--  670k
[
  {
    "ID": "d23b9495-4caa-9ef2-a1d5-7f20aa39fd15",
    "Node": "consul-1",
    "Address": "192.168.0.129",
   ...
  },
  {
    "ID": "a215865f-dba7-5caa-cfb3-6850316199a3",
    "Node": "consul-2",
    "Address": "192.168.0.130",
   ...
  },
  {
    "ID": "0020b7aa-486a-5b44-b5fd-be000a380a89",
    "Node": "consul-3",
    "Address": "192.168.0.131",
   ...
  }
]

再访问一下该服务：

# curl httpbackend.service.dc1.consul:8081
this is httpbackendservice, version: v1.0.0

内部服务发现成功！

4. 暴露外部http服务

说完了内部服务，我们再来说说那些要暴露到外部的服务，这个环节就轮到consul-template登场了！在我们的实验中，consul-template读取consul中service信息，并结合模板生成nginx配置文件。我们基于默认安装的/etc/nginx/nginx.conf文件内容来编写我们的模板。我们先实验暴露http服务到外面。下面是模板样例：

//nginx.conf.template

.... ...

http {
        ... ...
        ##
        # Virtual Host Configs
        ##

        include /etc/nginx/conf.d/*.conf;
        include /etc/nginx/sites-enabled/*;

        #
        # http server config
        #

        {{range services -}}
        {{$name := .Name}}
        {{$service := service .Name}}
        {{- if in .Tags "http" -}}
        upstream {{$name}} {
          zone upstream-{{$name}} 64k;
          {{range $service}}
          server {{.Address}}:{{.Port}} max_fails=3 fail_timeout=60 weight=1;
          {{end}}
        }{{end}}
        {{end}}

        {{- range services -}} {{$name := .Name}}
        {{- if in .Tags "http" -}}
        server {
          listen 80;
          server_name {{$name}}.tonybai.com;

          location / {
            proxy_pass http://{{$name}};
          }
        }
        {{end}}
        {{end}}

}

consul-template使用的模板采用的是go template的语法。我们看到在http block中，我们要为consul中的每个要expose到外部的catelog service定义一个server block(对应的域名为your_svc.tonybai.com)和一个upstream block。

对上面的模板做简单的解析，弄明白三点，模板基本就全明白了：

{{- range services -}}：标准的{{ range pipeline }}模板语法，services这个pipeline的调用相当于： curl localhost:8500/v1/catalog/services，即获取catelog services列表。这个列表中的每项仅有Name和Tags两个字段可用。
{{- if in .Tags “http” -}}：判断语句，即如果Tags字段中有http这个tag，那么则暴露该catelog service。
{{range $service}}：也是标准的{{ range pipeline }}模板语法，$service这个pipeline调用相当于curl localhost:8500/v1/catalog/service/xxxx，即获取某个service xxx的详细信息，包括Address、Port、Tag、Meta等。

接下来，我们在consul-1和consul-2上启动consul-template：

consul-1:
# nohup  consul-template -template "/root/consul-install/templates/nginx.conf.template:/etc/nginx/nginx.conf:nginx -s reload" > consul-template.log & 2>&1

consul-2:
# nohup  consul-template -template "/root/consul-install/templates/nginx.conf.template:/etc/nginx/nginx.conf:nginx -s reload" > consul-template.log & 2>&1

查看/etc/nginx/nginx.conf，你会发现http server config下面并没有生成任何配置，因为consul集群中还没有满足Tag条件的service（包含tag “http”)。现在我们就来在三个node上创建httpfront services。

# docker run --restart=always -d -l "SERVICE_NAME=httpfront" -l "SERVICE_TAGS=http" -P bigwhite/httpfrontservice:v1.0.0

查看生成的nginx.conf:

upstream httpfront {
      zone upstream-httpfront 64k;

          server 192.168.0.129:32769 max_fails=3 fail_timeout=60 weight=1;

          server 192.168.0.130:32768 max_fails=3 fail_timeout=60 weight=1;

          server 192.168.0.131:32768 max_fails=3 fail_timeout=60 weight=1;

    }

    server {
      listen 80;
          server_name httpfront.tonybai.com;

      location / {
        proxy_pass http://httpfront;
      }
    }

测试一下httpfront.tonybai.com(可通过修改/etc/hosts)，httpfront service会调用内部服务httpbackend(通过httpbackend.service.dc1.consul:8081访问)：

# curl httpfront.tonybai.com
this is httpfrontservice, version: v1.0.0, calling backendservice ok, its resp: [this is httpbackendservice, version: v1.0.0
]

可以在各个节点上查看httpfront的日志：(通过docker logs)，你会发现到httpfront.tonybai.com的请求被均衡到了各个节点上的httpfront service上了：

{GET / HTTP/1.0 1 0 map[Connection:[close] User-Agent:[curl/7.47.0] Accept:[*/*]] {} <nil> 0 [] true httpfront map[] map[] <nil> map[] 192.168.0.129:35184 / <nil> <nil> <nil> 0xc0000524c0}
calling backendservice...
{200 OK 200 HTTP/1.1 1 1 map[Date:[Mon, 10 Sep 2018 08:23:33 GMT] Content-Length:[44] Content-Type:[text/plain; charset=utf-8]] 0xc0000808c0 44 [] false false map[] 0xc000132600 <nil>}
this is httpbackendservice, version: v1.0.0

5. 暴露外部tcp服务

我们的微服务可不仅仅有http服务的，还有直接暴露tcp socket服务的。nginx对tcp的支持是通过stream block支持的。在stream block中，我们来为每个要暴露在外面的tcp service生成server block和upstream block，这部分模板内容如下：

stream {
   {{- range services -}}
   {{$name := .Name}}
   {{$service := service .Name}}
     {{- if in .Tags "tcp" -}}
  upstream {{$name}} {
    least_conn;
    {{- range $service}}
    server {{.Address}}:{{.Port}} max_fails=3 fail_timeout=30s weight=5;
    {{ end }}
  }
     {{end}}
  {{end}}

   {{- range services -}}
   {{$name := .Name}}
   {{$nameAndPort := $name | split "-"}}
    {{- if in .Tags "tcp" -}}
  server {
      listen {{ index $nameAndPort 1 }};
      proxy_pass {{$name}};
  }
    {{end}}
   {{end}}
}

和之前的http服务模板相比，这里的Tag过滤词换为了“tcp”，并且由于端口具有排他性，这里用”名字-端口”串来作为service的name以及upstream block的标识。用一个例子来演示会更加清晰。由于修改了nginx模板，在演示demo前，需要重启一下各个consul-template。

然后我们在各个节点上启动tcpfront service（注意服务名为tcpfront-9999，9999是tcpfrontservice expose到外部的端口）：

# docker run -d --restart=always -l "SERVICE_TAGS=tcp" -l "SERVICE_NAME=tcpfront-9999" -P bigwhite/tcpfrontservice:v1.0.0

启动后，我们查看一下生成的nginx.conf:

stream {

   upstream tcpfront-9999 {
    least_conn;
    server 192.168.0.129:32770 max_fails=3 fail_timeout=30s weight=5;

    server 192.168.0.130:32769 max_fails=3 fail_timeout=30s weight=5;

    server 192.168.0.131:32769 max_fails=3 fail_timeout=30s weight=5;

  }

   server {
      listen 9999;
      proxy_pass tcpfront-9999;
  }

}

nginx对外的9999端口对应到集群内的tcpfront服务！这个tcpfront是一个echo服务，我们来测试一下：

# telnet localhost 9999
Trying 127.0.0.1...
Connected to localhost.
Escape character is '^]'.
hello
[v1.0.0]2018-09-10 08:56:15.791728641 +0000 UTC m=+531.620462772 [hello
]
tonybai
[v1.0.0]2018-09-10 08:56:17.658482957 +0000 UTC m=+533.487217127 [tonybai
]

基于暴露tcp服务，我们还可以实现将全透传的https服务暴露到外部。所谓全透传的https服务，即ssl证书配置在服务自身，而不是nginx上面。其实现方式与暴露tcp服务相似，这里就不举例了。

五. 小结

以上基于consul+consul-template+registrator+nginx实现了一个基本的微服务服务发现和负载均衡框架，但要应用到生产环境还需一些进一步的考量。

关于服务治理的一些功能，consul 1.2.x版本已经加入了service mesh的support，后续在成熟后可以考虑upgrade consul cluster。

consul-template在v0.19.5中还不支持servicemeta的，但在master版本中已经支持，后续利用新版本的consul-template可以实现功能更为丰富的模板，比如实现灰度发布等。

51短信平台：企业级短信平台定制开发专家 https://tonybai.com/
smspush : 可部署在企业内部的定制化短信平台，三网覆盖，不惧大并发接入，可定制扩展；短信内容你来定，不再受约束, 接口丰富，支持长短信，签名可选。

著名云主机服务厂商DigitalOcean发布最新的主机计划，入门级Droplet配置升级为：1 core CPU、1G内存、25G高速SSD，价格5$/月。有使用DigitalOcean需求的朋友，可以打开这个链接地址：https://m.do.co/c/bff6eed92687 开启你的DO主机之路。

我的联系方式：

微博：https://weibo.com/bigwhite20xx
微信公众号：iamtonybai
博客：tonybai.com
github: https://github.com/bigwhite

微信赞赏：
img{512x368}

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。

闲话智慧城市

六月 1, 2016
0 条评论

这一个月，因为工作关系，我接触到了“智慧城市”这个概念，这里打算把这一个月来对智慧城市的认知和“感受”记录下来，算是一个小的总结吧，希望能给大家带去点营养。

一、历程

关于智慧城市，我也是从零基础开始起步的。

这一个月来，我有幸聆听了IBM大中华区智慧城市首席规划师岳梅樱博士关于智慧城市的理解；粗读了岳博士主编的两本有关智慧城市的书《智慧城市顶层设计方法论与实践分享》和《智慧城市：实践分享系列谈》；拜读了心理咨询师王成威老师关于智慧城市建设的顶层规划思路；与中国电科五十四所的专家们讨论过智慧城市建设方面的合作；与公司内部咨询策划同事一起了解了沈阳智慧城市建设的实际情况以及我们公司的参与情况；搜索和浏览了大量网络资料，算是对智慧城市，尤其是有中国特色的智慧城市建设有了一些初步的认知。

二、智慧城市到底是个什么鬼？

我参加岳博士交流会的那天恰是我接触智慧城市概念的第九天，而那时也恰是岳博士在大中华区推动智慧城市建设的第九年，差距有那么一点大哈^_^。

智慧城市到底是什么？很多人愿意以“没有标准定义”来开头，然后再给出自己的定义^_^。从城市发展的角度来说，智慧城市是“城市”发展的一个阶段。在这个阶段里，城市总体呈现出一种比之前各个阶段更为高级的形态。特别古老的城市阶段我们就不提了，想了解城市起源和发展的朋友可以看看美国著名学者刘易斯·芒福德的《城市发展史》。我们主要来说说近二十年左右的现代城市。

按照岳博士的城市断代(由于城市发展水平不同，有些城市在各个节点有重叠，就像中国的工业化和信息化建设就是重叠在一起的一样)，现代城市发展经历了如下几个阶段：

1、数字城市

数字城市开启了城市发展的数字化阶段，是城市发展史上的新纪元。数字城市概念起源于美国政府提出的“数字地球”。数字城市旨在通过先进的IT技术和网络技术将以物理形态存在的城市的各种信息存储到磁盘上，形成一个数字化的虚拟城市。基于这些数字化后的信息，政府可以通过信息化手段来提高各行业管理效率和服务质量，并基于互联网形成初步的业务协同，提高城市运行效率。这一阶段起始于二十世纪九十年代末，并一直持续至今。不同的城市由于自身发展的水平差异，数字化的程度也有不同。

2、无线城市

提到无线城市，人们便想到了遍布大街小巷各个店铺中的各种Wi-Fi，各种运营商4G网络！没错，这就是无线城市在城市人们生活中的真实投射。无线城市让人和物更容易、更快捷、更高速的接入到城市网络和互联网中。满足了城市居民的社交需求，同时也让以前不能采集得到的数据(包括物产生的数据和人产生的数据)源源不断的汇聚到城市管理者那里以供分析、挖掘，辅助管理者决策。无线城市的概念依旧发起于美国，起始于2004年美国费城的“无线城市”计划，并一直持续至今。像“宽带中国”战略都可以理解成我们无线城市建设的一个组成部分。

3、智慧城市

有了数字城市和无线城市的铺垫，才会有智慧城市概念的出现。前面说过：智慧城市是城市发展的更高级形态。这里所谓的“高级”就是在无线城市感知的和收集的、数字城市存储的数据上面加入了一个“智慧”的辅助处理过程，以帮助城市管理者和运营者们快速准确的做出决策。当前阶段这个“智慧”主要就是通过大数据相关技术和机器学习实现的。智慧城市来源于2008年美国的那个蓝色大块头IBM提出的“智慧地球”概念，并在其后的若干年里得到全球城市管理者和建设者的认可。从现如今至未来的一段时间内，全球大部分发达城市都会处于智慧城市这一发展阶段。

智慧城市在全球的发展离不开IBM的大力推广。IBM为何要提出“智慧城市”呢？段子中的说法是这样的：自从IBM历史上最伟大的CEO之一：郭士纳带领IBM转型并走出泥潭之后，IBM进入了一个黄金发展期，股价连连攀升。IBM继续稳固其在金融、保险、通信等行业的领头羊位置，但在在面对城市、面向政府公共事业，IBM的开拓并不是那么顺利。而“智慧城市”让IBM有机会直面城市，直面政府核心，找到新的业绩增长点。

智慧城市离不开IBM，但IBM却是可以“抛弃”智慧城市的。你可能也逐渐感觉到一个奇怪的现象：”IBM在媒体上已经很少提及智慧城市了”，这是因为IBM已经进入了城市发展和建设的下一阶段：认知时代(the cognitive era)。IBM的蓝色基因存活百年（1911年开始)，它可不是白活着。历史上IBM经历了几次波谷，无不是在自我调整中完成自我救赎。伟大的蓝色巨人总是那么先知先觉，在今天公司业绩再次进入一个下行通道时，再次主动寻求转型，将战略切换到“云+认知”的方向上去了。

如果说智慧城市是通过当前的大数据分析、挖掘，初级机器学习等技术充当“智慧”的话，那IBM的认知时代中的那个“智慧”的代言人就是IBM的Watson。Watson就是一段人工智能程序（背后可能是一个集群支撑），它的前身“深蓝”战胜过国际象棋世界冠军，它自己则在美国智力节目Jeopardy!上击败两位人类选手取得冠军。IBM已经将其应用于全球认知商业行业解决方案中，通过API支撑关系抽取、性格分析、情绪分析、概念扩展及权衡分析等智能特性。根据岳博士透露，IBM的认知计算已经开始应用于辅助法官断案和医生临床诊断等行业中去了。

img{512x368}
巴西里约的城市运营中心

三、有中国特色的智慧城市建设

彭明盛于2008年提出智慧地球(smart planet)，后演变出智慧城市概念。之后，IBM开始在全球布道，大政府模式的中国大陆地区自然受到IBM青睐。这一时间段也恰逢我国十二五时期（2011-2015），经济上出现新常态、社会资源（人、财、物）面临更有效、更合理的重新配置，国家提出了新城镇化建设的目标，于是智慧城市这件漂亮的外衣就穿到了中国各级政府的身上，这也符合我们一贯跟在国外先进概念屁股后面走的模式。

近几年，智慧城市在中国可谓是“遍地开花”，你在搜索引擎中搜索“智慧+城市名”，你总是能找到各地关于智慧城市建设的xx年-yy年总体规划、实施规划、行动方案或顶层设计之类的文档，尤其是一线城市、国家中心城市、省会城市以及一些具有地方特色的小城市。那么中国的智慧城市建设到底处于一个什么样的水准呢？下面从主流思路、推动力量和建设效果等几个方面说明一下。

1、中国智慧城市建设所处阶段

中国的信息化具有起步晚、起点高的特点，中国工业化和信息化建设同步并行进行。与此类似，智慧城市与无线城市、数字城市的建设也是重叠并行的，只是在对外的叫法上我们现阶段多统一采用了“智慧城市”这一更高形态。

智慧城市概念自身也在不断演化，伴随着技术的进步，始作俑者IBM在中国智慧城市建设的理念上也有过从1.0到3.0版本的几次演化。和中国经济的地域发展差异很大一样，中国各地的智慧城市建设水平也是参差不齐的。一线城市以及一些国家中心城市经济相对好，基础设施优越，智慧城市建设走在了前面，已经开始着手按照3.0的理念建设了；而其他城市可能还处在智慧城市1.0版本徘徊：基础设施还不完善，网络无法延伸到城市各个角落。这些城市没有能力做更高版本的智慧城市。因此，智慧城市建设在中国会是一个长期的存在。

2、当前中国智慧城市建设主流思路

随着中央政府将智慧城市写入十三五规划，智慧城市得到了前所未有的政策眷顾。智慧城市建设正在将重点从城市基础设施和平台建设向数据互联互通、数据运营和城市运营方面转变，思维也逐渐从行政化走向市场化，这也是当前中国智慧城市的主流思路。政府的数据是智慧城市建设的灵魂，得数据者得天下。各大智慧城市厂商在与合作建设智慧城市时，也都希望能拿到各委办局的数据，并基于这些数据进行运营和创新，找到城市经济的新增长点；同时有了这些数据，厂商可以开发出更惠民的应用，让城市里的居民感受到“智慧”的气息。但从实际效果来看，政府数据开放虽然逐渐破冰，但政府开放数据之路还会很漫长，坎坷还有许多，需要一些耐心。

3、智慧城市建设的三股力量

中国智慧城市建设由三股力量推动。

首先自然是政府。城市的管理和发展是政府的首要职责，智慧城市是政府给城市发展选择的一个方向。政府在智慧城市中扮演着绝对的主导角色，无论是政策导向、法规支撑、资金投入、协调合作还是数据来源，离开了政府一切都玩不转。

其次是传统电信运营商、主机和网络设备提供商、基础设施云服务大数据服务提供商、解决方案提供商和集成商。比如联通、电信、浪潮、华为、中兴、东网科技、神州数码等。这些厂商是每个智慧城市建设的重要建设者、技术支持者和运营参与者。

最后是大体量的互联网公司，比如阿里、腾讯等。他们有一个共同的特点就是自己的产品已经涵盖了大部分城市人口，因此它们可以另辟蹊径。他们可以利用用户优势、入口优势（支付宝、微信）和技术优势打造类城市超级App，让生活在城市中的人们感觉更加智慧。当然这些公司也在寻求与政府的直接合作，但效果似乎并不是那么好。也许是这些公司的价值观与政府的低效、官僚有冲突吧。

4、智慧城市的建设效果

智慧城市涉及方方面面，其建设的主要目标是优化政府行政管理（善政）、改善民生（惠民）和持续推进城市经济发展（兴业）。因此，智慧城市的建设效果绝不仅仅是市民直观感受到的那些。当然民众的直接感受是评价智慧城市建设效果的最重要指标之一：出行方便了、路不堵了、到政府部门办事省心省时了、跑医院不用找黄牛了、生病的孩子在家里就可以通过视频参与到学校的课堂中了，这一切都是智慧城市建设效果在人们真实生活中的投射。

最新的智慧城市建设思路强调顶层设计，强调建立智慧城市评估指标体系，通过这些指标数据可以从微观层面反映出智慧城市建设的效果，尤其是对经济发展的推动作用。

5、与欧美智慧城市建设的差异

智慧城市概念来自欧美，想必欧美在智慧城市建设方面应该领先于我们吧？这个还真不一定。欧美智慧城市的建设思路与中国的智慧城市建设思路有差别。

东西方城市的发展历程不同，西方城市进入现代化时间更长，基础设施良好，城市的运行竟然有序，他们不需要大动干戈的对城市进行翻天覆地的重构，只需在某一领域或行业做持续优化和改进。因此他们在建设智慧城市时，往往打出的口号面向的都是“点”，也有自己的特色，比如柏林的2020年电动汽车行动计划(ActionPlanforElectromobilityBerlin2020)，注册用户可以在大约250平方公里的区域内租用到配备了智能熄火/启动系统、空调和导航系统的smartfortwo车辆，并根据自己的意愿长时间驾驶这些汽车，然后在运营区域内的任何公共停车场归还汽车。

但中国在智慧城市建设过程中，一些城市不顾自身的基础和发展特点，而一味的效仿大而全的智慧城市建设方略，一哄而上，你有我有全都有。基本上一份顶层设计文档，把A城市的名字改为B城市的名字，就可以作为B城市的顶设方案了。这种建设方式不仅造成了严重资源浪费，透支了城市的发展潜力，而且往往是为了智慧而智慧，缺少对城市真实需求的了解，实际效果很差。

欧洲打法和中国打法没有谁更好之分，只有更适合。这一切都基于城市管理者对自己所管理城市的深入认知，对行政权力使用的精准判断，对市民需求的深入理解和对产业发展的高瞻远瞩。

从建设模式上来看，欧美以PPP(公私合作关系：Public-private Partnership)为主，国内则是在近两年才逐渐在政策上适当宽松，逐步引入PPP，但效果似乎不太理想。因为政府始终以老大自居，执行力弱、缺乏契约精神，不能降低姿态和企业平起平坐，不能做到主体对等，这让企业顾虑重重。

四、FAQ

1、智慧城市有炒作概念的成分么？

可以肯定的说，有。

从商业的角度，IBM等智慧城市解决方案厂商是要从政府分一杯羹的，在概念导入阶段，大家都飘在上层，落地的东西很少。

但从一个政府的角度来讲，IBM提出的这些概念也确实是未来城市的发展方向，但政府缺乏在这方面的专业知识、技能和人才，需要各个厂商去帮助他梳理思路，形成落地的可行方案。需要注意的是：政府也要尊重城市现实，不要一味的去做那些不必要的高大上的东西。

从民众的角度，是否智慧并不care。省事省力省钱，让我happy就ok。

在中国虽然也存在概念的泡沫空间，但中国智慧城市建设总体上应该是健康的。有一些公司是脚踏实地的去考虑如何帮助政府去建设一个智慧城市的。当然商业公司是要谋利的，但这是其应得的。

2、在现有政府行政权力机构设置下，智慧城市能运营做好吗？

个人对此事表示悲观。

现有的地方政府机构设置本身就存在各种问题：机构设置重复，职责划分不清，造成人浮于事，行政干预过多，服务职能弱化，重行政领导，轻便民服务。现在的机构设置已经成为了阻碍城市快速发展的绊脚石了。如果在智慧城市运营阶段，依旧旧瓶装新酒，只会大大削弱城市的发展潜力。

我们应该把一个智慧城市视为一个由多个互联互通的子系统构成的单一的宇宙飞船系统，而不是沿用目前这种按领域划分、条块儿分割的部门，这样才能保证智慧城市从全局层面上得到整齐划一的管理。

但这个问题不是一个厂商或许多厂商就能解决的，需要政府更深刻的认识到这一点才能做出调整。

3、智慧城市最需要什么样的人才？

城市是一个复杂的有机体，里面有各种人才在各自岗位上工作，从而使城市正常运转。智慧城市对城市运营人才提出了更高的要求，尤其是对城市统一指挥人才的需求。这样的人才就好比星际迷航中企业号的舰长，他要对城市中的每个环节了如指掌，洞察智慧城市汇聚的信息，快速做出正确的决策。所以我们的教育架构在应对智慧城市时，也应该顺势而动，设置城市综合指挥这样的专业，专门为城市输送这样的人力资源。

五、结语

一切仅仅是开始！

标签架构下的文章

基于consul实现微服务的服务发现和负载均衡

一. 背景

二. 实验环境

三. 目标及方案原理

四. 步骤

1. 安装consul集群

2. 安装Nginx、consul-template和Registrator

3. 内部http服务的注册和发现

4. 暴露外部http服务

5. 暴露外部tcp服务

五. 小结

闲话智慧城市

一、历程

二、智慧城市到底是个什么鬼？

三、有中国特色的智慧城市建设

1、中国智慧城市建设所处阶段

2、当前中国智慧城市建设主流思路

3、智慧城市建设的三股力量

4、智慧城市的建设效果

5、与欧美智慧城市建设的差异

四、FAQ

1、智慧城市有炒作概念的成分么？

2、在现有政府行政权力机构设置下，智慧城市能运营做好吗？

3、智慧城市最需要什么样的人才？

五、结语

欢迎使用邮件订阅我的博客

文章

评论

分类

归档

链接

开源项目

翻译项目

标签 架构 下的文章

基于consul实现微服务的服务发现和负载均衡

一. 背景

二. 实验环境

三. 目标及方案原理

四. 步骤

1. 安装consul集群

2. 安装Nginx、consul-template和Registrator

3. 内部http服务的注册和发现

4. 暴露外部http服务

5. 暴露外部tcp服务

五. 小结

闲话智慧城市

一、历程

二、智慧城市到底是个什么鬼？

三、有中国特色的智慧城市建设

1、中国智慧城市建设所处阶段

2、当前中国智慧城市建设主流思路

3、智慧城市建设的三股力量

4、智慧城市的建设效果

5、与欧美智慧城市建设的差异

四、FAQ

1、智慧城市有炒作概念的成分么？

2、在现有政府行政权力机构设置下，智慧城市能运营做好吗？

3、智慧城市最需要什么样的人才？

五、结语

欢迎使用邮件订阅我的博客

文章

评论

分类

标签

归档

链接

开源项目

翻译项目

标签架构下的文章