标签 redis 下的文章

通过实例理解API网关的主要功能特性

本文永久链接 – https://tonybai.com/2023/12/03/understand-api-gateway-main-functional-features-by-example

在当今的技术领域中,“下云”的概念正逐渐抬头,像David Heinemeier Hansson(37signals公司的联合创始人, Ruby on Rails的Creator)就直接将公司所有的业务都从公有云搬迁到了自建的数据中心中。虽说大多数企业不会这么“极端”,但随着企业对云原生架构采用的广泛与深入,不可避免地面临着对云服务的依赖。云服务在过去的几年中被广泛应用于构建灵活、可扩展的应用程序和基础设施,为企业提供了许多便利和创新机会。然而,随着业务规模的增长和数据量的增加,云服务的成本也随之上升。企业开始意识到,对云服务的依赖已经成为一个值得重新评估的议题。云服务的开销可能占据了企业可用的预算的相当大部分。为了保持竞争力并更好地控制成本,企业需要寻找方法来减少对云服务的依赖,寻找更经济的解决方案,同时确保仍能获得所需的性能、安全性和可扩展性。

在这样的背景下,我们的关注点是选择一款适宜的API网关,从主流功能特性的角度来评估候选者的支持。API网关作为现代云原生应用架构中的关键组件,扮演着连接前端应用和后端服务的中间层,负责管理、控制和保护API的访问。它的功能特性对于确保API的安全性、可靠性和可扩展性至关重要。

尽管API网关并不是一个新鲜事物了,但对于那些长期依赖于云供应商的服务的人来说,它似乎变得有些“陌生”。因此,本文旨在帮助我们重新理解API网关的主要特性,并获得对API网关选型的能力,以便在停止使用云供应商服务之前,找到一个合适的替代品^_^。

1. API网关回顾

API网关是现代应用架构中的关键组件之一,它的存在简化了应用程序的架构,并为客户端提供一个单一的访问入口,并进行相关的控制、优化和管理。API网关可以帮助企业实现微服务架构、提高系统的可扩展性和安全性,并提供更好的开发者体验和用户体验。

1.1 API网关的演化

随着互联网的快速发展和企业对API的需求不断增长,API网关作为一种关键的中间层技术逐渐崭露头角并经历了一系列的演进和发展。这里将API网关的演进历史粗略分为以下几个阶段:

  • API网关之前的早期阶段

在互联网发展的早期阶段,大多数应用程序都是以单体应用的形式存在。后来随着应用规模的扩大和业务复杂性的增加,单体应用的架构变得不够灵活和可扩展,面向服务架构(Service-Oriented Architecture,SOA)逐渐兴起,企业开始将应用程序拆分成一组独立的服务。这个时期,每个服务都是独立对外暴露API,客户端也是通过这些API直接访问服务,但这会导致一些安全性、运维和扩展性的问题。之后,企业也开始意识到需要一种中间层来管理和控制这种客户端到服务的通信行为,并确保服务的可靠性和安全性,于是开始有了API网关的概念。

  • API网关的兴起

早期的API网关,其主要功能就是单纯的路由和转发。API网关将请求从客户端转发到后端服务,并将后端服务的响应返回给客户端。在这个阶段,API网关的功能非常简单,主要用于解决客户端和后端服务之间的通信问题。

  • API网关的成熟

随着微服务架构的兴起和API应用的不断发展,企业开始将应用程序进一步拆分成更小的、独立部署的微服务。每个对外暴露的微服务都有自己的API,并通过API网关进行统一管理和访问。API网关在微服务架构中的作用变得更加重要,它的功能也逐渐丰富起来了。

在这一阶段,它不仅负责路由和转发请求,API网关还增加了安全和治理的功能,可以满足几个不同领域的微服务需求。比如:API网关可以通过身份认证、授权、访问控制等功能来保护API的安全;通过基于重试、超时、熔断的容错机制等来对API的访问进行治理;通过日志记录、基于指标收集以及Tracing等对API的访问进行观测与监控;支持实时的服务发现等。


API网关(图来自网络)

  • API网关的云原生化

随着云原生技术的发展,如容器化和服务网格(Service Mesh)等,API网关也在不断演进和适应新的环境。在云原生环境中,API网关实现了与容器编排系统(如Kubernetes)和服务网格集成,其自身也可以作为一个云原生服务来部署,以实现更高的可伸缩性、弹性和自动化。同时,新的技术和标准也不断涌现,如GraphQL和gRPC等,API网关也增加了对这些新技术的集成和支持。

1.2 API网关的主要功能特性

从上面的演化历史我们看到:API网关的演进使其从最初简单的请求转发角色,逐渐成为整个API管理和微服务架构中的关键组件。它不仅扮演着API管理层与后端服务层之间的适配器,也是云原生架构中不可或缺的基础设施,使微服务管理更加智能化和自动化。下面是现代API网关承担的主要功能特性,我们后续也会基于这些特性进行示例说明:

  • 请求转发和路由
  • 身份认证和授权
  • 流量控制和限速
  • 高可用与容错处理
  • 监控和可观测性

2. 那些主流的API网关

下面是来自CNCF Landscape中的主流API网关集合(截至2023.11月),图中展示了关于各个网关的一些细节,包括star数量和背后开发的公司或组织:

主流的API网关还有各大公有云提供商的实现,比如:Amazon的API GatewayGoogle Cloud的API Gateway以及上图中的Azure API Management等,但它们不在我们选择范围之内;虽然被CNCF收录,但多数API网关受到的关注并不高,超过1k star的不到30%,这些不是很受关注或dev不是那么active的项目也无法在生产环境担当关键角色;而像APISIXKong这两个受关注很高的网关,它们是建构在Nginx之上实现的,技术栈与我们不契合;而像EMISSARY INGRESS、Gloo等则是完全云原生化或者说是Kubernetes Native的,无法在无Kubernetes的基于VM或裸金属的环境下部署和运行。

好吧,剩下的只有几个Go实现的API Gateway了,在它们之中,我们选择用Tyk API网关来作为后续API功能演示的示例。

注:这并不代表Tyk API网关就要比其他Go实现的API Gateway优秀,只是它的资料比较齐全,适合在本文中作演示罢了。

3. API网关主要功能特性示例(Tyk API网关版本)

3.1 Tyk API网关简介

记得在至少5年前就知道Tyk API网关的存在,印象中它是使用Go语言开发的早期的那批API网关之一。Tyk从最初的纯开源项目,到如今由背后商业公司支持,以Open Core模式开源的网关,一直保持了active dev的状态。经过多年的演进,它已经一款功能强大的开源兼商业API管理和网关解决方案,提供了全面的功能和工具,帮助开发者有效地管理、保护和监控API。同时,Tyk API网关支持多种安装部署方式,即可以单一程序的方式放在物理机或VM上运行,也可以支持容器部署,通过docker-compose拉起,亦可以通过Kubernetes Operator将其部署在Kubernetes中,这也让Tyk API网关具备了在各大公有云上平滑迁移的能力。

关于Tyk API网关开源版本的功能详情,可以点击左边超链接到其官网查阅,这里不赘述。

3.2 安装Tyk API网关

下面我们就来安装一下Tyk API网关,我们直接在VM上安装,VM上的环境是CentOS 7.9。Tyk API提供了很多中安装方法,这里使用CentOS的yum包管理工具安装Tyk API网关,大体步骤如下(演示均以root权限操作)。

3.2.1 创建tyk gateway软件源

默认的yum repo中是不包含tyk gateway的,我们需要在/etc/yum.repos.d下面创建一个新的源,即新建一个tyk_tyk-gateway.repo文件,其内容如下:

[tyk_tyk-gateway]
name=tyk_tyk-gateway
baseurl=https://packagecloud.io/tyk/tyk-gateway/el/7/$basearch
repo_gpgcheck=1
gpgcheck=0
enabled=1
gpgkey=https://packagecloud.io/tyk/tyk-gateway/gpgkey
sslverify=1
sslcacert=/etc/pki/tls/certs/ca-bundle.crt
metadata_expire=300

[tyk_tyk-gateway-source]
name=tyk_tyk-gateway-source
baseurl=https://packagecloud.io/tyk/tyk-gateway/el/7/SRPMS
repo_gpgcheck=1
gpgcheck=0
enabled=1
gpgkey=https://packagecloud.io/tyk/tyk-gateway/gpgkey
sslverify=1
sslcacert=/etc/pki/tls/certs/ca-bundle.crt
metadata_expire=300

接下来我们执行下面命令来创建tyk_tyk-gateway这个repo的YUM缓存:

$yum -q makecache -y --disablerepo='*' --enablerepo='tyk_tyk-gateway'
导入 GPG key 0x5FB83118:
 用户ID     : "https://packagecloud.io/tyk/tyk-gateway (https://packagecloud.io/docs#gpg_signing) <support@packagecloud.io>"
 指纹       : 9179 6215 a875 8c40 ab57 5f03 87be 71bd 5fb8 3118
 来自       : https://packagecloud.io/tyk/tyk-gateway/gpgkey

repo配置和缓存完毕后,我们就可以安装Tyk API Gateway了:

$yum install -y tyk-gateway

安装后的tky-gateway将以一个systemd daemon服务的形式存在于主机上,程序意外退出或虚机重启后,该服务也会被systemd自动拉起。通过systemctl status命令可以查看服务的运行状态:

# systemctl status tyk-gateway
● tyk-gateway.service - Tyk API Gateway
   Loaded: loaded (/usr/lib/systemd/system/tyk-gateway.service; enabled; vendor preset: disabled)
   Active: active (running) since 日 2023-11-19 20:22:44 CST; 12min ago
 Main PID: 29306 (tyk)
    Tasks: 13
   Memory: 19.6M
   CGroup: /system.slice/tyk-gateway.service
           └─29306 /opt/tyk-gateway/tyk --conf /opt/tyk-gateway/tyk.conf

11月 19 20:34:54 iZ2ze18rmx2avqb5xgb4omZ tyk[29306]: time="Nov 19 20:34:54" level=error msg="Connection to Redis faile...b-sub
11月 19 20:35:04 iZ2ze18rmx2avqb5xgb4omZ tyk[29306]: time="Nov 19 20:35:04" level=error msg="cannot set key in pollerC...ured"
11月 19 20:35:04 iZ2ze18rmx2avqb5xgb4omZ tyk[29306]: time="Nov 19 20:35:04" level=error msg="Redis health check failed...=main
Hint: Some lines were ellipsized, use -l to show in full.

3.2.2 安装redis

我们看到tyk-gateway已经成功启动,但从其服务日志来看,它在连接redis时报错了!tyk gateway默认将数据存储在redis中,为了让tyk gateway正常运行,我们还需要安装redis!这里我们使用容器的方式安装和运行一个redis服务:

$docker pull redis:6.2.14-alpine3.18
$docker run -d --name my-redis -p 6379:6379 redis:6.2.14-alpine3.18
e5d1ec8d5f5c09023d1a4dd7d31d293b2d7147f1d9a01cff8eff077c93a9dab7

拉取并运行redis后,我们通过redis-cli验证一下与redis server的连接:

# docker run -it --rm redis:6.2.14-alpine3.18  redis-cli -h 192.168.0.24
192.168.0.24:6379>

我们看到可以正常连接!但此时Tyk Gateway仍然无法与redis正常连接,我们还需要对Tyk Gateway做一些配置调整!

3.2.3 配置Tyk Gateway

yum默认将Tyk Gateway安装到/opt/tyk-gateway下面,这个路径下的文件布局如下:

$tree -F -L 2 .
.
├── apps/
│   └── app_sample.json
├── coprocess/
│   ├── api.h
│   ├── bindings/
│   ├── coprocess_common.pb.go
│   ├── coprocess_mini_request_object.pb.go
│   ├── coprocess_object_grpc.pb.go
│   ├── coprocess_object.pb.go
│   ├── coprocess_response_object.pb.go
│   ├── coprocess_return_overrides.pb.go
│   ├── coprocess_session_state.pb.go
│   ├── coprocess_test.go
│   ├── dispatcher.go
│   ├── grpc/
│   ├── lua/
│   ├── proto/
│   ├── python/
│   └── README.md
├── event_handlers/
│   └── sample/
├── install/
│   ├── before_install.sh*
│   ├── data/
│   ├── init_local.sh
│   ├── inits/
│   ├── post_install.sh*
│   ├── post_remove.sh*
│   ├── post_trans.sh
│   └── setup.sh*
├── middleware/
│   ├── ottoAuthExample.js
│   ├── sampleMiddleware.js
│   ├── samplePostProcessMiddleware.js
│   ├── samplePreProcessMiddleware.js
│   ├── testPostVirtual.js
│   ├── testVirtual.js
│   └── waf.js
├── policies/
│   └── policies.json
├── templates/
│   ├── breaker_webhook.json
│   ├── default_webhook.json
│   ├── error.json
│   ├── monitor_template.json
│   └── playground/
├── tyk*
└── tyk.conf

其中tyk.conf就是tyk gateway的配置文件,我们先看看其默认的内容:

$cat /opt/tyk-gateway/tyk.conf
{
  "listen_address": "",
  "listen_port": 8080,
  "secret": "xxxxxx",
  "template_path": "/opt/tyk-gateway/templates",
  "use_db_app_configs": false,
  "app_path": "/opt/tyk-gateway/apps",
  "middleware_path": "/opt/tyk-gateway/middleware",
  "storage": {
    "type": "redis",
    "host": "redis",
    "port": 6379,
    "username": "",
    "password": "",
    "database": 0,
    "optimisation_max_idle": 2000,
    "optimisation_max_active": 4000
  },
  "enable_analytics": false,
  "analytics_config": {
    "type": "",
    "ignored_ips": []
  },
  "dns_cache": {
    "enabled": false,
    "ttl": 3600,
    "check_interval": 60
  },
  "allow_master_keys": false,
  "policies": {
    "policy_source": "file"
  },
  "hash_keys": true,
  "hash_key_function": "murmur64",
  "suppress_redis_signal_reload": false,
  "force_global_session_lifetime": false,
  "max_idle_connections_per_host": 500
}

我们看到:storage下面存储了redis的配置信息,我们需要将redis的host配置修改为我们的VM地址:

    "host": "192.168.0.24",

然后重启Tyk Gateway服务:

$systemctl daemon-reload
$systemctl restart tyk-gateway

之后,我们再查看tyk gateway的运行状态:

systemctl status tyk-gateway
● tyk-gateway.service - Tyk API Gateway
   Loaded: loaded (/usr/lib/systemd/system/tyk-gateway.service; enabled; vendor preset: disabled)
   Active: active (running) since 一 2023-11-20 06:54:07 CST; 41s ago
 Main PID: 20827 (tyk)
    Tasks: 15
   Memory: 24.8M
   CGroup: /system.slice/tyk-gateway.service
           └─20827 /opt/tyk-gateway/tyk --conf /opt/tyk-gateway/tyk.conf

11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=info msg="Loading API configurations...=main
11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=info msg="Tracking hostname" api_nam...=main
11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=info msg="Initialising Tyk REST API ...=main
11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=info msg="API bind on custom port:0"...=main
11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=info msg="Checking security policy: ...fault
11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=info msg="API Loaded" api_id=1 api_n...ip=--
11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=info msg="Loading uptime tests..." p...k-mgr
11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=info msg="Initialised API Definition...=main
11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=warning msg="All APIs are protected ...=main
11月 20 06:54:07 iZ2ze18rmx2avqb5xgb4omZ tyk[20827]: time="Nov 20 06:54:07" level=info msg="API reload complete" prefix=main
Hint: Some lines were ellipsized, use -l to show in full.

从服务日志来看,现在Tyk Gateway可以正常连接redis并提供服务了!我们也可以通过下面的命令验证网关的运行状态:

$curl localhost:8080/hello
{"status":"pass","version":"5.2.1","description":"Tyk GW","details":{"redis":{"status":"pass","componentType":"datastore","time":"2023-11-20T06:58:57+08:00"}}}

“/hello”是Tyk Gateway的内置路由,由Tyk网关自己提供服务。

到这里Tyk Gateway的安装和简单配置就结束了,接下来,我们就来看看API Gateway的主要功能特性,并借助Tyk Gateway来展示一下这些功能特性。

注:查看Tyk Gateway的运行日志,可以使用journalctl -u tyk-gateway -f命令实时follow最新日志输出。

3.3 功能特性:请求转发与路由

请求转发和路由是API Gateway的主要功能特性之一,API Gateway可以根据请求的路径、方法、查询参数等信息将请求转发到相应的后端服务,其内核与反向代理类似,不同之处在于API Gateway增加了“API”这层抽象,更加专注于构建、管理和增强API。

下面我们来看看Tyk如何配置API路由,我们首先创建一个新API。

3.3.1 创建一个新API

Tyk开源版支持两种创建API的方式,一种是通过调用Tyk的控制类API,一种则是通过传统的配置文件,放入特定目录下。无论哪种方式添加完API,最终都要通过Tyk Gateway热加载(hot reload)或重启才能生效。

注:Tyk Gateway的商业版本提供Dashboard,可以以图形化的方式管理API,并且商业版本的API定义会放在Postgres或MongoDB中,我们这里用开源版本,只能手工管理了,并且API定义只能放在文件中。

下面,我们就来在Tyk上创建一个新的API路由,该路由示例的示意图如下:

在未添加新API之前,我们使用curl访问一下该API路径:

$curl localhost:8080/api/v1/no-authn
Not Found

Tyk Gateway由于找不到API路由,返回Not Found。接下来,我们采用调用tyk gateway API的方式来添加路由:

$curl -v -H "x-tyk-authorization: {tyk gateway secret}" \
  -s \
  -H "Content-Type: application/json" \
  -X POST \
  -d '{
    "name": "no-authn-v1",
    "slug": "no-authn-v1",
    "api_id": "no-authn-v1",
    "org_id": "1",
    "use_keyless": true,
    "auth": {
      "auth_header_name": "Authorization"
    },
    "definition": {
      "location": "header",
      "key": "x-api-version"
    },
    "version_data": {
      "not_versioned": true,
      "versions": {
        "Default": {
          "name": "Default",
          "use_extended_paths": true
        }
      }
    },
    "proxy": {
      "listen_path": "/api/v1/no-authn",
      "target_url": "http://localhost:18081/",
      "strip_listen_path": true
    },
    "active": true
}' http://localhost:8080/tyk/apis | python -mjson.tool 

* About to connect() to localhost port 8080 (#0)
*   Trying ::1...
* Connected to localhost (::1) port 8080 (#0)
> POST /tyk/apis HTTP/1.1
> User-Agent: curl/7.29.0
> Host: localhost:8080
> Accept: */*
> x-tyk-authorization: {tyk gateway secret}
> Content-Type: application/json
> Content-Length: 797
>
} [data not shown]
* upload completely sent off: 797 out of 797 bytes
< HTTP/1.1 200 OK
< Content-Type: application/json
< Date: Wed, 22 Nov 2023 05:38:40 GMT
< Content-Length: 53
<
{ [data not shown]
* Connection #0 to host localhost left intact
{
    "action": "added",
    "key": "no-authn-v1",
    "status": "ok"
}

从curl返回结果我们看到:API已经被成功添加。这时tyk gateway的安装目录/opt/tyk-gateway的子目录apps下会新增一个名为no-authn-v1.json的配置文件,这个文件内容较多,有300行,这里就不贴出来了,这个文件就是新增的no-authn API的定义文件

不过此刻,Tyk Gateway还需热加载后才能为新的API提供服务,调用下面API可以触发Tyk Gateway的热加载:

$curl -H "x-tyk-authorization: {tyk gateway secret}" -s http://localhost:8080/tyk/reload/group | python -mjson.tool
{
    "message": "",
    "status": "ok"
}

注:即便触发热加载成功,但如果body中的json格式错,比如多了一个结尾逗号,Tyk Gateway是不会报错的!

API路由创建完毕并生效后,我们再来访问一下API:

$ curl localhost:8080/api/v1/no-authn
{
    "error": "There was a problem proxying the request"
}

我们看到:Tyk Gateway返回的已经不是“Not Found”了!现在我们创建一下no-authn这个API服务,考虑到适配更多后续示例,这里建立这样一个http server:

// api-gateway-examples/httpserver

func main() {
    // 解析命令行参数
    port := flag.Int("p", 8080, "Port number")
    apiVersion := flag.String("v", "v1", "API version")
    apiName := flag.String("n", "example", "API name")
    flag.Parse()                                         

    // 注册处理程序
    http.HandleFunc("/", func(w http.ResponseWriter, r *http.Request) {
        fmt.Println(*r)
        fmt.Fprintf(w, "Welcome api: localhost:%d/%s/%s\n", *port, *apiVersion, *apiName)
    })                                                                                     

    // 启动HTTP服务器
    addr := fmt.Sprintf(":%d", *port)
    log.Printf("Server listening on port %d\n", *port)
    log.Fatal(http.ListenAndServe(addr, nil))
}

我们启动一个该http server的实例:

$go run main.go -p 18081 -v v1 -n no-authn
2023/11/22 22:02:42 Server listening on port 18081

现在我们再通过tyk gateway调用一下no-authn这个API:

$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18081/v1/no-authn

我们看到这次路由通了!no-authn API返回了期望的结果!

3.3.2 负载均衡

如果no-authn API存在多个服务实例,Tyk Gateway也可以将请求流量负载均衡到多个no-authn服务实例上去,下图是Tyk Gateway进行请求流量负载均衡的示意图:

要实现负责均衡,我们需要调整no-authn API的定义,这次我们直接修改/opt/tyk-gateway/apps/no-authn-v1.json,变更的配置主要有三项:

// /opt/tyk-gateway/apps/no-authn-v1.json

  "proxy": {
    "preserve_host_header": false,
    "listen_path": "/api/v1/no-authn",
    "target_url": "",                  // (1) 改为""
    "disable_strip_slash": false,
    "strip_listen_path": true,
    "enable_load_balancing": true,     // (2) 改为true
    "target_list": [                   // (3) 填写no-authn服务实例列表
      "http://localhost:18081/",
      "http://localhost:18082/",
      "http://localhost:18083/"
    ],

修改完配置后,调用Tyk的控制类API使之生效,然后我们启动三个no-authn的API实例:

$go run main.go -p 18081 -v v1 -n no-authn
$go run main.go -p 18082 -v v1 -n no-authn
$go run main.go -p 18083 -v v1 -n no-authn

接下来,我们多次调用curl访问no-authn API:

$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18081/v1/no-authn
$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18082/v1/no-authn
$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18083/v1/no-authn

$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18081/v1/no-authn
$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18082/v1/no-authn
$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18083/v1/no-authn

我们看到:Tyk Gateway在no-authn API的各个实例之间做了等权重的轮询。如果我们停掉实例3,再来访问该API,我们将得到下面结果:

$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18081/v1/no-authn
$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18082/v1/no-authn
$curl localhost:8080/api/v1/no-authn
Bad Request

$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18081/v1/no-authn
$curl localhost:8080/api/v1/no-authn
Welcome api: localhost:18082/v1/no-authn
$curl localhost:8080/api/v1/no-authn
Bad Request

注:Tyk Gateway商业版通过Dashboard支持配置带权重的RR负载均衡算法

我们看到:实例3已经下线,但Tyk Gateway并不会跳过该已经下线的实例,这在生产环境会给客户端带来不一致的响应。

3.3.3 服务实例存活检测(uptime test)

Tyk Gateway在开启负载均衡的时候,也提供了对后端服务实例的存活检测机制,当某个服务实例down了后,负载均衡机制会绕过该实例将请求发到下一个处于存活状态的实例;而当down机实例恢复后,Tyk Gateway也能及时检测到服务实例上线,并将其加入流量负载调度。

支持存活检测(uptime test)的API定义配置如下:

// /opt/tyk-gateway/apps/no-authn-v1.json

"uptime_tests": {
    "disable": false,
    "poller_group":"",
    "check_list": [
      {
        "url": "http://localhost:18081/"
      },
      {
        "url": "http://localhost:18082/"
      },
      {
        "url": "http://localhost:18083/"
      }
    ],
    "config": {
      "enable_uptime_analytics": true,
      "failure_trigger_sample_size": 3,
      "time_wait": 300,
      "checker_pool_size": 50,
      "expire_utime_after": 0,
      "service_discovery": {
        "use_discovery_service": false,
        "query_endpoint": "",
        "use_nested_query": false,
        "parent_data_path": "",
        "data_path": "",
        "port_data_path": "",
        "target_path": "",
        "use_target_list": false,
        "cache_disabled": false,
        "cache_timeout": 0,
        "endpoint_returns_list": false
      },
      "recheck_wait": 0
    }
}

"proxy": {
    ... ...
    "enable_load_balancing": true,
    "target_list": [
      "http://localhost:18081/",
      "http://localhost:18082/",
      "http://localhost:18083/"
    ],
    "check_host_against_uptime_tests": true,
    ... ...
}

我们新增了uptime_tests的配置,uptime_tests的check_list中的url的值要与proxy中target_list中的值完全一样,这样Tyk Gateway才能将二者对应上。另外proxy的check_host_against_uptime_tests要设置为true。

这样配置并生效后,等我们将服务实例3停掉后,后续到no-authn的请求就只会转发到实例1和实例2了。而当恢复实例3运行后,Tyk Gateway又会将流量分担到实例3上。

3.3.4 动态负载均衡

上面负载均衡示例中target_list中的目标实例的IP和端口的手工配置的,而在云原生时代,我们经常会基于容器承载API服务实例,当容器因故退出,并重新启动一个新容器时,IP可能会发生变化,这样上述的手工配置就无法满足要求,这就对API Gateway提出了与服务发现组件集成的要求:通过服务发现组件动态获取服务实例的访问列表,进而实现动态负载均衡

Tyk Gateway内置了主流服务发现组件(比如Etcd、Consul、ZooKeeper等)的对接能力,鉴于环境所限,这里就不举例了,大家可以在Tyk Gateway的服务发现示例文档页面找到与不同服务发现组件对接时的配置示例。

3.3.5 IP访问限制

针对每个API,API网关还提供IP访问限制的特性,比如Tyk Gateway就提供了IP白名单IP黑名单功能,通常二选一开启一种限制即可。

以白名单为例,即凡是在白名单中的IP才被允许访问该API。下面是白名单配置样例:

// /opt/tyk-gateway/apps/no-authn-v1.json

  "enable_ip_whitelisting": true,
  "allowed_ips": ["12.12.12.12", "12.12.12.13", "12.12.12.14"],

生效后,当我们访问no-authn API时,会得到下面错误:

$curl localhost:8080/api/v1/no-authn
{
    "error": "access from this IP has been disallowed"
}

如果开启的是黑名单,那么凡是在黑名单中的IP都被禁止访问该API,下面是黑名单配置样例:

// /opt/tyk-gateway/apps/no-authn-v1.json

  "enable_ip_blacklisting": true,
  "blacklisted_ips": ["12.12.12.12", "12.12.12.13", "12.12.12.14", "127.0.0.1"],

生效后,当我们访问no-authn API时,会得到如下结果:

$curl 127.0.0.1:8080/api/v1/no-authn
{
    "error": "access from this IP has been disallowed"
}

到目前为止,我们的API网关和定义的API都处于“裸奔”状态,因为没有对客户端进行身份认证,任何客户端都可以访问到我们的API,显然这不是我们期望的,接下来,我们就来看看API网关的一个重要功能特性:身份认证与授权。

3.4 功能特性:身份认证和授权

在《通过实例理解Go Web身份认证的几种方式》一文中,我们提到过:建立全局的安全通道是任何身份认证方式的前提

3.4.1 建立安全通道,卸载TLS证书

Tyk Gateway支持在Gateway层面统一配置TLS证书,同时也起到在Gateway卸载TLS证书的作用:

这次我们要在tyk.conf中进行配置,才能在Gateway层面生效。这里我们借用《通过实例理解Go Web身份认证的几种方式》一文中生成的几个证书(大家可以在https://github.com/bigwhite/experiments/tree/master/authn-examples/tls-authn/make_certs下载),并将它们放到/opt/tyk-gateway/certs/下面:

$ls /opt/tyk-gateway/certs/
server-cert.pem  server-key.pem

然后,我们在/opt/tyk-gateway/tyk.conf文件中增加下面配置:

// /opt/tyk-gateway/tyk.conf 

  "http_server_options": {
    "use_ssl": true,
    "certificates": [
      {
        "domain_name": "server.com",
        "cert_file": "./certs/server-cert.pem",
        "key_file": "./certs/server-key.pem"
      }
    ]
  }

之后,重启tyk gateway服务,使得tyk.conf的配置修改生效。

注:在/etc/hosts中设置server.com为127.0.0.1。

现在我们用之前的http方式访问一下no-authn的API:

$curl server.com:8080/api/v1/no-authn
Client sent an HTTP request to an HTTPS server.

由于全局启用了HTTPS,采用http方式的请求将被拒绝。我们换成https方式访问:

// 不验证服务端证书
$curl -k https://server.com:8080/api/v1/no-authn
Welcome api: localhost:18081/v1/no-authn

// 验证服务端的自签证书
$curl --cacert ./inter-cert.pem https://server.com:8080/api/v1/no-authn
Welcome api: localhost:18081/v1/no-authn

3.4.2 Mutual TLS双向认证

在《通过实例理解Go Web身份认证的几种方式》一文中,我们介绍的第一种身份认证方式就是TLS双向认证,那么Tyk Gateway对MTLS的支持如何呢?Tyk官方文档提到它既支持client mTLS,也支持upstream mTLS

我们更关心的是client mTLS,即客户端在与Gateway建连后,Gateway会使用Client CA验证客户端的证书!我最初认为这个Client CA的配置是在tyk.conf中,但找了许久,也没有发现配置Client CA的地方。

在no-authn API的定义文件(no-authn-v1.json)中,我们做如下配置改动:

  "use_mutual_tls_auth": true,
  "client_certificates": [
      "/opt/tyk-gateway/certs/inter-cert.pem"
  ],

但使用下面命令访问API时报错:

$curl --key ./client-key.pem --cert ./client-cert.pem --cacert ./inter-cert.pem https://server.com:8080/api/v1/no-authn
{
    "error": "Certificate with SHA256 bc8717c0f2ea5a0b81813abb3ec42ef8f9bf60da251b87243627d65fb0e3887b not allowed"
}

如果将”client_certificates”的配置中的inter-cert.pem改为client-cert.pem,则是可以的,但个人感觉这很奇怪,不符合逻辑,将tyk gateway的文档、issue甚至代码翻了又翻,也没找到合理的配置client CA的位置。

Tyk Gateway支持多种身份认证方式,下面我们来看一种使用较为广泛的方式:JWT Auth。

主要JWT身份认证方式的原理和详情,可以参考我之前的文章《通过实例理解Go Web身份认证的几种方式》。

3.4.3 JWT Token Auth

下面是我为这个示例做的一个示意图:

这是我们日常开发中经常遇到的场景,即通过portal用用户名和密码登录后便可以拿到一个jwt token,然后后续的访问功能API的请求仅携带该jwt token即可。API Gateway对于portal/login API不做任何身份认证;而对后续的功能API请求,通过共享的secret(也称为static secret)对请求中携带的jwt token进行签名验证。

portal/login API由于不进行authn,这样其配置与前面的no-authn API几乎一致,只是API名称、路径和target_list有不同:

// apps/portal-login-v1.json

{
  "name": "portal-login-v1",
  "slug": "portal-login-v1",
  "listen_port": 0,
  "protocol": "",
  "enable_proxy_protocol": false,
  "api_id": "portal-login-v1",
  "org_id": "1",
  "use_keyless": true,
  ... ...
  "proxy": {
    "preserve_host_header": false,
    "listen_path": "/api/v1/portal/login",
    "target_url": "",
    "disable_strip_slash": false,
    "strip_listen_path": true,
    "enable_load_balancing": true,
    "target_list": [
      "http://localhost:28084"
    ],
    "check_host_against_uptime_tests": true,
  ... ...
}

对应的portal login API也不复杂:

// api-gateway-examples/portal-login/main.go

package main

import (
    "log"
    "net/http"
    "time"

    "github.com/golang-jwt/jwt/v5"
)

func main() {
    // 创建一个基本的HTTP服务器
    mux := http.NewServeMux()

    username := "admin"
    password := "123456"
    key := "iamtonybai"

    // for uptime test
    mux.HandleFunc("/health", func(w http.ResponseWriter, req *http.Request) {
        w.WriteHeader(http.StatusOK)
    })

    // login handler
    mux.HandleFunc("/", func(w http.ResponseWriter, req *http.Request) {
        // 从请求头中获取Basic Auth认证信息
        user, pass, ok := req.BasicAuth()
        if !ok {
            // 认证失败
            w.WriteHeader(http.StatusUnauthorized)
            return
        }

        // 验证用户名密码
        if user == username && pass == password {
            // 认证成功,生成token
            token := jwt.NewWithClaims(jwt.SigningMethodHS256, jwt.MapClaims{
                "username": username,
                "iat":      jwt.NewNumericDate(time.Now()),
            })
            signedToken, _ := token.SignedString([]byte(key))
            w.Write([]byte(signedToken))
        } else {
            // 认证失败
            http.Error(w, "Invalid username or password", http.StatusUnauthorized)
        }
    })

    // 监听28084端口
    err := http.ListenAndServe(":28084", mux)
    if err != nil {
        log.Fatal(err)
    }
}

运行该login API服务后,我们用curl命令获取一下jwt token:

$curl -u 'admin:123456' -k https://server.com:8080/api/v1/portal/login
eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE3MDA3NTEyODEsInVzZXJuYW1lIjoiYWRtaW4ifQ.-wC8uPsLHDxSXcEMxIxJ8O2l3aWtWtWKvhtmuHmgIMA

现在我们再来建立protected API:

// apps/protected-v1.json

{
  "name": "protected-v1",
  "slug": "protected-v1",
  "listen_port": 0,
  "protocol": "",
  "enable_proxy_protocol": false,
  "api_id": "protected-v1",
  "org_id": "1",
  "use_keyless": false,    // 设置为false, gateway才会进行jwt的验证
  ... ...
  "enable_jwt": true,      // 开启jwt
  "use_standard_auth": false,
  "use_go_plugin_auth": false,
  "enable_coprocess_auth": false,
  "custom_plugin_auth_enabled": false,
  "jwt_signing_method": "hmac",        // 设置alg为hs256
  "jwt_source": "aWFtdG9ueWJhaQ==",    // 设置共享secret: base64("iamtonybai")
  "jwt_identity_base_field": "username", // 设置代表请求中的用户身份的字段,这里我们用username
  "jwt_client_base_field": "",
  "jwt_policy_field_name": "",
  "jwt_default_policies": [
     "5e189590801287e42a6cf5ce"        // 设置security policy,这个似乎是jwt auth必须的
  ],
  "jwt_issued_at_validation_skew": 0,
  "jwt_expires_at_validation_skew": 0,
  "jwt_not_before_validation_skew": 0,
  "jwt_skip_kid": false,
  ... ...
  "version_data": {
    "not_versioned": true,
    "default_version": "",
    "versions": {
      "Default": {
        "name": "Default",
        "expires": "",
        "paths": {
          "ignored": null,
          "white_list": null,
          "black_list": null
        },
        "use_extended_paths": true,
        "extended_paths": {
          "persist_graphql": null
        },
        "global_headers": {
          "username": "$tyk_context.jwt_claims_username" // 设置转发到upstream的请求中的header字段username
        },
        "global_headers_remove": null,
        "global_response_headers": null,
        "global_response_headers_remove": null,
        "ignore_endpoint_case": false,
        "global_size_limit": 0,
        "override_target": ""
      }
    }
  },
  ... ...
  "enable_context_vars": true, // 开启上下文变量
  "config_data": null,
  "config_data_disabled": false,
  "tag_headers": ["username"], // 设置header
  ... ...
}

这个配置就相对复杂许多,也是翻阅了很长时间资料才验证通过的配置。JWT Auth必须有关联的policy设置,我们在tyk gateway开源版中要想设置policy,需要现在tyk.conf中做如下设置:

// /opt/tyk-gateway/tyk.conf

  "policies": {
    "policy_source": "file",
    "policy_record_name": "./policies/policies.json"
  },

而policies/policies.json的内容如下:

// /opt/tyk-gateway/policies/policies.json
{
    "5e189590801287e42a6cf5ce": {
        "rate": 1000,
        "per": 1,
        "quota_max": 100,
        "quota_renewal_rate": 60,
        "access_rights": {
            "protected-v1": {
                "api_name": "protected-v1",
                "api_id": "protected-v1",
                "versions": [
                    "Default"
                ]
            }
        },
        "org_id": "1",
        "hmac_enabled": false
    }
}

上述设置完毕并重启tyk gateway生效后,且protected api服务也已经启动时,我们访问一下该API服务:

$curl -H "Authorization: Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE3MDA3NTEyODEsInVzZXJuYW1lIjoiYWRtaW4ifQ.-wC8uPsLHDxSXcEMxIxJ8O2l3aWtWtWKvhtmuHmgIMA" -k https://server.com:8080/api/v1/protected
invoke protected api ok

我们看到curl发出的请求成功通过了Gateway的验证!并且通过protected API输出的请求信息来看,Gateway成功解析出username,并将其作为Header中的字段传递给了protected API服务实例:

http.Request{Method:"GET", URL:(*url.URL)(0xc0002f6240), Proto:"HTTP/1.1", ProtoMajor:1, ProtoMinor:1, Header:http.Header{"Accept":[]string{"*/*"}, "Accept-Encoding":[]string{"gzip"}, "Authorization":[]string{"Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpYXQiOjE3MDA3NTEyODEsInVzZXJuYW1lIjoiYWRtaW4ifQ.-wC8uPsLHDxSXcEMxIxJ8O2l3aWtWtWKvhtmuHmgIMA"}, "User-Agent":[]string{"curl/7.29.0"}, "Username":[]string{"admin"}, "X-Forwarded-For":[]string{"127.0.0.1"}}, Body:http.noBody{}, GetBody:(func() (io.ReadCloser, error))(nil), ContentLength:0, TransferEncoding:[]string(nil), Close:false, Host:"localhost:28085", Form:url.Values(nil), PostForm:url.Values(nil), MultipartForm:(*multipart.Form)(nil), Trailer:http.Header(nil), RemoteAddr:"[::1]:55583", RequestURI:"/", TLS:(*tls.ConnectionState)(nil), Cancel:(<-chan struct {})(nil), Response:(*http.Response)(nil), ctx:(*context.cancelCtx)(0xc0002e34f0)}

如果不携带Authorization头字段或jwt的token是错误的,那么结果将如下所示:

$ curl -k https://server.com:8080/api/v1/protected
{
    "error": "Authorization field missing"
}

$ curl -k -H "Authorization: Bearer xxx" https://server.com:8080/api/v1/protected
{
    "error": "Key not authorized"
}

一旦通过API Gateway的身份认证,上游的API服务就会拿到客户端身份,有了唯一身份后,就可以进行授权操作了,其实policy设置本身也是一种授权访问控制。Tyk Gateway自身也支持RBAC等模型,也支持与OPA(open policy agent)等的集成,但更多是在商业版的tyk dashboard下完成的,这里也就不重点说明了。

下面的Gateway的几个主要功能特性由于试验环境受限以及文章篇幅考量,我不会像上述例子这么细致的说明了,只会简单说明一下。

3.5 功能特性:流量控制与限速

Tyk Gateway内置提供了强大的流量控制功能,可以通过全局级别和API级别的限速来管理请求流量。此外,Tyk Gateway 还支持请求配额(request quota)来限制每个用户或应用程序在一个时间周期内的请求次数。

流量不仅和请求速度和数量有关系,与请求的大小也有关系,Tyk Gateway还支持在全局层面和API层面设置Request的size limit,以避免超大包对网关运行造成不良影响。

3.6 功能特性:高可用与容错处理

在许多情况下,我们要为客户确保服务水平(service level),比如:最大往返时间、最大响应时延等。Tyk Gateway提供了一系列功能,可帮助我们确保网关的高可用运行和SLA服务水平。

Tyk支持健康检查,这对于确定Tyk Gateway的状态极为重要,没有健康检查,就很难知道网关的实际运行状态如何。

Tyk Gateway还内置了断路器(circuit breaker),这个断路器是基于比例的,因此如果y个请求中的x请求都失败了,断路器就会跳闸,例如,如果x = 10,y = 100,则阈值百分比为10%。当失败比例到达10%时,断路器就会切断流量,同时跳闸还会触发一个事件,我们可以记录和处理该事件。

当upstream的服务响应迟迟不归时,Tyk Gateway还可以设置强制超时,可以确保服务始终在给定时间内响应。这在高可用性系统中非常重要,因为在这种系统中,响应性能至关重要,这样才能干净利落地处理错误。

3.7 功能特性:监控与可观测性

微服务时代,可观测性对运维以及系统高可用的重要性不言而喻。Tyk Gateway在多年的演化过程中,也逐渐增加了对可观测的支持,

可观测主要分三大块:

  • log

Tyk Gateway支持设置输出日志的级别(log level),默认是info级别。Tyk输出的是结构化日志,这使得它可以很好的与其他日志收集查询系统集成,Tyk支持与主流的日志收集工具对接,包括:logstash、sentry、Graylog、Syslog等。

  • metrics

度量数据是反映网关系统健康状况、错误计数和类型、IT基础设施(服务器、虚拟机、容器、数据库和其他后端组件)及其他流程的硬件资源数据的重要参考。运维团队可以通过使用监控工具来利用实时度量的数据,识别运行趋势、在系统故障时设置警报、确定问题的根本原因并缓解问题。

Tyk Gateway内置了对主流metrics采集方案Prometheus+Grafana的支持,可以在网关层面以及对API进行实时度量数据采集和展示。

  • tracing

Tyk Gateway从5.2版本开始支持了与服务Tracing界的标准:OpenTelemetry的集成,这样你可以使用多种支持OpenTelemetry的Tracing后端,比如Jaeger、Datadog等。Tracing可在Gateway层面开启,也可以延展到API层面。

4. 小结

本文对已经相对成熟的API网关技术做了回顾,对API网关的演进阶段、主流特性以及当前市面上的主流API网关进行了简要说明,并以Go实现的Tyk Gateway社区开源版为例,以示例方式对API网关的主要功能做了介绍。

总体而言,Tyk Gateway是一款功能强大,社区相对活跃并有商业公司支持的产品,文档很丰富,但从实际使用层面,这些文档对Tyk社区版本的使用者来说并不友好,指导性不足(更多用商业版的Dashboard说明,与配置文件难于对应),就像本文例子中那样,为了搞定JWT认证,笔者着实花了不少时间查阅资料,甚至阅读源码。

Tyk Gateway的配置设计平坦,没有层次和逻辑,感觉是随着时间随意“堆砌”上去的。并且配置文件更新时,如果出现格式问题,Tyk Gateway并不报错,让人难于确定配置是否真正生效了,只能用Tyk Gateway的控制API去查询结果来验证,非常繁琐低效。

本文涉及的源码可以在这里下载,文中涉及的一些tyk gateway api和security policy的配置也可以在其中查看。

5. 参考资料


“Gopher部落”知识星球旨在打造一个精品Go学习和进阶社群!高品质首发Go技术文章,“三天”首发阅读权,每年两期Go语言发展现状分析,每天提前1小时阅读到新鲜的Gopher日报,网课、技术专栏、图书内容前瞻,六小时内必答保证等满足你关于Go语言生态的所有需求!2023年,Gopher部落将进一步聚焦于如何编写雅、地道、可读、可测试的Go代码,关注代码质量并深入理解Go核心技术,并继续加强与星友的互动。欢迎大家加入!

img{512x368}
img{512x368}

img{512x368}
img{512x368}

著名云主机服务厂商DigitalOcean发布最新的主机计划,入门级Droplet配置升级为:1 core CPU、1G内存、25G高速SSD,价格5$/月。有使用DigitalOcean需求的朋友,可以打开这个链接地址:https://m.do.co/c/bff6eed92687 开启你的DO主机之路。

Gopher Daily(Gopher每日新闻) – https://gopherdaily.tonybai.com

我的联系方式:

  • 微博(暂不可用):https://weibo.com/bigwhite20xx
  • 微博2:https://weibo.com/u/6484441286
  • 博客:tonybai.com
  • github: https://github.com/bigwhite
  • Gopher Daily归档 – https://github.com/bigwhite/gopherdaily

商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。

关系代数、SQL语句和Go语言示例

本文永久链接 – https://tonybai.com/2023/11/15/relational-algebra-and-sql-with-go-examples

近些年,数据库领域发展日新月异,除传统的关系型数据库外,还出现了许多新型的数据库,比如:以HBase、Cassandra、MongoDB为代表的NoSQL数据库,以InfluxDB、TDEngine为代表的时序数据库,以Neo4J、Dgraph为代表的图数据库,以Redis、Memcached等为代表的内存数据库,以Milvus为代表的向量数据库,以CockroachDB、TiDB为代表的HTAP融合数据库以及云原生数据库等。各类型数据库都有自己的优势,开发者可以根据应用场景选择最合适的数据库。

不过,关系型数据库依旧是当今最流行的数据库管理系统,广泛应用于企业应用,也是大多数数应用开发人员日常接触最多的一种数据库类型。关系型数据库通过关系模型和关系代数的理论基础,实现了对关系数据的高效组织和操作。但许多开发人员在使用SQL进行数据库开发时,往往感到关系代数晦涩难懂,对SQL语句的语义理解不透彻,这给数据库应用开发带来了困难。

在这篇文章中,我们就来研究一下关系模型和关系代数,探究其与SQL语句的对应关系,并用Go语言代码示例实现相关查询,期望能帮助读者增进对关系数据库的理解,减轻数据库开发痛点,提高数据库应用能力。

1. 关系模型(Relational Model)

20世纪70年代,IBM研究员E.F. Codd在“A Relational Model of Data for Large Shared Data Banks”这篇论文中提出了关系模型的概念。随后,E.F.Codd又陆续发表了多篇文章,用数学理论奠定了关系数据库的基础,为关系数据库建立了一个数据模型 —— 关系数据模型

关系模型基于谓词逻辑和集合论,有严格的数学基础,提供了高级别的数据抽象层次,并不规定数据存取的具体过程,而是交由DBMS(数据库管理系统)自己实现。

关系模型之所以成为DBMS领域的主流模型,正是由于其非常简单(相较于更早的网络模型(network model)和层次模型(hierarchical model)),下面是关系模型中定义的一些概念:

  • 关系(Relation)

E.F.Codd的论文对关系(Relation)的定义是这样的:“这里的关系是指公认的数学意义上的关系。给定集合S1, S2, … ,Sn(不一定互不相关),如果 R是由n元组(n-tuples)组成的集合,其中每个元组的第一个元素来自S1,第二个元素来自S2,以此类推,那么R就是这n个集合(S1~Sn)上的一个关系”。

不用你说,我也知道这段文字太过抽象!下面我尽力用一个图来呈现一下Relation的含义:

我们看到,关系(Relation)是一个集合,实质上是一个“二维表格结构”,把上图中不属于R中的元组去掉,看起来可能更清晰一些:

这个结构中的每一行就是1个n元组(n-tuples),列则是S1到Sn,一共n个列。n元组中的数据依次分别来自S1、S2、…Sn。

  • 元组(Tuple)

关系(Relation)这个“二维表格结构”中的每一个n元组,即每一行,被称作元组(Tuple)。

  • 属性(Attribute)

关系(Relation)这个“二维表格结构”中的每一列(Sn)被称作一个属性(Attribute)。

  • 域(Domain)

属性可能取值的范围被称为该属性的域,以图中属性S3为例,S3-e1、S3-e2一直到S3-ek都在该属性的域中,显然{S3-e1, S3-e2, …, S3-ek}这个集合是属性S3的域的一个子集。有个特殊的值null是所有域的一个成员,它一般表示值为”unknown”。

论文在定义关系模型时,还定义了一些模型的额外特征,比如:

  • 元组的顺序是不重要的;
  • 所有的元组(行)是不同的;
  • … …

有了关系模型的定义,接下来就可以在模型基础上定义以关系操作对象的运算了,这种运算的集合就构成了关系代数

2. 关系代数(Relational Algebra)

关系代数由一系列操作组成,这些操作将一个或两个关系作为输入,并产生一个新的关系作为结果。概括来说就是关系代数的运算通过输入有限数量的关系进行运算,运算结果仍为关系。

关系代数定义了一些基本关系运算和扩展关系运算,其中基本关系运算包括:

  • 选择(Selection)
  • 投影(Projection)
  • 笛卡儿积(Cartesian Product)
  • 连接(Join)
  • 除(Division)
  • 关系并(Union)
  • 关系差(Difference)

扩展运算包括:

  • 关系交(Intersection)
  • 重命名(Rename)
  • … …

注:关于关系代数的基本关系运算与扩展关系运算的定义在不同书籍里或资料里有所不同。比如在《数据库查询优化器的艺术》一书中,作者认为:关系代数(Relational Algebra)是在集合代数基础上发展起来的,其数据的操作可分为传统的集合运算和专门的关系运算两类。传统的集合运算包括并(Union)、差(Difference)、交(Intersection)和笛卡儿积(Cartesion Product),专门的关系运算包括选择(Select)、投影(Project)、连接(Join)和除(Division)。关系代数中五个基本的操作并(Union)、差(Difference)、笛卡儿积(Cartesion Product)、选择(Select)和投影(Project)组成了关系代数完备的操作集。

关系代数中的一些操作(如选择、投影和重命名操作)被称为一元操作(unary operation),因为它们只对一个关系进行操作。其他操作,如关系并、笛卡尔积和关系差,则是对一对关系进行操作,因此称为二元操作(binary operation):

到这里,我们知道了关系模型的概念定义以及基于关系的代数运算都有哪些。那么关系模型、代数运算与我们日常的关系数据库以及我们使用的SQL语句的对应关系是什么呢?接下来我们就逐一说明一下。

3. 关系模型与关系数据库实现的对应关系

讲到这里,其实大家心里或多或少都有个数了,关系模型与关系数据库实现中概念的对应关系十分明显:

  • 关系型数据库中的表(table)对应关系模型中的关系(relation);
  • 关系型数据库中的表的记录行(row)对应关系模型中的元组(triple);
  • 关系型数据库中的表的列(column)对应关系模型中的属性(attribute);
  • 关系型数据库中的表的列数据类型(column type)对应关系模型中的属性的域(domain)。

当然关系型数据库与关系模型还有一些对应关系不是本文重点,比如:

  • 关系模型中的关系完整性约束(如实体完整性、参照完整性等)对应于关系数据库中的约束(如主键约束、外键约束等)。
  • 关系模型中的范式理论(如第一范式、第二范式等)对应于关系数据库中的数据规范化过程。

我们下面要关注的一个最重要的对应就是关系模型中的关系代数运算对应于关系数据库中的查询操作,我们可以使用SQL语句来实现关系模型中的运算,这也是下面我们要重点说明的内容,通过了解SQL语句背后实现的关系代数运算的本质,将可以帮助我们更好地理解关系模型,对后续数据库设计以及数据操作的高效性都大有裨益。

4. 关系代数与SQL的对应关系

终于来到最重要的内容了,其实就是通过SQL如何实现关系代数的操作,这也是作为应用开发人员最最关心的内容。

4.1 预先定义的关系

为了便于后续的说明,这里我们预先定义一些关系(表),它们将用在后续说明各个关系运算符的示例中,这些表见下图:

这里包含一个学生表(Students)、一个课程清单表(Courses)以及两年年度的选课表:CourseSelection2022和CourseSelection2023(注:这里不讨论表设计的合理性)。

文中使用sqlite做为数据库管理系统(DBMS)的代表,主要是为了简单,SQL标准的兼容性也不错。下面的Go代码用于创建上图中的表并插入样例数据:

// relational-algebra-examples/create_database/main.go

package main

import (
    "database/sql"
    "fmt"

    _ "modernc.org/sqlite"
)

func createTable(db *sql.DB, sqlStmt string) error {
    stmt, err := db.Prepare(sqlStmt)
    if err != nil {
        fmt.Println("prepare statement error:", err)
        return err
    }

    _, err = stmt.Exec()
    if err != nil {
        fmt.Println("exec prepared statement error:", err)
        return err
    }

    return nil
}

func createTables(db *sql.DB) error {
    // 创建Students表
    err := createTable(db, `CREATE TABLE IF NOT EXISTS Students (
    Sno INTEGER PRIMARY KEY,
    Sname TEXT,
    Gender TEXT,
    Age INTEGER
  )`)
    if err != nil {
        fmt.Println("create table Students error:", err)
        return err
    }

    // 创建Courses表
    err = createTable(db, `CREATE TABLE IF NOT EXISTS Courses (
    Cno INTEGER PRIMARY KEY,
    Cname TEXT,
    Credit INTEGER
  )`)
    if err != nil {
        fmt.Println("create table Courses error:", err)
        return err
    }

    // 2022选课表
    err = createTable(db, `CREATE TABLE CourseSelection2022 (
  Sno INTEGER,
  Cno INTEGER,
  Score INTEGER,

  PRIMARY KEY (Sno, Cno),
  FOREIGN KEY (Sno) REFERENCES Students(Sno),
  FOREIGN KEY (Cno) REFERENCES Courses(Cno)
)`)
    if err != nil {
        fmt.Println("create table CourseSelection2022 error:", err)
        return err
    }

    // 2023选课表
    err = createTable(db, `CREATE TABLE CourseSelection2023 (
  Sno INTEGER,
  Cno INTEGER,
  Score INTEGER,

  PRIMARY KEY (Sno, Cno),
  FOREIGN KEY (Sno) REFERENCES Students(Sno),
  FOREIGN KEY (Cno) REFERENCES Courses(Cno)
)`)

    if err != nil {
        fmt.Println("create table CourseSelection2023 error:", err)
        return err
    }
    return nil
}

func checkErr(err error) {
    if err != nil {
        panic(err)
    }
}

func insertData(db *sql.DB) {
    // 向Students表插入数据
    stmt, err := db.Prepare("INSERT INTO Students VALUES (?, ?, ?, ?)")
    checkErr(err)

    _, err = stmt.Exec(1001, "张三", "M", 20)
    checkErr(err)
    _, err = stmt.Exec(1002, "李四", "F", 18)
    checkErr(err)
    _, err = stmt.Exec(1003, "王五", "M", 19)
    checkErr(err)

    // 向Courses表插入数据
    stmt, err = db.Prepare("INSERT INTO Courses VALUES (?, ?, ?)")
    checkErr(err)

    _, err = stmt.Exec(1, "数据库", 4)
    checkErr(err)
    _, err = stmt.Exec(2, "数学", 2)
    checkErr(err)
    _, err = stmt.Exec(3, "英语", 3)
    checkErr(err)

    // 插入2022选课数据
    stmt, _ = db.Prepare("INSERT INTO CourseSelection2022 VALUES (?, ?, ?)")
    _, err = stmt.Exec(1001, 1, 85)
    checkErr(err)
    _, err = stmt.Exec(1001, 2, 80)
    checkErr(err)
    _, err = stmt.Exec(1002, 1, 83)
    checkErr(err)
    _, err = stmt.Exec(1003, 1, 76)
    checkErr(err)
    // ...

    // 插入2023选课数据
    stmt, _ = db.Prepare("INSERT INTO CourseSelection2023 VALUES (?, ?, ?)")
    stmt.Exec(1001, 3, 75)
    checkErr(err)
    stmt.Exec(1002, 2, 81)
    checkErr(err)
    stmt.Exec(1003, 3, 86)
    checkErr(err)
}

func main() {
    db, err := sql.Open("sqlite", "../test.db")
    defer db.Close()
    if err != nil {
        fmt.Println("open test.db error:", err)
        return
    }

    err = createTables(db)
    if err != nil {
        fmt.Println("create table error:", err)
        return
    }

    insertData(db)
}

这里我们使用了cznic大神实现并开源的modernc.org/sqlite,这是一个纯Go的sqlite3数据库driver。Go社区另一个广泛使用的sqlite3的driver库为go-sqlite3,只不过go-sqlite3是使用cgo对sqlite3 C库的封装。

执行上面go代码,便可以建立一个名为test.db的sqlite数据库,我们通过sqlite官方的命令行工具(cli)也可以与该数据库文件交互(这里我们使用的是容器版cli),比如:

$docker pull  nouchka/sqlite3

// cd到test.db文件路径下

$docker run -v {test.db文件所在目录的绝对路径}:/root/db -it nouchka/sqlite3
SQLite version 3.40.1 2022-12-28 14:03:47
Enter ".help" for usage hints.
Connected to a transient in-memory database.
Use ".open FILENAME" to reopen on a persistent database.
sqlite> .open ./test.db
sqlite> .databases
main: /root/db/test.db r/w
sqlite> .tables
CourseSelection2022  Courses
CourseSelection2023  Students
sqlite>

接下来,我们就先从关系代数运算中最容易理解的一元运算符开始说起。

4.2. 选择(Selection)

“选择”是一元关系运算,它的运算符为σ,语义如下:

R' = σ[p](R) = {t | t∈R ∩ p(t) = true } // 这里用[p]表示数学符号的下标

其中R为关系,t为元组,p是谓词(predicate)表达式的组合,可以由一个或多个谓词表达式构成。

这个语义相对好理解一些:它对R的操作结果依然是关系R’,即一个新元组集合,这个元组集合中的元组来自R,但必须满足p(t) = true的条件。说直白一些,就是选择满足给定条件的元组。下面是一个“选择”操作的示意图:

我们可以用下面最常见的SQL语句实现对单一关系(表)的选择运算:

SELECT * FROM R WHERE p(t) = true;

对应Go示例的代码片段如下:

// relational-algebra-examples/query/main.go

func doSelection(db *sql.DB) {
    rows, _ := db.Query("SELECT * FROM CourseSelection2022 where score >= 80") // p(t)为score >= 80
    var selections []CourseSelection
    for rows.Next() {
        var s CourseSelection
        rows.Scan(&s.Sno, &s.Cno, &s.Score)
        selections = append(selections, s)
    }
    fmt.Println(selections)
}

输出结果为:

[{1001 1 85} {1001 2 80} {1002 1 83}]

4.3 投影(Projection)

“投影”也是一元关系运算,它的运算符为∏,语义如下:

R' = ∏[A1,A2,...,An](R) = {t[A1,A2,...,An]| t∈R } // 这里A1,A2,...,An表示从R中取出的列名

显然和“选择”通过谓词表达式选元组不同,“投影”选择一个关系中的指定列(A1,A2,…,An),即选择需要的属性。下面是其运算过程的示意图:

“投影”对应的SQL语句也是我们最熟悉的语句:

SELECT A1, A2, ..., An FROM R;

对应Go示例的代码片段如下:

// relational-algebra-examples/query/main.go

func doProjection(db *sql.DB) {
    rows, _ := db.Query("SELECT Sno, Sname FROM Students") // A1 = Sno, A2 = Sname
    var students []Student
    for rows.Next() {
        var s Student
        rows.Scan(&s.Sno, &s.Sname)
        students = append(students, s)
    }
    fmt.Println(students)
}

输出结果为:

[{1001 张三  0} {1002 李四  0} {1003 王五  0}]

不过要注意的是:取消某些关系列后可能出现重复行,违反了关系的定义(关系是一个元组的集合),因此必须检查并去除结果关系中重复的元组。

4.4 运算符的组合(Composition)

关系运算的输入是关系,结果也是一个关系,因此我们可以将关系运算符组合成一个更复杂的关系运算符表达式来实现更复杂的运算。比如将上面的两个一元关系运算符组合在一起“先选元组,再选属性”:

R' = ∏[A1,A2,...,An](σ[p](R))

其运算过程如下图所示:

上述运算符组合对应的SQL语句如下:

SELECT A1, A2, ..., An FROM R where p(t) = true;

对应Go示例的代码片段如下:

// relational-algebra-examples/query/main.go

func doCompositionOperation(db *sql.DB) {
    rows, _ := db.Query("SELECT Sno, Sname FROM Students where age >= 20")
    var students []Student
    for rows.Next() {
        var s Student
        rows.Scan(&s.Sno, &s.Sname)
        students = append(students, s)
    }
    fmt.Println(students)
}

输出结果为:

[{1001 张三  0}]

无论是选择运算还是投影运算,亦或是组合之后的运算,理解起来都相对容易,因为只涉及一个“关系”。接下来我们就看一下涉及两个关系的二元运算符,我们先来看看集合运算

4.5 关系交(Intersection)

如果没有记错,我们是在高中学习的集合代数。那时定义两个集合的交集运算是这样的:

对于集合A和B,其交运算(Intersction)为:

A ∩ B = { x | x ∈ A且 x ∈ B}

用一个一维空间的数的集合的例子来说,就是当A = {1, 2, 3, 4, 5},B = { 3, 5, 6, 9}时,A ∩ B = {3, 5}。我们通常用维恩图来示意集合运算:

在关系模型中,元组是一维集合,关系是元组的集合,即是一个二维集合,那么基于关系的交运算就要有一个前提:那就是参与运算的两个关系的属性必须是兼容的

两个关系的属性兼容需满足以下条件:

  • 属性数量相同

两个关系中的属性数量必须相同。

  • 属性类型相同或可转换

两个关系中对应位置的属性类型必须相同或可以通过类型转换进行兼容。例如,一个关系中的属性类型是整数,而另一个关系中的属性类型是浮点数,这种情况下属性类型是兼容的,因为整数可以隐式转换为浮点数。

  • 属性名称可以不同

两个关系中对应位置的属性名称可以不同,只要它们的属性类型兼容即可。属性名称的不同不会影响属性兼容性。

在关系模型中,两个关系的属性兼容性是判断两个关系是否可以进行某些操作(包括集合操作)的重要条件之一。

回到集合运算,如果两个关系的属性不兼容,则这两个关系无法进行集合运算,比如Students表和Courses表的属性个数不同,如果对它们进行关系交运算,会导致报错:

SELECT * FROM Students INTERSECT SELECT * FROM Courses;
Parse error: SELECTs to the left and right of INTERSECT do not have the same number of result columns

介绍完集合运算的前提后,我们再来看关系交运算,其语义入下:

R' = R1 ∩ R2

即两个关系R1和R2在属性兼容的前提下进行关系交运算的结果为返回两个关系中相同的元组。

关系交运算对应的SQL语句如下:

SELECT * FROM R1 INTERSECT SELECT * FROM R2;

对应Go示例的代码片段如下:

// relational-algebra-examples/query/main.go

func doIntersection(db *sql.DB) {
    rows, _ := db.Query("SELECT * FROM CourseSelection2022 INTERSECT SELECT * FROM CourseSelection2023")
    var selections []CourseSelection
    for rows.Next() {
        var s CourseSelection
        rows.Scan(&s.Sno, &s.Cno, &s.Score)
        selections = append(selections, s)
    }
    fmt.Println(selections)
}

由于CourseSelection2022和CourseSelection2023这两个关系没有相同元组,所以上述Go程序输出的结果为空。

4.6 关系并(Union)

和关系交一样,两个关系进行关系并运算的前提也是属性兼容。关系并运算的语义如下:

R' = R1 ∪ R2

即两个关系R1和R2在属性兼容的前提下进行关系并运算的结果为返回两个关系中的所有元组,但要去除重复元组。

关系并对应的SQL语句如下:

SELECT * FROM R1 UNION SELECT * FROM R2;

对应Go示例的代码片段如下:

// relational-algebra-examples/query/main.go

func doUnion(db *sql.DB) {
    rows, _ := db.Query("SELECT * FROM CourseSelection2022 UNION SELECT * FROM CourseSelection2023")
    var selections []CourseSelection
    for rows.Next() {
        var s CourseSelection
        rows.Scan(&s.Sno, &s.Cno, &s.Score)
        selections = append(selections, s)
    }
    fmt.Println(selections)
}

CourseSelection2022和CourseSelection2023这两个关系没有重复元组,所有关系并运算后得到的结果关系中包含了这两个关系的全部元组,上述程序的输出结果为:

[{1001 1 85} {1001 2 80} {1001 3 75} {1002 1 83} {1002 2 81} {1003 1 76} {1003 3 86}]

4.7 关系差(Difference)

在集合代数中,对于集合A和B,其差运算为:

A - B = { x | x ∈ A且 x ∉ B}

即从A集合中排除掉B集合中的元素。

在关系模型中,关系差运算即是从一个关系中排除另一个关系中的元组,其语义如下:

R' = R1-R2={t|t∈R1 ∩ t∉R2} // t为关系中的元组

在SQL中,我们可以用NOT IN实现:

SELECT * FROM R1 WHERE A1 NOT IN (SELECT A1 FROM R2 WHERE 条件)

下面是对应的Go语言代码片段:

// relational-algebra-examples/query/main.go

func doDifference(db *sql.DB) {
    rows, _ := db.Query("SELECT * FROM CourseSelection2022 WHERE Cno NOT IN (SELECT Cno FROM CourseSelection2023)")
    var selections []CourseSelection
    for rows.Next() {
        var s CourseSelection
        rows.Scan(&s.Sno, &s.Cno, &s.Score)
        selections = append(selections, s)
    }
    fmt.Println(selections)
}

这段示例的含义是选出CourseSelection2022的元组,但去掉Cno值在CourseSelection2023出现过的元组。下面是运行结果:

[{1001 1 85} {1002 1 83} {1003 1 76}]

注意:关系差运算的前提也是两个关系的属性兼容。

最后看看略复杂的二元运算符:笛卡尔积和连接。

4.8 笛卡尔积(Cartesian-product)

在关系代数中,关系积,即笛卡尔积(Cartesian Product)这种运算(也被称为关系叉乘)用于取两个关系的所有可能的组合。它的数学语义可以描述为:给定关系R1和R2,它们的笛卡尔积结果是一个新的关系,其中的元组由R1中的每个元组与R2中的每个元组的组合构成。

在SQL中,笛卡尔积可以通过使用CROSS JOIN关键字来实现:

SELECT * FROM R1 CROSS JOIN R2;

也可以通过下面SQL语句来实现:

SELECT R1.*, R1.* FROM R1, R2;

对应的Go代码片段如下:

// relational-algebra-examples/query/main.go

// StudentCourse结果
type StudentCourse struct {
    Sno    int
    Sname  string
    Gender string
    Age    int
    Cno    int
    Cname  string
    Credit int
}

func doCartesianProduct(db *sql.DB) {
    rows, _ := db.Query("SELECT * FROM Students CROSS JOIN Courses")
    // rows, _ := db.Query("SELECT Students.*, Courses.* FROM Students, Courses")
    var selections []StudentCourse
    for rows.Next() {
        var s StudentCourse
        rows.Scan(&s.Sno, &s.Sname, &s.Gender, &s.Age, &s.Cno, &s.Cname, &s.Credit)
        selections = append(selections, s)
    }
    fmt.Println(len(selections))
    fmt.Println(selections)
}

示例的运行结果如下:

9
[{1001 张三 M 20 1 数据库 4} {1001 张三 M 20 2 数学 2} {1001 张三 M 20 3 英语 3} {1002 李四 F 18 1 数据库 4} {1002 李四 F 18 2 数学 2} {1002 李四 F 18 3 英语 3} {1003 王五 M 19 1 数据库 4} {1003 王五 M 19 2 数学 2} {1003 王五 M 19 3 英语 3}]

我们看到对Students和Courses两个关系(表)进行笛卡尔积运算后,结果包含了Students中的每个元组与Courses中的每个元组进行组合的结果(3×3=9个)。

需要注意的是,由于笛卡尔积可能导致非常大的结果集,因此在实际使用中应谨慎使用,并且通常需要与其他运算符和条件结合使用,以限制结果的大小和提高查询效率。通常我们会用连接来达到这些目的。

4.9 连接(Join)

连接(Join)运算(⋈)是从两个关系的笛卡儿积中选取属性间满足一定条件的元组形成一个新的关系,即将笛卡尔积和选择(selection)运算合并达到一个操作中。从这个角度来看,笛卡尔积可以视为一种无条件的连接

连接代数运算符是关系代数中很有用的关系代数运算符,也是日常经常使用的运算符,它有很多种不同的子类别,下面我们分别看看各种子类型的语义、SQL语句以及对应的Go代码示例。

4.9.1 等值连接(Equijoin)

等值连接是通过比较两个关系(表)之间的属性值是否相等来进行连接的操作。连接条件使用等号(=)来比较属性值的相等性。

我们直接看Go示例:

// relational-algebra-examples/query/main.go

func dumpOperationResult(operation string, rows *sql.Rows) {
    cols, _ := rows.Columns()

    w := tabwriter.NewWriter(os.Stdout, 0, 2, 1, ' ', 0)
    defer w.Flush()
    w.Write([]byte(strings.Join(cols, "\t")))
    w.Write([]byte("\n"))

    row := make([][]byte, len(cols))
    rowPtr := make([]any, len(cols))
    for i := range row {
        rowPtr[i] = &row[i]
    }

    fmt.Printf("\n%s operation:\n", operation)
    for rows.Next() {
        rows.Scan(rowPtr...)
        w.Write(bytes.Join(row, []byte("\t")))
        w.Write([]byte("\n"))
    }
}

func doEquijoin(db *sql.DB) {
    rows, _ := db.Query("SELECT * FROM CourseSelection2022 JOIN Students ON CourseSelection2022.Sno = Students.Sno")
    dumpOperationResult("Equijoin", rows)
}

这个示例使用等值连接将CourseSelection2022表和Students表连接起来,连接条件是CourseSelection2022.Sno = Students.Sno,即学生编号相等,返回的结果将包含CourseSelection2022和Students两个表中满足连接条件的元组。

我们看看程序运行的输出结果:

Equijoin operation:
Sno  Cno Score Sno  Sname Gender Age
1001 1   85    1001 张三    M      20
1001 2   80    1001 张三    M      20
1002 1   83    1002 李四    F      18
1003 1   76    1003 王五    M      19

在这个结果中,我们看到一个“奇怪”的情况,那就是出现了两个Sno属性。在等值连接中,如果连接的两个表中存在相同名称的属性(例如这里两个表中都有名为”Sno”的属性),那么在连接结果中会出现两个相同名称的属性。

这是因为等值连接会将两个表中具有相同连接条件的属性进行匹配,并将匹配成功的元组进行组合。由于两个表中都有名为”Sno”的属性,因此连接结果中会保留这两个属性,以显示连接操作前后的对应关系。

为了区分来自不同表的相同属性名,通常在连接结果中会使用表别名或表名作为前缀,以区分它们的来源。这样可以确保结果中的属性名称是唯一的,避免歧义。 例如,如果在等值连接中连接了名为”CourseSelection2022″的表和名为”Students”的表,并且两个表中都有名为”Sno”的属性,那么连接结果中可能会出现类似于”CourseSelection2022.Sno”和”Students.Sno”的属性名称,以明确它们的来源。

需要注意的是,数据库管理系统的具体实现和查询工具的设置可能会影响连接结果中属性的显示方式,但通常会采用类似的方式来区分相同属性名的来源。

4.9.2 自然连接(Natural Join)

自然连接是基于两个表中具有相同属性名的属性进行连接的操作,重点在于它会自动匹配具有相同属性名的属性,并根据这些属性的相等性进行连接,而无需手工指定

我们来看自然连接的Go示例:

// relational-algebra-examples/query/main.go

func doNaturaljoin(db *sql.DB) {
    rows, _ := db.Query("SELECT * FROM CourseSelection2022 NATURAL JOIN Students")
    dumpOperationResult("Naturaljoin", rows)
}

这个示例使用自然连接将CourseSelection2022表和Students表连接起来,自然连接会自动基于两个表中所有具有相同属性名的属性进行连接,返回的结果将包含CourseSelection2022和Students两个表中所有满足连接条件的元组,并自动消除重复属性,这是与等值连接的一个明显的区别。

我们看看程序运行的输出结果:

Naturaljoin operation:
Sno  Cno Score Sname Gender Age
1001 1   85    张三    M      20
1001 2   80    张三    M      20
1002 1   83    李四    F      18
1003 1   76    王五    M      19

如果两个表(比如R1和R2)有一个以上的属性名相同,比如2个(比如:A1和A2),那就会自动针对这两个属性名(一起)在两个表中进行等值连接:只有R2.A1 = R1.A1且R2.A2 = R1.A2时,才将元组连接并放入结果关系中。

4.9.3 θ连接(Theta Join)

θ连接是一种通用的连接操作,它使用比等号更一般化的连接条件进行连接。连接条件可以使用除了等号之外的比较运算符(如大于、小于、不等于等)来比较两个表之间的属性。

我们来看θ连接的Go示例:

// relational-algebra-examples/query/main.go

func doThetajoin(db *sql.DB) {
    rows, _ := db.Query(`SELECT *
FROM CourseSelection2022
JOIN Students ON CourseSelection2022.Sno > Students.Sno`)
    dumpOperationResult("Thetajoin", rows)
}

这个示例使用Join将CourseSelection2022表和Students表连接起来,连接条件是CourseSelection2022.Sno > Students.Sno,即学生编号大于学生表中的学生编号,返回的结果将包含CourseSelection2022和`Students两个表中满足连接条件的元组。

Thetajoin operation:
Sno  Cno Score Sno  Sname Gender Age
1002 1   83    1001 张三    M      20
1003 1   76    1001 张三    M      20
1003 1   76    1002 李四    F      18

这个结果的生成过程大致如下:

  • 先看CourseSelection2022表的第一个元组,其Sno为1001,该Sno不大于Students表中的任一个Sno;
  • 再看CourseSelection2022表的第二个元组,其Sno为1002,该Sno仅大于Students表中的Sno为1001的那一个元组,于是将CourseSelection2022表的第二个元组和Students表中第一个元组连接起来作为结果表中的第一个元组;
  • 最后看CourseSelection2022表的第三个元组,其Sno为1003,该Sno大于Students表中的Sno为1001和1002的元组,于是将CourseSelection2022表的第三个元组分别和Students表中第一个和第二个元组连接起来作为结果表中的第二个和第三个元组。

4.9.4 半连接(Semi Join)

半连接是一种特殊的连接操作,它返回满足连接条件的左侧关系中的元组,并且只返回右侧关系中与之匹配的属性。半连接通常用于判断两个关系中是否存在匹配的元组,而不需要返回右侧关系的详细信息。

我们来看半连接的Go示例:

// relational-algebra-examples/query/main.go

func doSemijoin(db *sql.DB) {
    rows, _ := db.Query(`SELECT *
FROM Students
WHERE EXISTS (
    SELECT *
    FROM CourseSelection2022
    WHERE Students.Sno = CourseSelection2022.Sno
)`)
    dumpOperationResult("Semijoin", rows)
}

这个示例使用半连接操作,以Students表为左侧关系,CourseSelection2022表为右侧关系。它使用子查询来判断左侧关系中是否存在满足连接条件的元组,即Students.Sno = CourseSelection2022.Sno。它返回的结果将只包含满足连接条件的Students表中的元组。

下面是程序输出的结果:

Semijoin operation:
Sno  Sname Gender Age
1001 张三    M      20
1002 李四    F      18
1003 王五    M      19

半连接返回的结果关系中只包含左关系中的行,其中每一行只返回一次,即使在右关系中有多个匹配项。

4.9.5 反连接(Anti Join)

反连接是半连接的补集操作,它返回左侧关系中不存在满足连接条件的元组。反连接通常用于查找在左侧关系中存在而在右侧关系中不存在的元组。

我们来看反连接的Go示例:

// relational-algebra-examples/query/main.go

func doAntijoin(db *sql.DB) {
    rows, _ := db.Query(`SELECT *
FROM Students
WHERE NOT EXISTS (
    SELECT *
    FROM CourseSelection2022
    WHERE Students.Sno = CourseSelection2022.Sno
)`)
    dumpOperationResult("Antijoin", rows)
}

这个示例使用反连接操作,以Students表为左侧关系,CourseSelection2022表为右侧关系,并使用NOT EXISTS子查询来判断左侧关系中不存在满足连接条件的元组,即Students.Sno = CourseSelection2022.Sno。返回的结果将只包含左侧关系Students表中不存在连接条件的元组。

Antijoin operation:
Sno Sname Gender Age

我们看到输出的元组集合为空。

4.9.6 左(外)连接(Left Outer Join)

左外连接是将左侧关系中的所有元组与满足连接条件的右侧关系中的元组进行连接,并返回所有左侧关系的元组。如果右侧关系中没有与左侧关系匹配的元组,对应的属性值将为NULL。

我们来看左(外)连接的Go示例:

// relational-algebra-examples/query/main.go

func doLeftjoin(db *sql.DB) {
    rows, _ := db.Query(`SELECT *
FROM Students
LEFT JOIN CourseSelection2022 ON Students.Sno = CourseSelection2022.Sno`)
    dumpOperationResult("Leftjoin", rows)
}

这个示例使用左外连接将Students表和CourseSelection2022表连接起来,其连接条件是Students.Sno = CourseSelection2022.Sno,即学生编号相等。示例的返回结果将包含Students表中的所有元组,并将满足连接条件的CourseSelection2022表中的元组加入结果中。如果没有匹配的元组,右侧关系中的属性值将为NULL。
`
下面是程序输出的结果:

Leftjoin operation:
Sno  Sname Gender Age Sno  Cno Score
1001 张三    M      20  1001 1   85
1001 张三    M      20  1001 2   80
1002 李四    F      18  1002 1   83
1003 王五    M      19  1003 1   76

4.9.7 右(外)连接(Right Outer Join)

右外连接是将右侧关系中的所有元组与满足连接条件的左侧关系中的元组进行连接,并返回所有右侧关系的元组。如果左侧关系中没有与右侧关系匹配的元组,对应的属性值将为NULL。

我们来看右(外)连接的Go示例:

// relational-algebra-examples/query/main.go

func doRightjoin(db *sql.DB) {
    rows, _ := db.Query(`SELECT *
FROM Students
RIGHT JOIN CourseSelection2022 ON Students.Sno = CourseSelection2022.Sno`)
    dumpOperationResult("Rightjoin", rows)
}

这个示例使用右外连接将Students表和CourseSelection2022表连接起来,它的连接条件是Students.Sno = CourseSelection2022.Sno,即学生编号相等。返回的结果将包含CourseSelection2022表中的所有元组,并将满足连接条件的Students表中的元组加入结果中。如果没有匹配的元组,左侧关系中的属性值将为NULL。

下面是程序输出的结果:

Rightjoin operation:
Sno  Sname Gender Age Sno  Cno Score
1001 张三    M      20  1001 1   85
1001 张三    M      20  1001 2   80
1002 李四    F      18  1002 1   83
1003 王五    M      19  1003 1   76

4.9.8 全连接(Full Outer Join)

全连接是将左侧关系和右侧关系中的所有元组进行连接,并返回所有满足连接条件的元组。如果左侧关系或右侧关系中没有与对方匹配的元组,对应的属性值将为NULL。

我们来看全连接的Go示例:

// relational-algebra-examples/query/main.go

func doFulljoin(db *sql.DB) {
    rows, _ := db.Query(`SELECT *
FROM Students
FULL JOIN CourseSelection2022 ON Students.Sno = CourseSelection2022.Sno`)
    dumpOperationResult("Fulljoin", rows)
}

这个示例使用全连接将Students表和CourseSelection2022表连接起来,连接条件是Students.Sno = CourseSelection2022.Sno,即学生编号相等。示例返回的结果将包含Students表和CourseSelection2022表中的所有元组,并将满足连接条件的元组进行组合。如果没有匹配的元组,对应关系中的属性值将为NULL。

下面是程序输出的结果:

Fulljoin operation:
Sno  Sname Gender Age Sno  Cno Score
1001 张三    M      20  1001 1   85
1001 张三    M      20  1001 2   80
1002 李四    F      18  1002 1   83
1003 王五    M      19  1003 1   76

以上就是本文要介绍的连接类型,这些连接类型提供了在关系数据库中操作和组合表数据的灵活性,可以根据特定的需求选择合适的连接方式来获取所需的结果。

5. 小结

本文系统地介绍和讲解了关系数据库中的关系代数运算,包括选择、投影、连接、交、并、积等,以及关系代数的SQL实现,并给出了Go语言示例。

关系模型是关系数据库的理论基础,关系代数通过对关系的运算来表达查询,因此关系代数也构成了SQL查询语言的理论基础。理解关系代数与SQL的对应关系,可以更好地使用SQL语言操作关系型数据库。

本文算是关系数据库的入门文章,既能让数据库初学者快速掌握关系代数,也能让有基础的读者回顾并深入理解概念内涵。通过阅读学习,能帮助读者把关系代数运用到实际数据库应用中,解决查询优化等问题。

本文涉及的源码可以在这里下载。

注:由于环境所限,本文所有示例均是在sqlite3上进行的。

6. 参考资料


“Gopher部落”知识星球旨在打造一个精品Go学习和进阶社群!高品质首发Go技术文章,“三天”首发阅读权,每年两期Go语言发展现状分析,每天提前1小时阅读到新鲜的Gopher日报,网课、技术专栏、图书内容前瞻,六小时内必答保证等满足你关于Go语言生态的所有需求!2023年,Gopher部落将进一步聚焦于如何编写雅、地道、可读、可测试的Go代码,关注代码质量并深入理解Go核心技术,并继续加强与星友的互动。欢迎大家加入!

img{512x368}
img{512x368}

img{512x368}
img{512x368}

著名云主机服务厂商DigitalOcean发布最新的主机计划,入门级Droplet配置升级为:1 core CPU、1G内存、25G高速SSD,价格5$/月。有使用DigitalOcean需求的朋友,可以打开这个链接地址:https://m.do.co/c/bff6eed92687 开启你的DO主机之路。

Gopher Daily(Gopher每日新闻) – https://gopherdaily.tonybai.com

我的联系方式:

  • 微博(暂不可用):https://weibo.com/bigwhite20xx
  • 微博2:https://weibo.com/u/6484441286
  • 博客:tonybai.com
  • github: https://github.com/bigwhite
  • Gopher Daily归档 – https://github.com/bigwhite/gopherdaily

商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言精进之路1 Go语言精进之路2 商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats