标签 Redhat 下的文章

也谈Linux Kernel Hacking – 内核配置、编译与安装

Linux Kernel之于C程序员,就好比世界之巅珠穆朗玛之于专业登山客。 — Tony Bai^_^

 
作为到目前为止最为成功的开源项目,Linux Kernel总是散发着无穷的魅力,就好比那珠穆朗玛,让人魂牵梦绕,心潮澎湃并总是想尝试征服。
 
记得2006年初我曾花了些时间研究Linux Kernel,但后来迷失在了Linux Kernel引导阶段,无法自拔,最终选择了"知难而退"。如今,随着我们的产品越来越多地运行在Linux主机上,我又愈发感觉自己对Linux底层了解得不够深入,于是我又一次开启了Linux Kernel Hacking的征程。
 
经过这几年的发展,Linux Kernel变得更加复杂了,版本也从当时的2.6.x演进到今天的3.2.x(3.3正在开发中)。但相应地,Linux Kernel方面的资料也多了许多,这对我的Hacking显然是利好消息,至少目前手头上就有几本"大砖头"可作为参考(Linux Kernel方面的书籍均具有防身之特性^_^)。
 
这次Hacking前先给自己设定了几个目标(也算是想清楚为何要这么做):
* 追溯本源
用Linux内核运转原理解释上层应用的行为并指导上层应用的开发。
 
* 定制优化
在对Linux Kernel有了深入了解之后,尝试定制适合产品特性的Linux内核。
 
* 走进内核开发,尝试提交补丁
对我个人来说,这算是在Linux Kernel领域的终极目标了。每天重复念叨这个目标,就相当于给自己打鸡血了,让自己始终保持兴奋劲儿。
 
以上这些目标显然不是短期内能达成的,饭还得一口一口吃,路还得一步一步走。今天我就迈出这第一步:编译一个属于自己的Linux内核。
 
经过这么多年的发展,Linux Kernel的编译已经简化了许多了,甚至简化到了让我觉得有些吃惊的地步(在我原先的意识中,Linux Kernel的编译是件很复杂的事情^_^)。
 
编译内核是Linux Kernel开发者的基本活动,几乎所有Kernel开发者都是在自己编译的内核上工作的。下面我就详细说明一下Linux Kernel的配置、编译和安装过程。
 
一、准备工作
1、准备一台装有Linux的PC
不建议在Windows或Solaris下编译Linux Kernel,那样只会自找麻烦。Linux Kernel在Linux下编译才是正路(除非你真的要做跨平台交叉编译)。我这里用了一台运行在XenServer 5.6 p2上的装有Red Hat Enterprise Linux(RHEL) 5.5的虚拟机。在该虚拟机上执行'uname -r',可以得到当前Linux内核版本信息为:2.6.18-194.el5xen。
 
2、获取内核源码包
Linux Kernel,特别是之前发布的稳定版内核,几乎都可以100%的顺利通过编译。为了能与手头资料"兼容",我选择了2.6.28版本内核。Linux Kernel的发布版本可在http://www.kernel.org/pub/linux/kernel下找到,这里执行下面命令获取源码:
 
wget -c http://www.kernel.org/pub/linux/kernel/v2.6/linux-2.6.28.tar.gz
 
下载后的源码包无需放在系统目录(/usr/src/linux)下,在你自己的普通权限用户下建立一个临时目录存放源码包即可,比如我们在/home/tonybai下建立linux-kernel目录,将下载的linux-2.6.28.tar.gz放入该目录中,解压后(tar xvzf linux-2.6.28.tar.gz),我们会看到:
 
/home/tonybai/linux-kernel$ ls 
linux-2.6.28/  linux-2.6.28.tar.gz
 
3、检查编译内核所依赖的工具及版本是否满足要求
在linux-2.6.28/Documentation/Changes中有该版本内核编译所依赖的工具以及最低版本信息列表,需确认一下当前主机上是否安装了这些工具,版本是否满足最低要求。通过linux-2.6.28/scripts/ver_linux可以快速获取当前主机上各个工具以及当前版本的信息,可将这些信息与编译该内核的最低版本比对,以确定是否需要安装或升级工具版本。
 
二、配置内核
Linux Kernel的编译有些类似于那些使用autotools创建构建脚本的开源包,需要先Configure,然后make和make install。不同的是Linux Kernel的"Configure"要稍显"复杂",毕竟与普通开源包相比,Linux Kernel算得上是一个庞然大物了。不过Linux Kernel的开发者们显然在这方面也做了很多工作,通过提供各种命令和默认配置来简化配置过程,下面是常用的几个配置命令。
 
* make config
这个是最基本的配置命令,同时也是配置过程最复杂、耗时最长的配置命令。该命令会将Linux Kernel所有配置项逐一在控制台窗口输出,并让你作出yes、no或是module的选择。我查看了一下RHEL 5.5的配置项个数,总共有2300多项,想必这个过程下来,你已经筋疲力尽了。所以除了某些特殊情况,我们是不会使用这个命令的。该命令会在linux-2.6.28目录下面创建一个.config隐藏文件,该文件存储了你的配置选择,类似这样:
 
# .config
#
# Automatically generated make config: don't edit
# Linux kernel version: 2.6.28
# Wed Mar 14 17:13:23 2012
#
# CONFIG_64BIT is not set
CONFIG_X86_32=y
# CONFIG_X86_64 is not set
CONFIG_X86=y
CONFIG_ARCH_DEFCONFIG="arch/x86/configs/i386_defconfig"
CONFIG_GENERIC_TIME=y
… …
 
* make defconfig 
一个一个选择配置太累,内核开发者显然也不原意这样做,因此内核提供了另外一个命令make defconfig。这个命令会为你生成一份默认的.config文件,而整个过横无需你作出任何选择。而实际上该命令是直接将arch/x86/configs/i386_defconfig或x86_64_defconfig(以x86平台为例)拷贝为.config放在linux-2.6.28下面。
 
* make menuconfig
虽然有了默认配置,但开发者总是有修改配置的需求。内核提供了make menuconfig命令,允许开发者以图形界面(基于ncurses)的形式修改特定的配置项。根据大家的喜好不同,内核还提供了基于gtk+图形界面的make gconfig和基于X11图形界面的make xconfig来修改配置项,这两个命令在功用上与make menuconfig是等同的。
 
另外还有一种方法配置内核,那就是直接使用Linux发行版自带的.config或其他开发者的.config来配置你的内核。如果你是第一次配置内核,建议直接使用所在主机的Linux的.config。我所用的Linux的.config文件在/usr/src/kernels/2.6.18-194.el5-xen-x86_64下面。不过由于我下载的Kernel版本是2.6.28,与该.config不匹配,所以还需执行'make
oldconfig'命令来更新配置。该命令会保留.config已有的配置项的值,而对于新Kernel版本引入的新配置项提供交互式的选择。我用的就是这种方法:
 
$ make oldconfig
scripts/kconfig/conf -o arch/x86/Kconfig
#
# configuration written to .config
#
 
三、编译内核
配置好内核后,我们就可以执行内核编译了,和上层应用一样,只需一个Make就好。
 
$ make
… ..
  CC      arch/x86/boot/tty.o
  CC      arch/x86/boot/video.o
  CC      arch/x86/boot/video-mode.o
  CC      arch/x86/boot/version.o
  CC      arch/x86/boot/video-vga.o
  CC      arch/x86/boot/video-vesa.o
  CC      arch/x86/boot/video-bios.o
  LD      arch/x86/boot/setup.elf
  OBJCOPY arch/x86/boot/setup.bin
  OBJCOPY arch/x86/boot/vmlinux.bin
  HOSTCC  arch/x86/boot/tools/build
  BUILD   arch/x86/boot/bzImage
Root device is (8, 1)
Setup is 10988 bytes (padded to 11264 bytes).
System is 3561 kB
CRC f4d6ad54
Kernel: arch/x86/boot/bzImage is ready  (#1)
  Building modules, stage 2.
  MODPOST 3 modules
  CC      arch/x86/kernel/test_nx.mod.o
  LD [M]  arch/x86/kernel/test_nx.ko
  CC      drivers/hid/hid-dummy.mod.o
  LD [M]  drivers/hid/hid-dummy.ko
  CC      drivers/scsi/scsi_wait_scan.mod.o
  LD [M]  drivers/scsi/scsi_wait_scan.ko
 
整个编译过程(非跨平台交叉编译,只是本地编译)大约20多分钟,编译成功后,我们得到了许多新文件,其中重要的文件有:
 
linux-2.6.28/vmlinux
linux-2.6.28/System.map
linux-2.6.28/arch/x86/boot/bzImage
 
其中bzImage就是我们编译好的可引导的、压缩的Linux内核映像文件。而System.map则是内核符号表文件,vmlinux是未经压缩的内核文件。
 
四、安装内核
安装内核与配置、编译内核不同,它需要root权限。切换到root后,我们首先需要安装的是内核模块,内核模块将会被安装到/lib/modules下面:
 
$make modules_install
… …
$ls -l /lib/modules/
总计 8
drwxr-xr-x 6 root root 4096 11-17 15:14 2.6.18-194.el5xen/
drwxr-xr-x 3 root root 4096 03-14 08:58 2.6.28
 
接下来就可以安装内核了。不过在安装之前,我们先看看当前系统内核文件是什么样子、Grub的配置又是怎样的:
 
$ ls -l /boot
-rw-r–r– 1 root root   66548 2010-03-17 config-2.6.18-194.el5xen
-rw——- 1 root root 3397337 11-17 15:14 initrd-2.6.18-194.el5xen.img
-rw-r–r– 1 root root 1208685 2010-03-17 System.map-2.6.18-194.el5xen
-rw-r–r– 1 root root 2047518 2010-03-17 vmlinuz-2.6.18-194.el5xen
-rw-r–r– 1 root root  417317 2010-03-17 xen.gz-2.6.18-194.el5
-rwxr-xr-x 1 root root  969808 2010-03-17 xen-syms-2.6.18-194.el5
 
$ vi /boot/grub/grub.conf
#boot=/dev/hda
default=0
timeout=5
splashimage=(hd0,0)/grub/splash.xpm.gz
hiddenmenu
title Red Hat Enterprise Linux Server (2.6.18-194.el5xen)
        root (hd0,0)
        kernel /xen.gz-2.6.18-194.el5 crashkernel=128M@32M
        module /vmlinuz-2.6.18-194.el5xen ro root=/dev/VolGroup00/LogVol00 rhgb quiet
        module /initrd-2.6.18-194.el5xen.img
 
可以看出vmlinuz-*这个文件就是内核映像文件,它其实就是arch/x86/boot/bzImage的拷贝;但我们无法通过直接压缩vmlinux来得到vmlinuz-*,据说vmlinuz在头部放置了gzip的解压代码。
 
我们通过make install进行内核安装:
$ make install
sh /home/tonybai/linux-kernel/linux-2.6.28/arch/x86/boot/install.sh 2.6.28 arch/x86/boot/bzImage System.map "/boot"
 
make install调用的是对应arch下提供的install.sh来安装内核。arch/x86/boot/install.sh检测系统中是否安装了installkernel脚本,如果有则调用installkernel工具安装内核,否则进行默认安装。至少在Red Hat的发行版上我们是可以找到installkernel这个脚本的。installkernel除了将bzImage和System.map安装到/boot下之外,还调用了/sbin/new-kernel-pkg制作了initrd-2.6.28.img,并修改了grub.conf(使用grubby配置grub)的内容:
 
$ ls -l /boot
-rw——- 1 root root 3369458 03-14 08:59 initrd-2.6.28.img
lrwxrwxrwx 1 root root      33 03-14 10:41 System.map -> /boot/System.map-2.6.28
-rw-r–r– 1 root root 1397880 03-14 08:58 System.map-2.6.28
lrwxrwxrwx 1 root root      30 03-14 10:41 vmlinuz -> /boot/vmlinuz-2.6.28
-rw-r–r– 1 root root 2080528 03-14 08:58 vmlinuz-2.6.28
 
$ vi /boot/grub/grub.conf
default=1
timeout=5
splashimage=(hd0,0)/grub/splash.xpm.gz
hiddenmenu
title Red Hat Enterprise Linux Server (2.6.28)
        root (hd0,0)
        kernel /vmlinuz-2.6.28 ro root=/dev/VolGroup00/LogVol00 rhgb quiet
        initrd /initrd-2.6.28.img
title Red Hat Enterprise Linux Server (2.6.18-194.el5xen)
        root (hd0,0)
        kernel /xen.gz-2.6.18-194.el5 crashkernel=128M@32M
        module /vmlinuz-2.6.18-194.el5xen ro root=/dev/VolGroup00/LogVol00 rhgb quiet
        module /initrd-2.6.18-194.el5xen.img
 
make install虽然对grub.conf进行了修改,但默认引导的内核依旧是原先的内核,我们需要手工将default改为0来引导我们新编译的2.6.28内核。
 
五、引导新内核
安装了新内核后,我们尝试使用新内核引导启动。执行Reboot后,新内核引导一切顺利。用'uname -r'查看结果如下:
 
$ uname -r
2.6.28
 
至此,我们成功用上了自己编译的内核(后续应该会有关于内核引导阶段的详细Hacking描述^_^)。
 
六、升级内核
升级内核是内核开发者的日常活动之一。当有其他开发者发布新补丁或自己在现有内核上做了修改后,都会重新配置、编译和安装内核,也就是升级内核。
 
升级内核一般按如下如下命令序列执行:
$ make oldconfig
$ make
$ make install(如果有kernel module更新,应该先执行make modules_install)
 
对于版本号不变的内核重新执行install,我们会在/boot下看到如下内容:
$ ls -l /boot
-rw——- 1 root root 3369458 03-14 08:59 initrd-2.6.28.img
lrwxrwxrwx 1 root root      33 03-14 10:41 System.map -> /boot/System.map-2.6.28
-rw-r–r– 1 root root 1397880 03-14 08:58 System.map-2.6.28
-rw-r–r– 1 root root 1397880 03-14 08:51 System.map-2.6.28.old
lrwxrwxrwx 1 root root      30 03-14 10:41 vmlinuz -> /boot/vmlinuz-2.6.28
-rw-r–r– 1 root root 2080528 03-14 08:58 vmlinuz-2.6.28
-rw-r–r– 1 root root 2080528 03-14 08:51 vmlinuz-2.6.28.old
 
安装脚本会将上一次安装的2.6.28内核改名为2.6.28.old,然后将新内核安装到/boot下。grub.conf内容没有被修改。再次反复执行install,安装脚本始终会将老内核改名为.old,然后保证最新同版本内核被安装。
 
七、定义自己的个性化内核版本号
XenServer下的Rhel 5.5的内核版本号为2.6.18-194.el5xen,Ubuntu 10.04下的内核版本号为2.6.32-30-generic(通过uname -r查看),我们如何定义一个属于自己的个性化内核版本号呢?其实很简单,修改顶层Makefile即可。
 
# Makefile 
 
VERSION = 2
PATCHLEVEL = 6
SUBLEVEL = 28
EXTRAVERSION = -tonybai-dev
 
一个Kernel的版本号KERNELVERSION = $(VERSION).$(PATCHLEVEL).$(SUBLEVEL)$(EXTRAVERSION),因此我们可通过修改EXTRAVERSION的内容来定义一个个性化的版本号,就像上面代码中的那样。
 
修改Makefile后,执行make clean; make ;make modules_install; make install即可。执行后,你就会在/boot下面、/lib/modules下面以及grub.conf里面看到2.6.28-tonybai-dev这个版本的内核信息了。修改grub.conf使之默认引导2.6.28-tonybai-dev这个新内核,重新引导后,你执行'uname -r'的结果就会变成'2.6.28-tonybai-dev'了。
 
至此,内核配置、编译与安装的部分就暂时告一段落了。在这个过程中,我参考了许多资料,这其中包括:
 
相信后续的Hacking过程中,这些资料还将会发挥至关重要的作用。

解决一个IP路由选择问题

大学时曾旁听过计算机专业的专业课-"计算机网络"(我非科班出身,只能偷偷旁听),现在还能清晰地记得当初他们使用的教材是高教社影印版的《计算机网络——自顶向下方法与Internet特色》。不过记忆中课程的内容却渐渐模糊了。有些当时并没有深刻地理解的概念,现在依旧没理解,因为平时少有涉及。

上周在搭建CI环境时遇到了两个服务器(均安装的是RHEL 5.5 OS)之间网络不通的问题。这两个服务器分处于两个不同的局域网网段:服务器A IP为10.10.12.xxx,服务器B的IP为10.10.13.yyy,从A到B无法Ping通,但B到A是没有问题的。这时恰巧一位系统工程师同事到开发大厅办事,我就顺便请他帮忙解决这个问题。

不知道是因为有急事呢,还是我没有说清楚问题所在,他在A主机上先是删除了若干路由,然后又在/etc/rc.local中添加了一条路由:"route add -net 10.10.0.0 gw 10.10.12.1 netmask 255.255.0.0",生效后,A主机居然可以Ping通主机B了,问题解决了,他也就匆忙离开了。

我也本以为这样就可以了,但不久我就发现A主机无法连上DNS Server了,要知道在路由表被修改之前是可以的。无奈之下,我只能自己尝试去搞定了。首先先注释掉rc.local中的那条新增静态路由,然后reboot系统,让系统恢复到之前的路由表配置(通过route命令增删的路由都是临时路由)。

接下来,就是查找各种资料,重新认知一下IP路由选择的原理。经典的《TCP/IP协议-卷1》一直躺在家中的书柜里,手头上只有《Linux系统管理技术手册(Linux Administration Handbook)》这本书。不过还好,这本书也足够经典,里面对TCP/IP网络的讲解更实际,也更具可操作性。

说到路由,我们不得不回顾一下IP地址。IP地址不是孤立的,或者说一个孤立的IP地址是信息不完整的。我们无法通过一个孤立的IP地址来确定下什么。我们需要将它与子网掩码结合一起来使用。掩码就是用来指示IP地址中网络地址部分和主机地址之间的边界的。举例来说:如果一台主机配置的IP地址为10.10.12.105,子网掩码为255.255.255.0,那么这台主机所在的物理网络的地址就是(10.10.12.105 & 255.255.255.0) = 10.10.12.0,而最后那个字节用于主机地址分配,主机编号可以从1到254(0是网络地址,255是该网络的广播地址)。这台主机与网内的其他主机可以直接通信,无需经由任何中间设备的转发,它网内的兄弟主机编号可以是104,106…等等。

好了,我们有了网络地址的概念了,一切就会变得好办多了。接下来我们看一下A主机当前路由表(通过route或netstat -rn命令),看看它为何无法连到主机B。

-bash-3.2$ route
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
10.10.12.0      *               255.255.252.0   U     0      0        0 eth0
169.254.0.0     *               255.255.0.0     U     0      0        0 eth0
default         10.10.12.1      0.0.0.0         UG    0      0        0 eth0

这里有三条路由,与问题相关的是第一条和第三条。而169.254.0.0是zeroconf产生的IP地址,称为Link Local Addresses,Mac OS X, Windows和比较新的Linux都支持这类地址。其作用是无需配置即可联网,比DHCP还简单,不需要服务器,只要把电脑设备间用网线连接在一起即可。这条路由与本文无关,故这里一笔带过。

关于route命令结果中各个列的含义这里就不细说了。我们来看一下当尝试从A主机向B主机发送数据包时会发生什么呢?我们假设B主机的IP地址为10.10.13.222。当A主机构造好IP包后,会到路由表中查询路由。简单地说就是逐条路由匹配,直到匹配成功后,将IP包发往对应路由记录的Destinaion网络中去。如果没有匹配的路由,则将该包发往默认(default)路由对应的gateway设备。

在这个例子中,我们会用10.10.13.222与各条路由记录匹配。如果10.10.13.222 & Genmask == Destination,我们就说匹配成功。显然通过计算,10.10.13.222和第一条路由记录就匹配成功了:10.10.13.222 & 255.255.252.0 = 10.10.12.1,那目的IP地址为10.10.13.222的IP包就会被发往网内。但是IP层的下面的链路层和物理层会发现10.10.13.222根本不属于本网络,发送失败。这就是为何从A主机无法ping通B主机的原因。再细致看看,原来是第一条路由的Genmask配置错了,本来应该配置为255.255.255.0,但是却配置成了255.255.252.0,这无意中为该物理网络做了"扩容"。修正后的路由表如下:

-bash-3.2$ route
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
10.10.12.0      *               255.255.255.0   U     0      0        0 eth0
169.254.0.0     *               255.255.0.0     U     0      0        0 eth0
default         10.10.12.1      0.0.0.0         UG    0      0        0 eth0

修正后,我们再来走一遍上述的流程。为到10.10.13.222的IP包匹配路由,经计算发现无可成功匹配的记录,则该IP包采用默认路由,也就是第三条路由,通过eth0网口转到10.10.12.1这个gateway设备上了。后者会将该IP包转发到10.10.13.0这个网络中去,这就实现了位于两个不同网络中的两台主机A与B之间的互联互通了。

另外要说的是上面这些路由数据是从哪里来的呢?在Redhat Linux中,这些数据是在网卡初始化时由系统读取网卡配置文件而得来的。在Redhat中,网卡配置文件位于:/etc/systconfig/network-scripts下,文件名是ifcfg-eth0,…。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言精进之路1 Go语言精进之路2 商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats