C++博客-milkyway的窝-文章分类-linux

嵌入式设备上的 Linux 系统开发

相思酸中有甜 — Sat, 13 Jan 2007 02:41:00 GMT

摘要: 转自http://blog.csdn.net/t_larry/category/189467.aspx?PageNumber=2Linux 正在嵌入式开发领域稳步发展。因为 Linux 使用 GPL（请参阅本文后面的参考资料），所以任何对将 Linux 定制于 PDA、掌上机或者可佩带设备感兴趣的人都可以从因特网免费下载其内核和应用程序，并开始移植或开发。许多 Linux 改良品种迎合了嵌入式／... 阅读全文

相思酸中有甜 2007-01-13 10:41 发表评论

嵌入式Linux系统的设计与应用

相思酸中有甜 — Tue, 02 Jan 2007 06:56:00 GMT

转自http://blog.csdn.net/fengyv/archive/2006/09/11/1206485.aspx

摘要：随着嵌入式Linux系统的迅速发展，嵌入式Linux已发展成为嵌入式操作系统的一个重要分支。本文介绍了嵌入式Linux的设计和几种流行的嵌入式Linux系统。

关键词：嵌入式Linux

一、引言

嵌入式系统(Embedded Systems)是根据应用的要求，将操作系统和功能软件集成于计算机硬件系统之中，从而实现软件与硬件一体化的计算机系统。嵌入式系统出现于60年代晚期，它最初被用于控制机电电话交换机，如今已被广泛的应用于工业制造、过程控制、通讯、仪器、仪表、汽车、船舶、航空、航天、军事装备、消费类产品等众多领域。嵌入式系统在数量上远远超过了各种通用计算机系统：计算机系统核心CPU，每年在全球范围内的产量大概在二十亿颗左右，其中超过80％应用于各类专用性很强的嵌入式系统。

一般的说，凡是带有微处理器的专用软硬件系统都可以称为嵌入式系统。和通用的计算平台相比，嵌入式系统往往具有功能单一、体积小、功耗低、可靠性高、剪裁性好、软硬件集成度高、计算能力相对较低等特点。多年来，嵌入式设备中没有操作系统，其主要原因有二：首先，诸如洗衣机、微波炉、电冰箱这样的设备仅仅需要一道简单的控制程序，以管理数量有限的按钮和指示灯，没有使用操作系统的必要；其次，它往往只具有有限的硬件资源，不足以支持一个操作系统。

然而，随着硬件的发展，嵌入式系统变得越来越复杂，最初的控制程序中逐步的加入了许多功能，而这些功能中有很多可以由操作系统提供。于是，在70年代末期出现了嵌入式操作系统(Embedded Operating Systems)，它的出现大大简化了应用程序设计，并可以有效的保障软件质量和缩短开发周期。简单的ES一般并不使用操作系统，只包含一些控制流程，但是随着嵌入式操作系统在复杂性上的增长，简单的流程控制就不能满足系统的要求，这是就必须考虑使用操作系统做系统软件。因此，嵌入式操作系统就应运而生。

随着EOS的广泛应用，业界已推出一些应用比较成功的EOS产品。归纳起来EOS应该具有以下几个特点：小巧、实时性、可装卸、固化代码、弱交互性、强稳定性和统一的接口。目前使用最多的EOS产品包括有：Vxwork、QNX、PalmOS、WindowsCE、pSOS、Hopen OS(国内凯思集团公司自主研制开发)等。其中，Vxwork使用最为广泛、市场占有率最高，其突出特点是实时性强(采用优先级抢占和轮转调度等机制)，除此之外，其可靠性和可剪裁性也相当不错。QNX是一种伸缩性极佳的系统，其核心加上实时POSIX环境和一个完整的窗口系统还不到一兆。相比之下，Microsoft WinCE的核心体积庞大，实时性能也差强人意，但由于Windows系列友好的用户界面和为程序员所熟悉的API，并捆绑IE、Office等应用程序，正逐渐获得更大的市场份额。而与这些商业化的操作系统相比，Linux已经越来越受到人们的注意。

二、嵌入式Linux概述

Linux是一个成熟而稳定的网络操作系统。将Linux植入嵌入式设备具有众多的优点。首先，Linux的源代码是开放的，任何人都可以获取并修改，用之开发自己的产品。其次，Lirmx是可以定制的，其系统内核最小只有约134kB。一个带有中文系统和图形用户界面的核心程序也可以做到不足1MB，并且同样稳定。另外，它和多数Unix系统兼容，应用程序的开发和移植相当容易。同时，由于具有良好的可移植性，人们已成功使Linux运行于数百种硬件平台之上。

然而，Linux并非专门为实时性应用而设计，因此如果想在对实时性要求较高的嵌入式系统中运行Linux，就必须为之添加实时软件模块。这些模块运行的内核空间正是操作系统实现进程调度、中断处理和程序执行的部分，因此错误的代码可能会破坏操作系统，进而影响整个系统的可靠性和稳定性。Linux的众多优点还是使它在嵌入式领域获得了广泛的应用，并出现了数量可观的嵌入式Linux系统。其中有代表性的包括：uClinux、ETLinux、ThinLinux、LOAF等。ETLinux通常用于在小型工业计算机，尤其是PC／104模块。ThinLinux面向专用的照相机服务器、X-10控制器、MP3播放器和其它类似的嵌入式应用。LOAF是Linux On A Floppy的缩略语，它运行在386平台上。

三、Linux作为嵌入式操作系统的优势

Linux作为嵌入式操作系统的优势主要有以下几点：

1、可应用于多种硬件平台。Linux已经被移植到多种硬件平台，这对于经费，时间受限制的研究与开发项目是很有吸引力的。原型可以在标准平台上开发后移植到具体的硬件上，加快了软件与硬件的开发过程。Linux采用一个统一的框架对硬件进行管理，从一个硬件平台到另一个硬件平台的改动与上层应用无关。Linux可以随意地配置，不需要任何的许可证或商家的合作关系，源代码可以免费得到。这使得采用Linux作为操作系统不会遇到任何关于版权的纠纷。毫无疑问，这会节省大量的开发费用。本身内置网络支持，而目前嵌入式系统对网络支持要求越来越高。Linux的高度模块化使添加部件非常容易。

2、 Linux是一个和Unix相似、以内核为基础的、具有完全的内存访问控制，支持大量硬件(包括X86，Alpha、ARM和Motorola等现有的大部分芯片)等特性的一种通用操作系统。其程序源码全部公开，任何人可以修改并在GUN通用公共许可证(GNU General Public License)下发行。这样，开发人员可以对操作系统进行定制，适应其特殊需要。

3、 Linux带有Unix用户熟悉的完善的开发工具，几乎所有的Unix系统的应用软件都已移植到了Linux上。Linux还提供了强大的网络功能，有多种可选择窗口管理器(X Windows)。其强大的语言编译器GCC，C++等也可以很容易得到，不但成熟完善，而且使用方便。

四、嵌入式Linux的建立

完整的嵌入式Linux解决方案应包括嵌入式Linux操作系统内核、运行环境、图形化界面和应用软件等。由于嵌入式设备的特殊要求，嵌入式Linux解决方案中的内核、环境、GUI等都与标准Linux有很大不同，其主要挑战是如何在狭小的FLASH、ROM和内存中实现高质量的任务实时调度、图形化显示、网络通信等功能。

1、精简内核

Linux内核有自己的结构体系，其中进程管理、内存管理和文件系统是其最基本的3个子系统。图1简单表示了它的框架。用户进程可直接通过系统调用或者函数库来访问内核资源。正因为Linux内核具有这样的结构，因此修改内核时必须注意各个子系统之间的协调。

嵌入式Linux内核一般由标准Linux内核裁剪而来。用户可根据需求配置系统，剔除不需的服务功能、文件系统和设备驱动。经过裁剪、压缩后的系统内核一般只有300k左右，十分适合嵌入式设备。同标准Linux不同的是嵌入式Linux必须要实现从FLASH或ROM的启动。标准Linux启动代码实现了系统初始化和从软盘、硬盘O盘区引导内核。嵌入式Linux一般保存在FLASH或ROM中，标准LILO无法引导。在支持直接从FLASH设备引导的系统中，如华恒公司的uClinux，引导程序主要完成对硬件系统的初始化工作和操作系统的解压、移位工作。在不支持直接从FLASH引导的系统中，FLASH设备只能作为非引导磁盘使用。此时，可采用先从硬盘或软盘加载一个小操作系统，如嵌入式DOS，然后再执行"Loadlin"加载程序从FLASH引导嵌入式Linux。

对标准Linux的修改主要是虚拟内存和调度程序部分的改动。因为标准Linux系统使用虚拟内存管理的目的是为了能同时运行多个进程，但是这样每个待运行的进程所能分配的CPU时间片就受限制，资源的使用效率就低。这样对于实时性要求较高的嵌入式系统来说，实时任务往往要求CPU具有很高的突发处理能力，即在有些时候需要极高的处理效率，因此需要屏蔽内核的虚拟内存管理机制。对于无硬盘设备的嵌入式系统，不必采用虚存管理。强实时需求的嵌入式应用可以通过修改任务调度模块实现，主要是在内核和设备驱动程序中加入了许多切换点。在该点处，系统检测是否存在未处理的紧急中断，有则剥夺内核的运行，及时处理中断。实现实时性服务的一个较好的方法是在标准的Linux内核上增加一个实时内核，标准Linux内核作为一个任务运行于实时内核上，强实时性任务也直接运行在实时内核上，如RT-Linux等。

文件系统是嵌入式Linux操作系统必不可少的。但标准Linux支持大量的文件系统，因此除了满足系统的正常运行需要而保留一种外，其它的全部可以删除，利用原有的设置选项可以移除。一般嵌入式设备文件系统主要使用RamDisk技术和网络文件系统技术。RamDisk可驻留于Flash，运行时加载到内存中。

2、精简运行环境

Linux通常的运行环境指用户运行任何应用的基础设施，主要包括函数库和基本命令集等。标准Linux系统同时向用户提供了静态和动态函数库。静态函数库在生成应用时直接链接到用户应用中。动态库在应用运行时才链接。由于嵌入式系统应用一般都是在开发平台上预先生成的，因此嵌入式系统只需向应用提供动态函数库。Linux应用运行所需的函数库主要有C库、数学库、线程库、加密库、网络通信库等。其中最基本的是C语言的运行库glib。这个库主要完成基本的输入输出，内存访问，文件处理。一个标准的glib库大约要1200kB存储空间，考虑到嵌入式Linux内核往往很小，这种运行库实在太大，我们做了一些精简的工作，方法有两种：(1)、使用静态连接的方法，完全不使用运行库动态连接；(2)、对这个库的函数进行精简。

在一个桌面系统上，使用动态连接可以带来许多好处。使用动态连接库，可以让应用程序跟函数库的更新、升级分离，便于维护，可以让同时运行的多个程序共享一段代码。但是，在嵌入式系统中，很少有多个程序并行的可能，程序的维护，尤其是库函数的维护更新是不常见的。这时，使用静态连接的优势就极为明显。因为静态连接可以只将库中用到的部分连接进程序。在应用程序较少(小于5)的情况下，静态连接可以达到较好的结果。为了便于将来扩充的需要，我们也采用第二种方法，针对我们的需要，对库函数的内容进行精简，只保留一些基本功能，还有一种方法是采用其它的C语言运行库。但是这些库对兼容性影响很大。

基本命令集同样是运行用户应用的基础，主要包括初始化进程init，终端获取getty、Shell和基本命令等。嵌入式系统的启动过程可能与标准Linux不同，例如跳过登录过程直接启动GUI等。这就要求修改init，getty等。标准Linux命令集同样由于体积问题无法直接应用于嵌入式环境。目前，小命令集的解决方法主要有集成方法和汇编方法两种。集成方法采用集成公共部分减少命令集整体体积，用C实现，有较好的平台移植性；汇编方法则采用汇编编程减少每个命令的体积．这样可使体积很小但其平台移植性较差。

3、嵌入式Linux下的GUI

GUI在嵌入式系统或者实时系统中的地位越来越重要，比如PDA、DVD播放机、WAP手机等，都需要一个完整．漂亮的图形用户界面。这些系统对GUI的基本要求包括：(1)、轻型、占用资源少；(2)、高性能；(3)、高可靠性；(4)、可配置。这些也成为评价嵌入式系统的重要指标。目前，嵌入式Linux上的GUI主要有winCE、Micro Window、紧缩的X Window、MiniGUI(国内做得较好的自由软件之一)。标准Linux的Xfree86由于体积庞大，运行环境要求高，无法运行于嵌入式环境。嵌入式GUI主要通过削减功能，降低性能来实现体积小和占用资源少。目前嵌入式Linux上的GUI环境主要有两类：X类和win32类。X类GUI分为服务方和客户方两方。服务器方提供鼠标、键盘处理和显示功能，客户方是用户应用，服务方和客户方通过socket接口和X协议通信。采用该方式十分有利于远程网络图形化服务，客户方和服务方可通过网络实现X协议和图形显示。典型的X类GUI有Micro Window、紧缩的X Window等。win32类的GUI不存在客户方和服务方，每个任务都自成一体，任何任务间的切换、事件分发由专门的管理任务负责。如wiCE、MiniGUI就是类似于win32类的GUI。

五、当前流行的几种嵌入式Linux系统

除了智能数字终端领域以外，Linux在移动计算平台、智能工业控制、金融业终端系统，甚至军事领域都有着广泛的应用前景。这些Linux被统称为"嵌入式Linux"。

1、RT-Linux

这是由美国墨西哥理工学院开发的嵌入式Linux操作系统。到目前为止，RT-Linux已经成功地应用于航天飞机的空间数据采集、科学仪器测控和电影特技图像处理等广泛领域。RT-Linux开发者并没有针对实时操作系统的特性而重写Linux的内核，因为这样做的工作量非常大，而且要保证兼容性也非常困难。为此，RT-Linux提出了精巧的内核，并把标准的Linux核心作为实时核心的一个进程，同用户的实时进程一起调度。这样对Linux内核的改动非常小，并且充分利用了Linux下现有的丰富的软件资源。

2、uClinux

uCLinux是Lineo公司的主打产品，同时也是开放源码的嵌入式Linux的典范之作。uCLinux主要是针对目标处理器没有存储管理单元MMU(Memory Management Unit) 的嵌入式系统而设计的。它已经被成功地移植到了很多平台上。由于没有MMU，其多任务的实现需要一定技巧。uCLinux是一种优秀的嵌入式Linux版本，是micro-Conrol-Linux的缩写。它秉承了标准Linux的优良特性，经过各方面的小型化改造，形成了一个高度优化的、代码紧凑的嵌入式Linux。虽然它的体积很小，却仍然保留了Linux的大多数的优点：稳定、良好的移植性、优秀的网络功能、对各种文件系统完备的支持和标准丰富的API。它专为嵌入式系统做了许多小型化的工作，目前已支持多款CPU。其编译后目标文件可控制在几百KB数量级，并已经被成功地移植到很多平台上。

3、Embedix

Embedix是由嵌入式Linux行业主要厂商之一Luneo推出的，是根据嵌入式应用系统的特点重新设计的Linux发行版本。Embedix提供了超过25种的Linux系统服务，包括Web服务器等。系统需要最小8MB内存，3MB ROM或快速闪存。Embedix基于Linux 2.2内核，并已经成功地移植到了Intel x86和PowerPC处理器系列上。像其它的Linux版本一样，Embedix可以免费获得。Luneo还发布了另一个重要的软件产品，它可以让在Windows CE上运行的程序能够在Embedix上运行。Luneo还将计划推出Embedix的开发调试工具包、基于图形界面的浏览器等。可以说，Embedix是一种完整的嵌入式Linux解决方案。

4、Xlinux

XLinux是由美国网虎公司推出，主要开发者是陈盈豪。他在加盟网虎几个月后便开发出了基于XLinux的、号称是世界上最小的嵌入式Linux系统，内核只有143KB，而且还在不断减小。XLinux核心采用了"超字元集"专利技术，让Linux核心不仅可能与标准字符集相容，还含盖了1 2个国家和地区的字符集。因此，XLinux在推广Linux的国际应用方面有独特的优势。

5、PoketLinux

由Agenda公司采用、作为其新产品"VR3PDA"的嵌入式Linux操作系统。它可以提供跨操作系统构造统一的、标准化的和开放的信息通信基础结构，在此结构上实现端到端方案的完整平台。PoketLinux资源框架开放，使普通的软件结构可以为所有用户提供一致的服务。PoketLinux平台使用户的视线从设备、平台和网络上移开，由此引发了信息技术新时代的产生。在PoketLinux中，称之为用户化信息交换(CIE)，也就是提供和访问为每个用户需求而定制的"主题"信息的能力，而不管正在使用的设备是什么。

6、MidoriLinux

由Transmeta公司推出的MidoriLinux操作系统代码开放，在GUN普通公共许可(GPL)下发布，可以在http：//midori.transmeta.com上立即获得。该公司有个名为"MidoriLinux计划"。"MidoriLinux"这个名字来源于日本的"绿色"---Midori，用来反映其Linux操作系统的环保外观。

7、红旗嵌入式Linux

由北京中科院红旗软件公司推出的嵌入式Linux是国内做得较好的一款嵌入式操作系统。目前，中科院计算所自行开发的开放源码的嵌入式操作系统---Easy Embedded OS(EEOS)也已经开始进入实用阶段了。该款嵌入式操作系统重点支持p-Java。系统目标一方面是小型化，另一方面能重用Linux的驱动和其它模块。由于有中科院计算所的强大科研力量做后盾，EEOS有望发展成为功能完善、稳定、可靠的国产嵌入式操作系统平台。

六、结束语

由于Linux是一个内核源代码开放、具备一整套工具链、有强大的网络支持及成本低廉的操作系统，因此嵌入式Linux自诞生起就秉承了这众多独特优势，这使它正在并越来越多地受到人们的关注。据Even Data数据显示，期望使用嵌入式Linux的用户从2001年的11％增到2002年27％，而同期Vxwork只是从16％到18％，Win CE从9％到14％。另外，在嵌入式Linux的各种应用市场中，通信(语音和数据)名列第一，2000年的销售额是1300万美元，而2005年预计将达到1.26亿美元，可以预见，嵌入式Linux将在未来的通信用嵌入式操作系统中占据强有力的地位。

相思酸中有甜 2007-01-02 14:56 发表评论

用I/O命令访问PCI总线设备配置空间

相思酸中有甜 — Tue, 02 Jan 2007 06:46:00 GMT

关键词：PCI总线配置空间操作系统
转自：http://topdzh.byethost4.com/viewthread.php?tid=48&extra=page%3D1

PCI总线推出以来，以其独有的特性受到众多厂商的青睐，已经成为计算机扩展总线的主流。目前，国内的许多技术人员已经具备开发PCI总线接口设备的能力。但是PCI总线的编程技术，也就是对PCI总线设备的操作技术，一直是一件让技术人员感到头疼的事情。PCI总线编程的核心技术是对相应板卡配置空间的理解和访问。一般软件编程人员基于对硬件设备原理的生疏，很难理解并操作配置空间，希望硬件开发人员直接告诉他们怎样操作；而PCI总线硬件开发人员虽深刻地理解了其意义，在没有太多编程经验地前提下，也难于轻易地操作PCI板卡。结果大多是硬件技术人员花费大量时间和精力去学习DDK、 WINDRVER等驱动程序开发软件。

作者在开发PCI总线接口设备时，经过对PCI总线协议的深入研究，从协议本身的角度出发，找到一种方面而快捷的PCI配置空间操作方法，只使用简单的 I/O命令即可找到特定的PCI总线设备并对其所有的配置空间进行读写操作。一旦读得其配置空间的内容，即可中得到担任系统对该PCI总线设备的资源分配。

1 PCI总线配置空间及配置机制

为避免各PCI设备在资源的占用上发生冲突，PCI总线采用即插即用协议。即在系统建立时由操作系统按照各设备的要求统一分配资源，资源分配的信息由系统写入各PCI设备的配置空间寄存器，并在操作系统内部备份。各PCI设备有其独自的配置空间，设计者通过对积压设备（或插槽）的ISDEL引脚的驱动区分不同设备的配置空间。配置空间的前64个字节称为配置空间的预定自区，它对每个设备都具有相同的定义且必须被支持；共后的空间称为设备关联区，由设备制造商根据需要定义。与编程有关的配置空间信息主要有：

（1）设备号（Device ID）及销售商号（Vendor ID），配置空间偏移量为00h，用于对各PCI设备的区分和查找。为了保证其唯一性，Vendor ID应当向PCI特别兴趣小组（PCI SIG）申请而得到。

（2）PCI基地址（PCI Base Address），配置空间偏移量为10～24h，设备通过设定可读写的高位数值来向操作系统指示所需资源空间的大小。比如，某设备需要64K字节的内存空间，可以将配置空间的某基地址寄存器的高16位设成可读写的，而将低16位置为0（只可读）。操作系统在建立时，先向所有位写1，实际上只有高16位被接收而被置成了1，低16位仍为0.这样操作系统读取该寄存器时，返回值为FFFF0000h，据此操作系统可以断定其需要的空间大小是64K字节，然后分配一段空闲的内存空间并向该寄存器的高16位填写其地址。

其它可能与编程有关的配置空间的定义及地址请参阅参考文献[1]。

由于PC-AT兼容系统CPU只有内存和I/O两种空间，没有专用的配置空间，PCI协议规定利用特定的I/O空间操作驱动PCI桥路转换成配置空间的操作。目前存在两种转换机制，即配置机制1#和配置机制2#。配置机制2#在新的设计中将不再被采用，新的设计应使用配置机制1#来产生配置空间的物理操作。这种机制使用了两个特定的32位I/O空间，即CF8h和CFCh。这两个空间对应于PCI桥路的两个寄存器，当桥路看到CPU在局部总线对这两个 I/O空间进行双字操作时，就将该I/O操作转变为PCI总线的配置操作。寄存器CF8h用于产生配置空间的地址（CONFIG-ADDRESS），寄存器CFCh用于保存配置空间的读写数据（CONFIG-DATA）。

配置空间地址寄存器的格式如图1。

CF8H（局部总线）：

当CPU发出对I/O空间CFCh的操作时，PCI桥路将检查配置空间地址寄存器CF8h的31位。如果为1，就在PCI总线上产生一个相应的配置空间读或写操作，其地址由PCI桥路根据配置空间地址寄存器的内容作如图2所示的转换。

CFCh (局部总线)：

设备号被PCI桥路译码产生PCI总线地址的高位地址，它们被设计者用作IDSEL信号来区分相应的PCI设备。6位寄存器号用于寻址该PCI设备配置空间62个双字的配置寄存器（256字节）。功能号用于区分多功能设备的某特定功能的配置空间，对常用的单功能设备为000。某中PCI插槽的总线号随系统（主板）的不同稍有区别，大多数PC机为1，工控机可能为2或3。为了找到某设备，应在系统的各个总线号上查找，直到定位。如果在0～5号总线上不能发现该设备，即可认为该设备不存在。

理解了上述PCI协议里的配置机制后，就可以直接对CF8h和CFCh两个双字的I/O空间进行操作，查找某个PCI设备并访问其配置空间，从而得到操作系统对该PCI设备的资源分配。

2 用I/O命令访问PCI总线配置空间

要访问PCI总线设备的配置空间，必须先查找该设备。查找的基本根据是各PCI设备的配置空间里都存有特定的设备号（Device ID）及销售商号（Vendor ID），它们占用配置空间的00h地址。而查找的目的是获得该设备的总线号和设备号。查找的基本过程如下：用I/O命令写配置空间的地址寄存器CF8h，使其最高位为1，总线号及设备为0，功能号及寄存器号为0，即往I/O端口CF8h80000000h；然后用I/O命令读取配置空间的数据寄存器 CFCh。如果该寄存器值与该PCI设备的Device ID及Vendor ID不相符，则依次递增设备号/总线号，重复上述操作直到找到该设备为止。如果查完所有的设备号/总线号（1～5）仍不能找到该设备，则应当考虑硬件上的问题。对于多功能设备，只要设备配置寄存器相应的功能号值，其余步骤与单功能设备一样。

如查找设备号为9054h，销售商号为10b5的单功能PCI设备，编写的程序如下：

CODE:

char bus;char device;

unsigned int ioa0,iod;

int scan( )

{

bus=0;device=0;

for(char i=0;i<5;i++) {

for(char j=0;j<32;j++) {

bus=i; device=j;

ioa0=0x80000000+bus*0x10000

+(device*8)*0x100;

_outpd(0xcf8,ioa0);

iod=_inpd(0xcfc);

if (iod0= =0x905410b5) return 0;

}

}

retrn -1

}

调用子程序scan( )，如果返回值为-1，则没有找到该PCI设备。如果返回值为0，则找到了该PCI设备。该设备的总线号和设备号分别在全局变量bus和device中，利用这两个变量即可轻易对该设备的配置空间进行访问，从而得到分配的资源信息。假设该PCI设备占用了4个资源空间，分别对应于配置空间10h～1ch，其中前两个为I/O空间，后两个为内存空间，若定义其基地址分别为ioaddr1,ioaddr2,memaddr1,memaddr2,相应的程序如下：

CODE:

unsigned short ioaddr1,ioaddr2;

unsigned int memaddr1,memaddr2;

unsigned int iobase,ioa;

void getbaseaddr(char bus,char device);

{

iobase=0x80000000+bus*0x10000+(device*8)*0x100;

ioa=iobase+0x10;/*寻址基地址寄存器0*/

_outpd(0xcf8,ioa);

ioaddr1=(unsigned short)_inpd(0xcfc)&0xfffc;

/*屏蔽低两位和高16位*/

ioa=iobase+0x14; /*寻址基地址寄存器1*/

_outpd(0xcf8,ioa);

ioaddr2=(unsigned short)_inpd(0xcfc)&0xfffc;

ioa=iobase+0x18;/*寻址基地寄存器2*/

_outpd(0xcf8,ioa);

memaddr1=_inpd(0xcfc) & 0xfffffff0;

/*屏蔽低4位*/

ioa=iobase+0x1c; /*寻址基地址寄存器3*/

_outpd(0xcf8,ioa);

memaddr2=_inpd(0xcfc) & 0xfffffff0;

}

对于I/O基地址，最低两位D0、D1固定为01，对地址本身无效，应当被屏蔽。对PC-AT兼容机，I/O有效地址为16位，因此高位也应被屏蔽。对于内存地址，最低位D0固定为0，而D1～D3用于指示该地址的一些物理特性[1]，因此其低4位地址应当被屏蔽。需要指出的是该内存地址是系统的物理地址，在WINDOWS运行于保护模式时，需要经过转换得到相应的线性地址才能对该内存空间进行直接读写。介绍该转换方法的相关文章较为常见，此处不再赘述。

上述程序给出了读取配置空间里的基地址的方法。另有相当多PCI设备通过配置空间的设备关联区来设置该设备的工作状态，可轻易地用I/O命令进行相应的设置，无须编写繁杂的驱动程序。在开发PCI视频图像采集卡的过程中，该方法得到了实际应用。

相思酸中有甜 2007-01-02 14:46 发表评论

[转]linux下I/O资源的实现,管理和操作

相思酸中有甜 — Tue, 02 Jan 2007 06:39:00 GMT

几乎每一种外设都是通过读写设备上的寄存器来进行的。外设寄存器也称为“I/O端口”，通常包括：控制寄存器、状态寄存器和数据寄存器三大类，而且一个外设的寄存器通常被连续地编址。CPU对外设IO端口物理地址的编址方式有两种：一种是I/O映射方式（I/O－mapped），另一种是内存映射方式（Memory－mapped）。而具体采用哪一种则取决于CPU的体系结构。

　　有些体系结构的CPU（如，PowerPC、m68k等）通常只实现一个物理地址空间（RAM）。在这种情况下，外设I/O端口的物理地址就被映射到CPU的单一物理地址空间中，而成为内存的一部分。此时，CPU可以象访问一个内存单元那样访问外设I/O端口，而不需要设立专门的外设I/O指令。这就是所谓的“内存映射方式”（Memory－mapped）。

　　而另外一些体系结构的CPU（典型地如X86）则为外设专门实现了一个单独地地址空间，称为“I/O地址空间”或者“I/O端口空间”。这是一个与CPU地RAM物理地址空间不同的地址空间，所有外设的I/O端口均在这一空间中进行编址。CPU通过设立专门的I/O指令（如X86的IN和OUT指令）来访问这一空间中的地址单元（也即I/O端口）。这就是所谓的“I/O映射方式”（I/O－mapped）。与RAM物理地址空间相比，I/O地址空间通常都比较小，如x86 CPU的I/O空间就只有64KB（0－0xffff）。这是“I/O映射方式”的一个主要缺点。

　　Linux将基于I/O映射方式的或内存映射方式的I/O端口通称为“I/O区域”（I/O region）。在讨论对I/O区域的管理之前，我们首先来分析一下Linux是如何实现“I/O资源”这一抽象概念的。

3．1 Linux对I/O资源的描述

　　Linux设计了一个通用的数据结构resource来描述各种I/O资源（如：I/O端口、外设内存、DMA和IRQ等）。该结构定义在include/linux/ioport.h头文件中：

　　struct resource {
        const char *name;
        unsigned long start, end;
        unsigned long flags;
        struct resource *parent, *sibling, *child;
　　};

　　各成员的含义如下：

　　1. name指针：指向此资源的名称。
　　2. start和end：表示资源的起始物理地址和终止物理地址。它们确定了资源的范围，也即是一个闭区间[start,end]。
　　3. flags：描述此资源属性的标志（见下面）。
　　4. 指针parent、sibling和child：分别为指向父亲、兄弟和子资源的指针。

　　属性flags是一个unsigned long类型的32位标志值，用以描述资源的属性。比如：资源的类型、是否只读、是否可缓存，以及是否已被占用等。下面是一部分常用属性标志位的定义（ioport.h）：

/*
* IO resources have these defined flags.
*/
#define IORESOURCE_BITS 0x000000ff /* Bus-specific bits */

#define IORESOURCE_IO                0x00000100        /* Resource type */
#define IORESOURCE_MEM                0x00000200
#define IORESOURCE_IRQ                0x00000400
#define IORESOURCE_DMA                0x00000800

#define IORESOURCE_PREFETCH        0x00001000        /* No side effects */
#define IORESOURCE_READONLY        0x00002000
#define IORESOURCE_CACHEABLE        0x00004000
#define IORESOURCE_RANGELENGTH        0x00008000
#define IORESOURCE_SHADOWABLE        0x00010000
#define IORESOURCE_BUS_HAS_VGA        0x00080000

#define IORESOURCE_UNSET        0x20000000
#define IORESOURCE_AUTO                0x40000000
#define IORESOURCE_BUSY                0x80000000
        /* Driver has marked this resource busy */

　　指针parent、sibling和child的设置是为了以一种树的形式来管理各种I/O资源。

3．2 Linux对I/O资源的管理

　　Linux是以一种倒置的树形结构来管理每一类I/O资源（如：I/O端口、外设内存、DMA和IRQ）的。每一类I/O资源都对应有一颗倒置的资源树，树中的每一个节点都是一个resource结构，而树的根结点root则描述了该类资源的整个资源空间。

　　基于上述这个思想，Linux在kernel/Resource.c文件中实现了对资源的申请、释放及查找等操作。

　　3．2．1 I/O资源的申请

　　假设某类资源有如下这样一颗资源树：

　　节点root、r1、r2和r3实际上都是一个resource结构类型。子资源r1、r2和r3通过sibling指针链接成一条单向非循环链表，其表头由root节点中的child指针定义，因此也称为父资源的子资源链表。r1、r2和r3的parent指针均指向他们的父资源节点，在这里也就是图中的root节点。

　　假设想在root节点中分配一段I/O资源（由图中的阴影区域表示）。函数request_resource()实现这一功能。它有两个参数：①root指针，表示要在哪个资源根节点中进行分配；②new指针，指向描述所要分配的资源（即图中的阴影区域）的resource结构。该函数的源代码如下（kernel/resource.c）:

　　int request_resource(struct resource *root, struct resource *new)
　　{
struct resource *conflict;

        write_lock(&resource_lock);
        conflict = __request_resource(root, new);
        write_unlock(&resource_lock);
        return conflict ? -EBUSY : 0;
　　}

　　对上述函数的NOTE如下：

　　①资源锁resource_lock对所有资源树进行读写保护，任何代码段在访问某一颗资源树之前都必须先持有该锁。其定义如下（kernel/Resource.c）：

　　static rwlock_t resource_lock = RW_LOCK_UNLOCKED;

　　②可以看出，函数实际上是通过调用内部静态函数__request_resource()来完成实际的资源分配工作。如果该函数返回非空指针，则表示有资源冲突；否则，返回NULL就表示分配成功。

　　③最后，如果conflict指针为NULL，则request_resource()函数返回返回值0，表示成功；否则返回－EBUSY表示想要分配的资源已被占用。

　　函数__request_resource()完成实际的资源分配工作。如果参数new所描述的资源中的一部分或全部已经被其它节点所占用，则函数返回与new相冲突的resource结构的指针。否则就返回NULL。该函数的源代码如下

（kernel/Resource.c）：
/* Return the conflict entry if you can't request it */
static struct resource * __request_resource
　　(struct resource *root, struct resource *new)
{
        unsigned long start = new->start;
        unsigned long end = new->end;
        struct resource *tmp, **p;

        if (end < start)
                return root;
        if (start < root->start)
                return root;
        if (end > root->end)
                return root;
        p = &root->child;
        for (;;) {
                tmp = *p;
                if (!tmp || tmp->start > end) {
                        new->sibling = tmp;
                        *p = new;
                        new->parent = root;
                        return NULL;
                }
                p = &tmp->sibling;
                if (tmp->end < start)
                        continue;
                return tmp;
        }
}

　　对函数的NOTE：

　　①前三个if语句判断new所描述的资源范围是否被包含在root内，以及是否是一段有效的资源（因为end必须大于start）。否则就返回root指针，表示与根结点相冲突。

　　②接下来用一个for循环遍历根节点root的child链表，以便检查是否有资源冲突，并将new插入到child链表中的合适位置（child链表是以I/O资源物理地址从低到高的顺序排列的）。为此，它用tmp指针指向当前正被扫描的resource结构，用指针p指向前一个resource结构的sibling指针成员变量，p的初始值为指向root－>sibling。For循环体的执行步骤如下：

　　l 让tmp指向当前正被扫描的resource结构（tmp＝*p）。

　　l 判断tmp指针是否为空（tmp指针为空说明已经遍历完整个child链表），或者当前被扫描节点的起始位置start是否比new的结束位置end还要大。只要这两个条件之一成立的话，就说明没有资源冲突，于是就可以把new链入child链表中：①设置new的sibling指针指向当前正被扫描的节点tmp（new->sibling=tmp）；②当前节点tmp的前一个兄弟节点的sibling指针被修改为指向new这个节点（*p=new）；③将new的parent指针设置为指向root。然后函数就可以返回了（返回值NULL表示没有资源冲突）。

　　l 如果上述两个条件都不成立，这说明当前被扫描节点的资源域有可能与new相冲突（实际上就是两个闭区间有交集），因此需要进一步判断。为此它首先修改指针p，让它指向tmp->sibling，以便于继续扫描child链表。然后，判断tmp->end是否小于new->start，如果小于，则说明当前节点tmp和new没有资源冲突，因此执行continue语句，继续向下扫描child链表。否则，如果tmp->end大于或等于new->start，则说明tmp->[start,end]和new->[start,end]之间有交集。所以返回当前节点的指针tmp，表示发生资源冲突。

　　3．2．2 资源的释放

　　函数release_resource()用于实现I/O资源的释放。该函数只有一个参数——即指针old，它指向所要释放的资源。起源代码如下：

int release_resource(struct resource *old)
{
int retval;

        write_lock(&resource_lock);
        retval = __release_resource(old);
        write_unlock(&resource_lock);
        return retval;
}

　　可以看出，它实际上通过调用__release_resource()这个内部静态函数来完成实际的资源释放工作。函数__release_resource()的主要任务就是将资源区域old（如果已经存在的话）从其父资源的child链表重摘除，它的源代码如下：

static int __release_resource(struct resource *old)
{
struct resource *tmp, **p;

        p = &old->parent->child;
        for (;;) {
                tmp = *p;
                if (!tmp)
                        break;
                if (tmp == old) {
                        *p = tmp->sibling;
                        old->parent = NULL;
                        return 0;
                }
                p = &tmp->sibling;
        }
        return -EINVAL;
}

　　对上述函数代码的NOTE如下：

　　同函数__request_resource()相类似，该函数也是通过一个for循环来遍历父资源的child链表。为此，它让tmp指针指向当前被扫描的资源，而指针p则指向当前节点的前一个节点的sibling成员（p的初始值为指向父资源的child指针）。循环体的步骤如下：

　　①首先，让tmp指针指向当前被扫描的节点（tmp＝*p）。

　　②如果tmp指针为空，说明已经遍历完整个child链表，因此执行break语句推出for循环。由于在遍历过程中没有在child链表中找到参数old所指定的资源节点，因此最后返回错误值－EINVAL，表示参数old是一个无效的值。

　　③接下来，判断当前被扫描节点是否就是参数old所指定的资源节点。如果是，那就将old从child链表中去除，也即让当前结点tmp的前一个兄弟节点的sibling指针指向tmp的下一个节点，然后将old－>parent指针设置为NULL。最后返回0值表示执行成功。

　　④如果当前被扫描节点不是资源old，那就继续扫描child链表中的下一个元素。因此将指针p指向tmp－>sibling成员。

　　3．2．3 检查资源是否已被占用，

　　函数check_resource()用于实现检查某一段I/O资源是否已被占用。其源代码如下：

int check_resource(struct resource *root, unsigned long start, unsigned long len)
{
struct resource *conflict, tmp;

        tmp.start = start;
        tmp.end = start + len - 1;
        write_lock(&resource_lock);
        conflict = __request_resource(root, &tmp);
        if (!conflict)
                __release_resource(&tmp);
        write_unlock(&resource_lock);
        return conflict ? -EBUSY : 0;
}

　　对该函数的NOTE如下：

　　①构造一个临时资源tmp，表示所要检查的资源[start,start+end-1]。

　　②调用__request_resource()函数在根节点root申请tmp所表示的资源。如果tmp所描述的资源还被人使用，则该函数返回NULL，否则返回非空指针。因此接下来在conflict为NULL的情况下，调用__release_resource()将刚刚申请的资源释放掉。

　　③最后根据conflict是否为NULL，返回－EBUSY或0值。

　　3．2．4 寻找可用资源

　　函数find_resource()用于在一颗资源树中寻找未被使用的、且满足给定条件的（也即资源长度大小为size，且在[min,max]区间内）的资源。其函数源代码如下：

/*
* Find empty slot in the resource tree given range and alignment.
*/
static int find_resource(struct resource *root, struct resource *new,
                unsigned long size,
                unsigned long min, unsigned long max,
                unsigned long align,
                void (*alignf)(void *, struct resource *, unsigned long),
                void *alignf_data)
{
        struct resource *this = root->child;

        new->start = root->start;
        for(;;) {
                if (this)
                        new->end = this->start;
                else
                        new->end = root->end;
                if (new->start < min)
                        new->start = min;
                if (new->end > max)
                        new->end = max;
                new->start = (new->start + align - 1) & ~(align - 1);
                if (alignf)
                        alignf(alignf_data, new, size);
                if (new->start < new->end && new->end - new->start + 1 >= size)
                  {
                        new->end = new->start + size - 1;
                        return 0;
                }
                if (!this)
                        break;
                new->start = this->end + 1;
                this = this->sibling;
        }
        return -EBUSY;
}

　　对该函数的NOTE如下：

　　同样，该函数也要遍历root的child链表，以寻找未被使用的资源空洞。为此，它让this指针表示当前正被扫描的子资源节点，其初始值等于root->child，即指向child链表中的第一个节点，并让new->start的初始值等于root->start，然后用一个for循环开始扫描child链表，对于每一个被扫描的节点，循环体执行如下操作：

　　①首先，判断this指针是否为NULL。如果不为空，就让new->end等于this->start，也即让资源new表示当前资源节点this前面那一段未使用的资源区间。

　　②如果this指针为空，那就让new->end等于root->end。这有两层意思：第一种情况就是根结点的child指针为NULL（即根节点没有任何子资源）。因此此时先暂时将new->end放到最大。第二种情况就是已经遍历完整个child链表，所以此时就让new表示最后一个子资源后面那一段未使用的资源区间。

　　③根据参数min和max修正new->[start,end]的值，以使资源new被包含在[min,max]区域内。

　　④接下来进行对齐操作。

　　⑤然后，判断经过上述这些步骤所形成的资源区域new是否是一段有效的资源（end必须大于或等于start），而且资源区域的长度满足size参数的要求（end－start＋1>=size）。如果这两个条件均满足，则说明我们已经找到了一段满足条件的资源空洞。因此在对new->end的值进行修正后，然后就可以返回了（返回值0表示成功）。

　　⑥如果上述两条件不能同时满足，则说明还没有找到，因此要继续扫描链表。在继续扫描之前，我们还是要判断一下this指针是否为空。如果为空，说明已经扫描完整个child链表，因此就可以推出for循环了。否则就将new->start的值修改为this->end+1，并让this指向下一个兄弟资源节点，从而继续扫描链表中的下一个子资源节点。

　　3．2．5 分配接口allocate_resource()

　　在find_resource()函数的基础上，函数allocate_resource()实现：在一颗资源树中分配一条指定大小的、且包含在指定区域[min,max]中的、未使用资源区域。其源代码如下：

/*
* Allocate empty slot in the resource tree given range and alignment.
*/
int allocate_resource(struct resource *root, struct resource *new,
                      unsigned long size,
                      unsigned long min, unsigned long max,
                      unsigned long align,
                      void (*alignf)(void *, struct resource *, unsigned long),
                      void *alignf_data)
{
    int err;

    write_lock(&resource_lock);
    err = find_resource(root, new, size, min, max, align, alignf, alignf_data);
    if (err >= 0 && __request_resource(root, new))
        err = -EBUSY;
    write_unlock(&resource_lock);
    return err;
}

　　3．2．6 获取资源的名称列表

　　函数get_resource_list()用于获取根节点root的子资源名字列表。该函数主要用来支持/proc/文件系统（比如实现proc/ioports文件和/proc/iomem文件）。其源代码如下：

int get_resource_list(struct resource *root, char *buf, int size)
{
char *fmt;
int retval;

        fmt = "        %08lx-%08lx : %s
";
        if (root->end < 0x10000)
                fmt = "        %04lx-%04lx : %s
";
        read_lock(&resource_lock);
        retval = do_resource_list(root->child, fmt, 8, buf, buf + size) - buf;
        read_unlock(&resource_lock);
        return retval;
}

　　可以看出，该函数主要通过调用内部静态函数do_resource_list()来实现其功能，其源代码如下：

/*
* This generates reports for /proc/ioports and /proc/iomem
*/
static char * do_resource_list(struct resource *entry, const char *fmt,
　　int offset, char *buf, char *end)
{
if (offset < 0)
offset = 0;

        while (entry) {
                const char *name = entry->name;
                unsigned long from, to;

if ((int) (end-buf) < 80)
return buf;

                from = entry->start;
                to = entry->end;
                if (!name)
                        name = "";

                buf += sprintf(buf, fmt + offset, from, to, name);
                if (entry->child)
                   buf = do_resource_list(entry->child, fmt, offset-2, buf, end);
                entry = entry->sibling;
        }

return buf;
}

　　函数do_resource_list()主要通过一个while{}循环以及递归嵌套调用来实现，较为简单，这里就不在详细解释了。

3．3 管理I/O Region资源

　　Linux将基于I/O映射方式的I/O端口和基于内存映射方式的I/O端口资源统称为“I/O区域”（I/O Region）。I/O Region仍然是一种I/O资源，因此它仍然可以用resource结构类型来描述。下面我们就来看看Linux是如何管理I/O Region的。

　　3．3．1 I/O Region的分配

　　在函数__request_resource()的基础上，Linux实现了用于分配I/O区域的函数__request_region()，如下:

struct resource * __request_region(struct resource *parent,
　　unsigned long start, unsigned long n, const char *name)
{
struct resource *res = kmalloc(sizeof(*res), GFP_KERNEL);

        if (res) {
                memset(res, 0, sizeof(*res));
                res->name = name;
                res->start = start;
                res->end = start + n - 1;
                res->flags = IORESOURCE_BUSY;

write_lock(&resource_lock);

for (;;) {
struct resource *conflict;

                        conflict = __request_resource(parent, res);
                        if (!conflict)
                                break;
                        if (conflict != parent) {
                                parent = conflict;
                                if (!(conflict->flags & IORESOURCE_BUSY))
                                        continue;
                        }

                        /* Uhhuh, that didn't work out.. */
                        kfree(res);
                        res = NULL;
                        break;
                }
                write_unlock(&resource_lock);
        }
        return res;
}

NOTE：

　　①首先，调用kmalloc（）函数在SLAB分配器缓存中分配一个resource结构。

　　②然后，相应的根据参数值初始化所分配的resource结构。注意！flags成员被初始化为IORESOURCE_BUSY。

　　③接下来，用一个for循环开始进行资源分配，循环体的步骤如下：

　　l 首先，调用__request_resource()函数进行资源分配。如果返回NULL，说明分配成功，因此就执行break语句推出for循环，返回所分配的resource结构的指针，函数成功地结束。

　　l 如果__request_resource()函数分配不成功，则进一步判断所返回的冲突资源节点是否就是父资源节点parent。如果不是，则将分配行为下降一个层次，即试图在当前冲突的资源节点中进行分配（只有在冲突的资源节点没有设置IORESOURCE_BUSY的情况下才可以），于是让parent指针等于conflict，并在conflict->flags&IORESOURCE_BUSY为0的情况下执行continue语句继续for循环。

　　l 否则如果相冲突的资源节点就是父节点parent，或者相冲突资源节点设置了IORESOURCE_BUSY标志位，则宣告分配失败。于是调用kfree（）函数释放所分配的resource结构，并将res指针置为NULL，最后用break语句推出for循环。

　　④最后，返回所分配的resource结构的指针。

　　3．3．2 I/O Region的释放

　　函数__release_region()实现在一个父资源节点parent中释放给定范围的I/O Region。实际上该函数的实现思想与__release_resource()相类似。其源代码如下：

void __release_region(struct resource *parent,
　　　　unsigned long start, unsigned long n)
{
struct resource **p;
unsigned long end;

p = &parent->child;
end = start + n - 1;

for (;;) {
struct resource *res = *p;

                if (!res)
                        break;
                if (res->start <= start && res->end >= end) {
                        if (!(res->flags & IORESOURCE_BUSY)) {
                                p = &res->child;
                                continue;
                        }
                        if (res->start != start' 'res->end != end)
                                break;
                        *p = res->sibling;
                        kfree(res);
                        return;
                }
                p = &res->sibling;
        }
        printk("Trying to free nonexistent resource <%08lx-%08lx>
", start, end);
}

　　类似地，该函数也是通过一个for循环来遍历父资源parent的child链表。为此，它让指针res指向当前正被扫描的子资源节点，指针p指向前一个子资源节点的sibling成员变量，p的初始值为指向parent->child。For循环体的步骤如下：

　　①让res指针指向当前被扫描的子资源节点（res＝*p）。

　　②如果res指针为NULL，说明已经扫描完整个child链表，所以退出for循环。

　　③如果res指针不为NULL，则继续看看所指定的I/O区域范围是否完全包含在当前资源节点中，也即看看[start,start+n-1]是否包含在res->[start,end]中。如果不属于，则让p指向当前资源节点的sibling成员，然后继续for循环。如果属于，则执行下列步骤：

　　l 先看看当前资源节点是否设置了IORESOURCE_BUSY标志位。如果没有设置该标志位，则说明该资源节点下面可能还会有子节点，因此将扫描过程下降一个层次，于是修改p指针，使它指向res->child，然后执行continue语句继续for循环。

　　l 如果设置了IORESOURCE_BUSY标志位。则一定要确保当前资源节点就是所指定的I/O区域，然后将当前资源节点从其父资源的child链表中去除。这可以通过让前一个兄弟资源节点的sibling指针指向当前资源节点的下一个兄弟资源节点来实现（即让*p=res->sibling），最后调用kfree（）函数释放当前资源节点的resource结构。然后函数就可以成功返回了。

　　3．3．3 检查指定的I/O Region是否已被占用

　　函数__check_region()检查指定的I/O Region是否已被占用。其源代码如下：

int __check_region(struct resource *parent, unsigned long start, unsigned long n)
{
struct resource * res;

        res = __request_region(parent, start, n, "check-region");
        if (!res)
                return -EBUSY;

        release_resource(res);
        kfree(res);
        return 0;
}

　　该函数的实现与__check_resource()的实现思想类似。首先，它通过调用__request_region()函数试图在父资源parent中分配指定的I/O Region。如果分配不成功，将返回NULL，因此此时函数返回错误值－EBUSY表示所指定的I/O Region已被占用。如果res指针不为空则说明所指定的I/O Region没有被占用。于是调用__release_resource()函数将刚刚分配的资源释放掉（实际上是将res结构从parent的child链表去除），然后调用kfree（）函数释放res结构所占用的内存。最后，返回0值表示指定的I/O Region没有被占用。

3．4 管理I/O端口资源

　　我们都知道，采用I/O映射方式的X86处理器为外设实现了一个单独的地址空间，也即“I/O空间”（I/O Space）或称为“I/O端口空间”，其大小是64KB（0x0000－0xffff）。Linux在其所支持的所有平台上都实现了“I/O端口空间”这一概念。

　　由于I/O空间非常小，因此即使外设总线有一个单独的I/O端口空间，却也不是所有的外设都将其I/O端口（指寄存器）映射到“I/O端口空间”中。比如，大多数PCI卡都通过内存映射方式来将其I/O端口或外设内存映射到CPU的RAM物理地址空间中。而老式的ISA卡通常将其I/O端口映射到I/O端口空间中。

　　Linux是基于“I/O Region”这一概念来实现对I/O端口资源（I/O－mapped 或 Memory－mapped）的管理的。

　　3．4．1 资源根节点的定义

　　Linux在kernel/Resource.c文件中定义了全局变量ioport_resource和iomem_resource，来分别描述基于I/O映射方式的整个I/O端口空间和基于内存映射方式的I/O内存资源空间（包括I/O端口和外设内存）。其定义如下：

struct resource ioport_resource =
　　　　{ "PCI IO", 0x0000, IO_SPACE_LIMIT, IORESOURCE_IO };
struct resource iomem_resource =
　　　　{ "PCI mem", 0x00000000, 0xffffffff, IORESOURCE_MEM };

　　其中，宏IO_SPACE_LIMIT表示整个I/O空间的大小，对于X86平台而言，它是0xffff（定义在include/asm-i386/io.h头文件中）。显然，I/O内存空间的大小是4GB。

　　3．4．2 对I/O端口空间的操作

　　基于I/O Region的操作函数__XXX_region()，Linux在头文件include/linux/ioport.h中定义了三个对I/O端口空间进行操作的宏：①request_region()宏，请求在I/O端口空间中分配指定范围的I/O端口资源。②check_region()宏，检查I/O端口空间中的指定I/O端口资源是否已被占用。③release_region()宏，释放I/O端口空间中的指定I/O端口资源。这三个宏的定义如下：

#define request_region(start,n,name)
        __request_region(&ioport_resource, (start), (n), (name))
#define check_region(start,n)
        __check_region(&ioport_resource, (start), (n))
#define release_region(start,n)
        __release_region(&ioport_resource, (start), (n))

　　其中，宏参数start指定I/O端口资源的起始物理地址（是I/O端口空间中的物理地址），宏参数n指定I/O端口资源的大小。

　　3．4．3 对I/O内存资源的操作

　　基于I/O Region的操作函数__XXX_region()，Linux在头文件include/linux/ioport.h中定义了三个对I/O内存资源进行操作的宏：①request_mem_region()宏，请求分配指定的I/O内存资源。②check_ mem_region()宏，检查指定的I/O内存资源是否已被占用。③release_ mem_region()宏，释放指定的I/O内存资源。这三个宏的定义如下：

#define request_mem_region(start,n,name)
　　__request_region(&iomem_resource, (start), (n), (name))
#define check_mem_region(start,n)
__check_region(&iomem_resource, (start), (n))
#define release_mem_region(start,n)
__release_region(&iomem_resource, (start), (n))

　　其中，参数start是I/O内存资源的起始物理地址（是CPU的RAM物理地址空间中的物理地址），参数n指定I/O内存资源的大小。

　　3．4．4 对/proc/ioports和/proc/iomem的支持

　　Linux在ioport.h头文件中定义了两个宏：

　　get_ioport_list()和get_iomem_list()，分别用来实现/proc/ioports文件和/proc/iomem文件。其定义如下：

#define get_ioport_list(buf) get_resource_list(&ioport_resource, buf, PAGE_SIZE)
#define get_mem_list(buf) get_resource_list(&iomem_resource, buf, PAGE_SIZE)

3．5 访问I/O端口空间

　　在驱动程序请求了I/O端口空间中的端口资源后，它就可以通过CPU的IO指定来读写这些I/O端口了。在读写I/O端口时要注意的一点就是，大多数平台都区分8位、16位和32位的端口，也即要注意I/O端口的宽度。

　　Linux在include/asm/io.h头文件（对于i386平台就是include/asm-i386/io.h）中定义了一系列读写不同宽度I/O端口的宏函数。如下所示：

　　⑴读写8位宽的I/O端口

　　unsigned char inb（unsigned port）；
　　void outb（unsigned char value，unsigned port）；

　　其中，port参数指定I/O端口空间中的端口地址。在大多数平台上（如x86）它都是unsigned short类型的，其它的一些平台上则是unsigned int类型的。显然，端口地址的类型是由I/O端口空间的大小来决定的。

　　⑵读写16位宽的I/O端口

　　unsigned short inw（unsigned port）；
　　void outw（unsigned short value，unsigned port）；

　　⑶读写32位宽的I/O端口

　　unsigned int inl（unsigned port）；
　　void outl（unsigned int value，unsigned port）；

　　3．5．1 对I/O端口的字符串操作

　　除了上述这些“单发”（single－shot）的I/O操作外，某些CPU也支持对某个I/O端口进行连续的读写操作，也即对单个I/O端口读或写一系列字节、字或32位整数，这就是所谓的“字符串I/O指令”（String Instruction）。这种指令在速度上显然要比用循环来实现同样的功能要快得多。

　　Linux同样在io.h文件中定义了字符串I/O读写函数：

　　⑴8位宽的字符串I/O操作

　　void insb（unsigned port，void * addr，unsigned long count）；
　　void outsb（unsigned port ，void * addr，unsigned long count）；

　　⑵16位宽的字符串I/O操作

　　void insw（unsigned port，void * addr，unsigned long count）；
　　void outsw（unsigned port ，void * addr，unsigned long count）；

　　⑶32位宽的字符串I/O操作

　　void insl（unsigned port，void * addr，unsigned long count）；
　　void outsl（unsigned port ，void * addr，unsigned long count）；

　　3．5．2 Pausing I/O

　　在一些平台上（典型地如X86），对于老式总线（如ISA）上的慢速外设来说，如果CPU读写其I/O端口的速度太快，那就可能会发生丢失数据的现象。对于这个问题的解决方法就是在两次连续的I/O操作之间插入一段微小的时延，以便等待慢速外设。这就是所谓的“Pausing I/O”。

　　对于Pausing I/O，Linux也在io.h头文件中定义了它的I/O读写函数，而且都以XXX_p命名，比如：inb_p()、outb_p()等等。下面我们就以out_p()为例进行分析。

　　将io.h中的宏定义__OUT(b,”b”char)展开后可得如下定义：

extern inline void outb(unsigned char value, unsigned short port) {
__asm__ __volatile__ ("outb %" "b " "0,%" "w" "1"
: : "a" (value), "Nd" (port));
}

extern inline void outb_p(unsigned char value, unsigned short port) {
        __asm__ __volatile__ ("outb %" "b " "0,%" "w" "1"
                                __FULL_SLOW_DOWN_IO
                                : : "a" (value), "Nd" (port));
}

　　可以看出，outb_p()函数的实现中被插入了宏__FULL_SLOWN_DOWN_IO，以实现微小的延时。宏__FULL_SLOWN_DOWN_IO在头文件io.h中一开始就被定义：

#ifdef SLOW_IO_BY_JUMPING
#define __SLOW_DOWN_IO "
jmp 1f
1: jmp 1f
1:"
#else
#define __SLOW_DOWN_IO "
outb %%al,$0x80"
#endif

#ifdef REALLY_SLOW_IO
#define __FULL_SLOW_DOWN_IO __SLOW_DOWN_IO
　　__SLOW_DOWN_IO __SLOW_DOWN_IO __SLOW_DOWN_IO
#else
#define __FULL_SLOW_DOWN_IO __SLOW_DOWN_IO
#endif

　　显然，__FULL_SLOW_DOWN_IO就是一个或四个__SLOW_DOWN_IO（根据是否定义了宏REALLY_SLOW_IO来决定），而宏__SLOW_DOWN_IO则被定义成毫无意义的跳转语句或写端口0x80的操作（根据是否定义了宏SLOW_IO_BY_JUMPING来决定）。

3．6 访问I/O内存资源

　　尽管I/O端口空间曾一度在x86平台上被广泛使用，但是由于它非常小，因此大多数现代总线的设备都以内存映射方式（Memory－mapped）来映射它的I/O端口（指I/O寄存器）和外设内存。基于内存映射方式的I/O端口（指I/O寄存器）和外设内存可以通称为“I/O内存”资源（I/O Memory）。因为这两者在硬件实现上的差异对于软件来说是完全透明的，所以驱动程序开发人员可以将内存映射方式的I/O端口和外设内存统一看作是“I/O内存”资源。

　　从前几节的阐述我们知道，I/O内存资源是在CPU的单一内存物理地址空间内进行编址的，也即它和系统RAM同处在一个物理地址空间内。因此通过CPU的访内指令就可以访问I/O内存资源。

　　一般来说，在系统运行时，外设的I/O内存资源的物理地址是已知的，这可以通过系统固件（如BIOS）在启动时分配得到，或者通过设备的硬连线（hardwired）得到。比如，PCI卡的I/O内存资源的物理地址就是在系统启动时由PCI BIOS分配并写到PCI卡的配置空间中的BAR中的。而ISA卡的I/O内存资源的物理地址则是通过设备硬连线映射到640KB－1MB范围之内的。但是CPU通常并没有为这些已知的外设I/O内存资源的物理地址预定义虚拟地址范围，因为它们是在系统启动后才已知的（某种意义上讲是动态的），所以驱动程序并不能直接通过物理地址访问I/O内存资源，而必须将它们映射到核心虚地址空间内（通过页表），然后才能根据映射所得到的核心虚地址范围，通过访内指令访问这些I/O内存资源。

　　3．6．1 映射I/O内存资源

　　Linux在io.h头文件中声明了函数ioremap（），用来将I/O内存资源的物理地址映射到核心虚地址空间（3GB－4GB）中，如下：

void * ioremap(unsigned long phys_addr, unsigned long size, unsigned long flags);
void iounmap(void * addr);

　　函数用于取消ioremap（）所做的映射，参数addr是指向核心虚地址的指针。这两个函数都是实现在mm/ioremap.c文件中。具体实现可参考《情景分析》一书。

　　3．6．2 读写I/O内存资源

　　在将I/O内存资源的物理地址映射成核心虚地址后，理论上讲我们就可以象读写RAM那样直接读写I/O内存资源了。但是，由于在某些平台上，对I/O内存和系统内存有不同的访问处理，因此为了确保跨平台的兼容性，Linux实现了一系列读写I/O内存资源的函数，这些函数在不同的平台上有不同的实现。但在x86平台上，读写I/O内存与读写RAM无任何差别。如下所示（include/asm-i386/io.h）：

#define readb(addr) (*(volatile unsigned char *) __io_virt(addr))
#define readw(addr) (*(volatile unsigned short *) __io_virt(addr))
#define readl(addr) (*(volatile unsigned int *) __io_virt(addr))

#define writeb(b,addr) (*(volatile unsigned char *) __io_virt(addr) = (b))
#define writew(b,addr) (*(volatile unsigned short *) __io_virt(addr) = (b))
#define writel(b,addr) (*(volatile unsigned int *) __io_virt(addr) = (b))

#define memset_io(a,b,c) memset(__io_virt(a),(b),(c))
#define memcpy_fromio(a,b,c) memcpy((a),__io_virt(b),(c))
#define memcpy_toio(a,b,c) memcpy(__io_virt(a),(b),(c))

　　上述定义中的宏__io_virt()仅仅检查虚地址addr是否是核心空间中的虚地址。该宏在内核2.4.0中的实现是临时性的。具体的实现函数在arch/i386/lib/Iodebug.c文件。

　　显然，在x86平台上访问I/O内存资源与访问系统主存RAM是无差别的。但是为了保证驱动程序的跨平台的可移植性，我们应该使用上面的函数来访问I/O内存资源，而不应该通过指向核心虚地址的指针来访问。

相思酸中有甜 2007-01-02 14:39 发表评论

[转]Linux 中 x86 的内联汇编

相思酸中有甜 — Tue, 02 Jan 2007 05:48:00 GMT

作者
Bharata B. Rao
IBM Linux 技术中心，IBM 软件实验室，印度
2001 年 3 月

Bharata B. Rao 提供了在 Linux 平台上使用和构造 x86 内联汇编的概括性介绍。他介绍了内联汇编及其各种用法的基础知识，提供了一些基本的内联汇编编码指导，并解释了在 Linux 内核中内联汇编代码的一些实例。
如果您是 Linux 内核的开发人员，您会发现自己经常要对与体系结构高度相关的功能进行编码或优化代码路径。您很可能是通过将汇编语言指令插入到 C 语句的中间（又称为内联汇编的一种方法）来执行这些任务的。让我们看一下 Linux 中内联汇编的特定用法。（我们将讨论限制在 IA32 汇编。）

GNU 汇编程序简述
让我们首先看一下 Linux 中使用的基本汇编程序语法。GCC（用于 Linux 的 GNU C 编译器）使用 AT&T 汇编语法。下面列出了这种语法的一些基本规则。（该列表肯定不完整；只包括了与内联汇编相关的那些规则。）

寄存器命名
寄存器名称有 % 前缀。即，如果必须使用 eax，它应该用作 %eax。

源操作数和目的操作数的顺序
在所有指令中，先是源操作数，然后才是目的操作数。这与将源操作数放在目的操作数之后的 Intel 语法不同。

mov %eax, %ebx, transfers the contents of eax to ebx.

操作数大小
根据操作数是字节 (byte)、字 (word) 还是长型 (long)，指令的后缀可以是 b、w 或 l。这并不是强制性的；GCC 会尝试通过读取操作数来提供相应的后缀。但手工指定后缀可以改善代码的可读性，并可以消除编译器猜测不正确的可能性。

movb %al, %bl -- Byte move
    movw %ax, %bx -- Word move
    movl %eax, %ebx -- Longword move

立即操作数
通过使用＄指定直接操作数。

movl ＄0xffff, %eax -- will move the value of 0xffff into eax register.

间接内存引用
任何对内存的间接引用都是通过使用 ( screen.width/2)this.width=screen.width/2" vspace="2" border="0" /> 来完成的。

movb (%esi), %al -- will transfer the byte in the memory

pointed by esi into al
register

内联汇编
GCC 为内联汇编提供特殊结构，它具有以下格式：

GCG 的 "asm" 结构

   asm ( assembler template


: output operands               (optional)


: input operands                (optional)


: list of clobbered registers
    (optional)


);

本例中，汇编程序模板由汇编指令组成。输入操作数是充当指令输入操作数使用的 C 表达式。输出操作数是将对其执行汇编指令输出的 C 表达式。

内联汇编的重要性体现在它能够灵活操作，而且可以使其输出通过 C 变量显示出来。因为它具有这种能力，所以 "asm" 可以用作汇编指令和包含它的 C 程序之间的接口。

一个非常基本但很重要的区别在于简单内联汇编只包括指令，而扩展内联汇编包括操作数。要说明这一点，考虑以下示例：

内联汇编的基本要素

{
    int a=10, b;
    asm ("movl %1, %%eax;


movl %%eax, %0;"
        :"=r"(b)  /* output */
        :"r"(a)       /* input */
        :"%eax"screen.width/2)this.width=screen.width/2" vspace="2" border="0" />; /* clobbered register */
}

在上例中，我们使用汇编指令使 "b" 的值等于 "a"。请注意以下几点：

"b" 是输出操作数，由 %0 引用，"a" 是输入操作数，由 %1 引用。
"r" 是操作数的约束，它指定将变量 "a" 和 "b" 存储在寄存器中。请注意，输出操作数约束应该带有一个约束修饰符 "="，指定它是输出操作数。
要在 "asm" 内使用寄存器 %eax，%eax 的前面应该再加一个 %，换句话说就是 %%eax，因为 "asm" 使用 %0、%1 等来标识变量。任何带有一个 % 的数都看作是输入／输出操作数，而不认为是寄存器。
第三个冒号后的修饰寄存器 %eax 告诉将在 "asm" 中修改 GCC %eax 的值，这样 GCC 就不使用该寄存器存储任何其它的值。
movl %1, %%eax 将 "a" 的值移到 %eax 中， movl %%eax, %0 将 %eax 的内容移到 "b" 中。
因为 "b" 被指定成输出操作数，因此当 "asm" 的执行完成后，它将反映出更新的值。换句话说，对 "asm" 内 "b" 所做的更改将在 "asm" 外反映出来。
现在让我们更详细的了解每一项的含义。

汇编程序模板
汇编程序模板是一组插入到 C 程序中的汇编指令（可以是单个指令，也可以是一组指令）。每条指令都应该由双引号括起，或者整组指令应该由双引号括起。每条指令还应该用一个定界符结尾。有效的定界符为新行 (\n) 和分号 (screen.width/2)this.width=screen.width/2" vspace="2" border="0" />。 '\n' 后可以跟一个 tab(\t) 作为格式化符号，增加 GCC 在汇编文件中生成的指令的可读性。指令通过数 %0、%1 等来引用 C 表达式（指定为操作数）。

如果希望确保编译器不会在 "asm" 内部优化指令，可以在 "asm" 后使用关键字 "volatile"。如果程序必须与 ANSI C 兼容，则应该使用 __asm__ 和 __volatile__，而不是 asm 和 volatile。

操作数
C 表达式用作 "asm" 内的汇编指令操作数。在汇编指令通过对 C 程序的 C 表达式进行操作来执行有意义的作业的情况下，操作数是内联汇编的主要特性。

每个操作数都由操作数约束字符串指定，后面跟用括弧括起的 C 表达式，例如："constraint" (C expression)。操作数约束的主要功能是确定操作数的寻址方式。

可以在输入和输出部分中同时使用多个操作数。每个操作数由逗号分隔开。

在汇编程序模板内部，操作数由数字引用。如果总共有 n 个操作数（包括输入和输出），那么第一个输出操作数的编号为 0，逐项递增，最后那个输入操作数的编号为 n -1。总操作数的数目限制在 10，如果机器描述中任何指令模式中的最大操作数数目大于 10，则使用后者作为限制。

修饰寄存器列表
如果 "asm" 中的指令指的是硬件寄存器，可以告诉 GCC 我们将自己使用和修改它们。这样，GCC 就不会假设它装入到这些寄存器中的值是有效值。通常不需要将输入和输出寄存器列为 clobbered，因为 GCC 知道 "asm" 使用它们（因为它们被明确指定为约束）。不过，如果指令使用任何其它的寄存器，无论是明确的还是隐含的（寄存器不在输入约束列表中出现，也不在输出约束列表中出现），寄存器都必须被指定为修饰列表。修饰寄存器列在第三个冒号之后，其名称被指定为字符串。

至于关键字，如果指令以某些不可预知且不明确的方式修改了内存，则可能将 "memory" 关键字添加到修饰寄存器列表中。这样就告诉 GCC 不要在不同指令之间将内存值高速缓存在寄存器中。

操作数约束
前面提到过，"asm" 中的每个操作数都应该由操作数约束字符串描述，后面跟用括弧括起的 C 表达式。操作数约束主要是确定指令中操作数的寻址方式。约束也可以指定：

是否允许操作数位于寄存器中，以及它可以包括在哪些种类的寄存器中
操作数是否可以是内存引用，以及在这种情况下使用哪些种类的地址
操作数是否可以是立即数
约束还要求两个操作数匹配。

常用约束
在可用的操作数约束中，只有一小部分是常用的；下面列出了这些约束以及简要描述。有关操作数约束的完整列表，请参考 GCC 和 GAS 手册。

寄存器操作数约束 (r)
使用这种约束指定操作数时，它们存储在通用寄存器中。请看下例：

asm ("movl %%cr3, %0\n" :"=r"(cr3val));

这里，变量 cr3val 保存在寄存器中，%cr3 的值复制到寄存器上，cr3val 的值从该寄存器更新到内存中。指定 "r" 约束时，GCC 可以将变量 cr3val 保存在任何可用的 GPR 中。要指定寄存器，必须通过使用特定的寄存器约束直接指定寄存器名。

a   %eax

b   %ebx

c   %ecx

d   %edx

S   %esi

D   %edi

内存操作数约束 (m)
当操作数位于内存中时，任何对它们执行的操作都将在内存位置中直接发生，这与寄存器约束正好相反，后者先将值存储在要修改的寄存器中，然后将它写回内存位置中。但寄存器约束通常只在对于指令来说它们是绝对必需的，或者它们可以大大提高进程速度时使用。当需要在 "asm" 内部更新 C 变量，而您又确实不希望使用寄存器来保存其值时，使用内存约束最为有效。例如，idtr 的值存储在内存位置 loc 中：

("sidt %0\n" : :"m"(loc));

匹配（数字）约束
在某些情况下，一个变量既要充当输入操作数，也要充当输出操作数。可以通过使用匹配约束在 "asm" 中指定这种情况。

asm ("incl %0" :"=a"(var):"0"(var));

在匹配约束的示例中，寄存器 %eax 既用作输入变量，也用作输出变量。将 var 输入读取到 %eax，增加后将更新的 %eax 再次存储在 var 中。这里的 "0" 指定第 0 个输出变量相同的约束。即，它指定 var 的输出实例只应该存储在 %eax 中。该约束可以用于以下情况：

输入从变量中读取，或者变量被修改后，修改写回到同一变量中
不需要将输入操作数和输出操作数的实例分开
使用匹配约束最重要的意义在于它们可以导致有效地使用可用寄存器。

一般内联汇编用法示例
以下示例通过各种不同的操作数约束说明了用法。有如此多的约束以至于无法将它们一一列出，这里只列出了最经常使用的那些约束类型。

"asm" 和寄存器约束 "r" 让我们先看一下使用寄存器约束 r 的 "asm"。我们的示例显示了 GCC 如何分配寄存器，以及它如何更新输出变量的值。

int main(void)
{
    int x = 10, y;

    asm ("movl %1, %%eax;


"movl %%eax, %0;"
        :"=r"(y)  /* y is output operand */
        :"r"(x)       /* x is input operand */
        :"%eax"screen.width/2)this.width=screen.width/2" vspace="2" border="0" />; /* %eax is clobbered register */
}

在该例中，x 的值复制为 "asm" 中的 y。x 和 y 都通过存储在寄存器中传递给 "asm"。为该例生成的汇编代码如下：

main:

pushl %ebp

movl %esp,%ebp

subl ＄8,%esp

movl ＄10,-4(%ebp)

movl -4(%ebp),%edx  /* x=10 is stored in %edx */
#APP    /* asm starts here */

movl %edx, %eax     /* x is moved to %eax */

movl %eax, %edx     /* y is allocated in edx and updated */

#NO_APP /* asm ends here */

movl %edx,-8(%ebp)  /* value of y in stack is updated with

the value in %edx */

当使用 "r" 约束时，GCC 在这里可以自由分配任何寄存器。在我们的示例中，它选择 %edx 来存储 x。在读取了 %edx 中 x 的值后，它为 y 也分配了相同的寄存器。

因为 y 是在输出操作数部分中指定的，所以 %edx 中更新的值存储在 -8(%ebp)，堆栈上 y 的位置中。如果 y 是在输入部分中指定的，那么即使它在 y 的临时寄存器存储值 (%edx) 中被更新，堆栈上 y 的值也不会更新。

因为 %eax 是在修饰列表中指定的，GCC 不在任何其它地方使用它来存储数据。

输入 x 和输出 y 都分配在同一个 %edx 寄存器中，假设输入在输出产生之前被消耗。请注意，如果您有许多指令，就不是这种情况了。要确保输入和输出分配到不同的寄存器中，可以指定 & 约束修饰符。下面是添加了约束修饰符的示例。

int main(void)
{
    int x = 10, y;

    asm ("movl %1, %%eax;


"movl %%eax, %0;"
        :"=&r"(y) /* y is output operand, note the

& constraint modifier. */
        :"r"(x)       /* x is input operand */
        :"%eax"screen.width/2)this.width=screen.width/2" vspace="2" border="0" />; /* %eax is clobbered register */
}

以下是为该示例生成的汇编代码，从中可以明显地看出 x 和 y 存储在 "asm" 中不同的寄存器中。

main:

pushl %ebp

movl %esp,%ebp

subl ＄8,%esp

movl ＄10,-4(%ebp)

movl -4(%ebp),%ecx  /* x, the input is in %ecx */
#APP
    movl %ecx, %eax
    movl %eax, %edx     /* y, the output is in %edx */

#NO_APP

movl %edx,-8(%ebp)

特定寄存器约束的使用
现在让我们看一下如何将个别寄存器作为操作数的约束指定。在下面的示例中，cpuid 指令采用 %eax 寄存器中的输入，然后在四个寄存器中给出输出：%eax、%ebx、%ecx、%edx。对 cpuid 的输入（变量 "op"）传递到 "asm" 的 eax 寄存器中，因为 cpuid 希望它这样做。在输出中使用 a、b、c 和 d 约束，分别收集四个寄存器中的值。

asm ("cpuid"

: "=a" (_eax),

"=b" (_ebx),

"=c" (_ecx),

"=d" (_edx)

: "a" (op));

在下面可以看到为它生成的汇编代码（假设 _eax、_ebx 等... 变量都存储在堆栈上）：

movl -20(%ebp),%eax /* store 'op' in %eax -- input */
#APP

cpuid
#NO_APP

movl %eax,-4(%ebp)  /* store %eax in _eax -- output */

movl %ebx,-8(%ebp)  /* store other registers in

movl %ecx,-12(%ebp)
respective output variables */

movl %edx,-16(%ebp)

strcpy 函数可以通过以下方式使用 "S" 和 "D" 约束来实现：

asm ("cld\n


rep\n


movsb"


: /* no input */


:"S"(src), "D"(dst), "c"(count));

通过使用 "S" 约束将源指针 src 放入 %esi 中，使用 "D" 约束将目的指针 dst 放入 %edi 中。因为 rep 前缀需要 count 值，所以将它放入 %ecx 中。

在下面可以看到另一个约束，它使用两个寄存器 %eax 和 %edx 将两个 32 位的值合并在一起，然后生成一个64 位的值：

#define rdtscll(val) \

__asm__ __volatile__ ("rdtsc" : "=A" (val))

The generated assembly looks like this (if val has a 64 bit memory space).

#APP

rdtsc
#NO_APP

movl %eax,-8(%ebp)  /* As a result of A constraint

movl %edx,-4(%ebp)
%eax and %edx serve as outputs */

Note here that the values in %edx:%eax serve as 64 bit output.

使用匹配约束
在下面将看到系统调用的代码，它有四个参数：

#define _syscall4(type,name,type1,arg1,type2,arg2,type3,arg3,type4,arg4) \
type name (type1 arg1, type2 arg2, type3 arg3, type4 arg4) \
{ \
long __res; \
__asm__ volatile ("int ＄0x80" \

: "=a" (__res) \

: "0" (__NR_##name),"b" ((long)(arg1)),"c" ((long)(arg2)), \

"d" ((long)(arg3)),"S" ((long)(arg4))); \
__syscall_return(type,__res); \
}

在上例中，通过使用 b、c、d 和 S 约束将系统调用的四个自变量放入 %ebx、%ecx、%edx 和 %esi 中。请注意，在输出中使用了 "=a" 约束，这样，位于 %eax 中的系统调用的返回值就被放入变量 __res 中。通过将匹配约束 "0" 用作输入部分中第一个操作数约束，syscall 号 __NR_##name 被放入 %eax 中，并用作对系统调用的输入。这样，这里的 %eax 既可以用作输入寄存器，又可以用作输出寄存器。没有其它寄存器用于这个目的。另请注意，输入（syscall 号）在产生输出（syscall 的返回值）之前被消耗（使用）。

内存操作数约束的使用
请考虑下面的原子递减操作：

__asm__ __volatile__(

"lock; decl %0"

:"=m" (counter)

:"m" (counter));

为它生成的汇编类似于：

#APP
    lock
    decl -24(%ebp) /* counter is modified on its memory location */
#NO_APP.

您可能考虑在这里为 counter 使用寄存器约束。如果这样做，counter 的值必须先复制到寄存器，递减，然后对其内存更新。但这样您会无法理解锁定和原子性的全部意图，这些明确显示了使用内存约束的必要性。

使用修饰寄存器
请考虑内存拷贝的基本实现。

   asm ("movl ＄count, %%ecx;


up: lodsl;


stosl;


loop up;"
        :           /* no output */
        :"S"(src), "D"(dst) /* input */
        :"%ecx", "%eax" screen.width/2)this.width=screen.width/2" vspace="2" border="0" />;  /* clobbered list */

当 lodsl 修改 %eax 时，lodsl 和 stosl 指令隐含地使用它。%ecx 寄存器明确装入 count。但 GCC 在我们通知它以前是不知道这些的，我们是通过将 %eax 和 %ecx 包括在修饰寄存器集中来通知 GCC 的。在完成这一步之前，GCC 假设 %eax 和 %ecx 是自由的，它可能决定将它们用作存储其它的数据。请注意，%esi 和 %edi 由 "asm" 使用，它们不在修饰列表中。这是因为已经声明 "asm" 将在输入操作数列表中使用它们。这里最低限度是，如果在 "asm" 内部使用寄存器（无论是明确还是隐含地），既不出现在输入操作数列表中，也不出现在输出操作数列表中，必须将它列为修饰寄存器。

结束语
总的来说，内联汇编非常巨大，它提供的许多特性我们甚至在这里根本没有涉及到。但如果掌握了本文描述的基本材料，您应该可以开始对自己的内联汇编进行编码了。

参考资料

您可以参阅本文在 developerWorks 全球站点上的英文原文.

请参考 Using and Porting the GNU Compiler Collection (GCC)手册。

请参考 GNU Assembler (GAS)手册。

仔细阅读 Brennan's Guide to Inline Assembly。

关于作者
Bharata B. Rao 拥有印度 Mysore 大学的电子和通信工程的学士学位。他从 1999 年就开始为 IBM Global Services, India 工作了。他是 IBM Linux 技术中心的成员之一，他在该中心中主要从事 Linux RAS（可靠性、可用性和适用性）的研究。他感兴趣的其它领域包括操作系统本质和处理器体系结构。可以通过 rbharata@in.ibm.com 与他联系。

相思酸中有甜 2007-01-02 13:48 发表评论