linux内核设计与实现：系统调用-技术开发专区

linux内核设计与实现：系统调用

作者：Hanyan225 编辑：胡铭娅 2011-07-08 13:48 来源：Hanyan2

　　【IT168 技术】在Linux中，系统调用是用户空间访问内核的唯一手段，它们是内核唯一的合法入口。实际上，其他的像设备文件和/proc之类的方式，最终也还是要通过系统调用进行的。

　　一般情况下，应用程序通过应用编程接口(API)而不是直接通过系统调用来编程，而且这种编程接口实际上并不需要和内核提供的系统调用对应。一个API定义了一组应用程序使用的编程接口。它们可以实现成一个系统调用，也可以通过调用多个系统调用来实现，即使不使用任何系统调用也不存在问题。实际上，API可以在各种不同的操作系统上实现，给应用程序提供完全相同的接口，而它们本身在这些系统上的实现却可能迥异。

　　在Unix世界中，最流行的应用编程接口是基于POSIX标准的，Linux是与POSIX兼容的。

　　从程序员的角度看，他们只需要给API打交道就可以了，而内核只跟系统调用打交道;库函数及应用程序是怎么使用系统调用不是内核关心的。

　　系统调用(在linux中常称作syscalls)通常通过函数进行调用。它们通常都需要定义一个或几个参数(输入)而且可能产生一些副作用。这些副作用通过一个long类型的返回值来表示成功(0值)或者错误(负值)。在系统调用出现错误的时候会把错误码写入errno全局变量。通过调用perror()函数，可以把该变量翻译成用户可以理解的错误字符串。

　　系统调用的实现有两个特别之处：

　　1)函数声明中都有asmlinkage限定词，用于通知编译器仅从栈中提取该函数的参数。

　　2)系统调用getXXX()在内核中被定义为sys_getXXX()。这是Linux中所有系统调用都应该遵守的命名规则。

　　系统调用号：在linux中，每个系统调用都赋予一个系统调用号，通过这个少有的号就可以关联系统调用。当用户空间的进程执行一个系统调用的时候，这个系统调用号就被用来指明到底要执行哪个系统调用;进程不会提及系统调用的名称。系统调用号一旦分配就不能再有任何变更(否则编译好的应用程序就会崩溃)，如果一个系统调用被删除，它所占用的系统调用号也不允许被回收利用。Linux有一个"未使用"系统调用sys_ni_syscall(),它除了返回-ENOSYS外不做任何其他工作，这个错误号就是专门针对无效的系统调用而设的。虽然很罕见，但如果有一个系统调用被删除，这个函数就要负责“填补空位”。

　　内核记录了系统调用表中所有已注册过的系统调用的列表，存储在sys_call_table中。它与体系结构有关，一般在entry.s中定义。这个表中为每一个有效的系统调用指定了唯一的系统调用号。

　　用户空间的程序无法直接执行内核代码。它们不能直接调用内核空间的函数，因为内核驻留在受保护的地址空间上，应用程序应该以某种方式通知系统，告诉内核自己需要执行一个系统调用，系统系统切换到内核态，这样内核就可以代表应用程序来执行该系统调用了。这种通知内核的机制是通过软中断实现的。x86系统上的软中断由int$0x80指令产生。这条指令会触发一个异常导致系统切换到内核态并执行第128号异常处理程序，而该程序正是系统调用处理程序，名字叫system_call().它与硬件体系结构紧密相关，通常在entry.s文件中通过汇编语言编写。

　　所有的系统调用陷入内核的方式都是一样的，所以仅仅是陷入内核空间是不够的。因此必须把系统调用号一并传给内核。在x86上，这个传递动作是通过在触发软中断前把调用号装入eax寄存器实现的。这样系统调用处理程序一旦运行，就可以从eax中得到数据。上述所说的system_call()通过将给定的系统调用号与NR_syscalls做比较来检查其有效性。如果它大于或者等于NR_syscalls，该函数就返回-ENOSYS.否则，就执行相应的系统调用：

call *sys_call_table(, %eax, 4);

　　由于系统调用表中的表项是以32位(4字节)类型存放的，所以内核需要将给定的系统调用号乘以4，然后用所得到的结果在该表中查询器位置。如图图一所示：

第1页：系统调用的实现特别之处第2页：内核接受用户空间指针的要求

关注我们