在支持 C 语言的环境中,有一种方法可以在程序开始执行时将命令行参数传递给程序。当 main 被调用时,会带着两个参数。第一个是程序被调用时带的命令行参数个数(按惯例称为 argc,即参数个数 argument?count 的缩写),第二个是指向包含所有参数的字符串数组的指针(argv,参数向量 argument vector 的缩写),数组里每个字符串对应一个参数。我们习惯使用多级指针来操作这些字符串。
最简单的一个例子是程序 echo,echo 会将它的命令行参数回显到一行内,参数之间用空格分隔。也就是说,如下命令
echo hello, world
会打印
hello, world
根据惯例,argv[0] 是被调用程序的名字,因此 argc 至少为 1。若 argc 为1,说明在程序名之后没有命令行参数。在上面的例子中 argc 为 3,而argv[0],argv[1],argv[2] 分别是 "echo", "hello," 和 "world"。第一个可能存在的参数是 argv[1],最后一个是 argv[argc -1],另外,C 标准要求 argv[argc] 必须是空指针。
echo 的第一个版本将 argv 作为字符指针的数组来对待
#include <stdio.h>
/* 回显命令行参数;第一版 */
main(int argc, char *argv[])
{
int i;
for (i = 1; i < argc; i++)
printf("%s%s", argv[i], (i < argc-1) ? " " : "");
printf("\n");
return 0;
}
既然 argv 是指向指针数组的指针,我们可以操作指针而不是数组索引。下面这个版本在 argc 递减时,对指向 char 指针的指针 argv 进行递增。
#include <stdio.h>
/* 回显命令行参数;第二版 */
main(int argc, char *argv[])
{
while (--argc > 0)
printf("%s%s", *++argv, (argc > 1) ? " " : "")
printf("\n");
return 0;
}
由于 argv 是指向参数字符串数组开头的指针,将其递增 1 (++argv)使它一开始就指向 argv[1] 而不是 argv[0]。后续每次递增将其移到下一个参数;然后 *argv 就是该参数的指针。同时,argc递减,当它变为零时,就没有待打印的参数了。
另外,我们也可以把 printf 写成
printf((argc > 1) ? "%s " : "%s", *++argv);
这表示 printf 的格式化参数也可以是一个表达式。
第二个例子,是对 4.1 节的样式搜索程序做一些增强。如果你还能记得的话,我们把要搜索的样式深埋在了程序里面,这种做法明显没法让人满意。我们参考 UNIX 程序 grep 来修改这个程序,使要匹配的样式通过命令行的第一个参数来指定。
#include <stdio.h>
#include <string.h>
#define MAXLINE 1000
int getline(char *line, int max);
/* find:打印匹配第一个参数的行 */
main(int argc, char *argv[])
{
char line[MAXLINE];
int found = 0;
if (argc != 2)
printf("Usage: find pattern\n");
else
while (getline(line, MAXLINE) > 0)
if (strstr(line, argv[1]) != NULL) {
printf("%s", line);
found++;
}
return found;
}
标准库函数 strstr(s, t) 返回字符串 t 在字符串 s 中首次出现的位置,若 s 不包含 t 则返回 NULL。该函数在 <string.h> 中声明。
现在可以对上面的原型程序进行完善,以此来说明更多的指针结构。假定我们想增加两个可选参数。一个是“打印除了匹配样式之外的所有行”;第二个是“在每个输出的行前面加上行号”。
UNIX 系统里 C 程序的通用惯例,是用负号开头的参数表示一个可选的标志符或参数。如果我们选用?-x (代表“除了”?except)来表示取反,用 -n (行数 “number”)来要求输出行编号,则如下命令
find -x -n pattern
将打印每个不匹配样式的行,每行前面有行号。
应当允许可选的参数以任意的顺序出现,而程序的其他部分应当独立于给出的参数个数。更进一步,如果选项参数可以结合起来,对用户会更方便,如
find -nx pattern
这里是完善后的程序:
#include <stdio.h>
#include <string.h>
#define MAXLINE 1000
int getline(char *line, int max);
/* find:打印与第一个参数匹配的行 */
main(int argc, char *argv[])
{
char line[MAXLINE];
long lineno = 0;
int c, except = 0, number = 0, found = 0;
while (--argc > 0 && (*++argv)[0] == '-')
while (c = *++argv[0])
switch (c) {
case 'x':
except = 1;
break;
case 'n':
number = 1;
break;
default:
printf("find: illegal option %c\n", c);
argc = 0;
found = -1;
break;
}
if (argc != 1)
printf("Usage: find -x -n pattern\n");
else
while (getline(line, MAXLINE) > 0) {
lineno++;
if ((strstr(line, *argv) != NULL)) != except) {
if (number)
printf("%ld:", lineno);
printf("%s", line);
found++;
}
}
return found;
}
在每个可选参数之前,argc 递减而 argv 递增。在循环结束时,如果没有错误,则 argc 告诉我们还剩多少参数未处理,而 argv 指向这些剩余参数中的第一个。因此 argc 应当为 1 而 *argv 应指向要匹配的样式。注意 *++argv 是指向参数字符串的指针,因此 (*++argv)[0] 是其首个字符。(另一种合法的写法是 **++argv)。由于 [ ] 比 * 和 ++ 绑定得更紧,因此括号是必须的;若没有括号,表达式会变为 *++(argv[0])。实际上,这正是我们在内层循环中所使用的,这里的任务是在特定的参数字符串中遍历。在内层循环中,表达式 *++argv[0] 对指针 argv[0] 进行递增!
比上面这些指针表达式还复杂的使用场景是很稀少的;在那些情况下,将其拆为两个或三个步骤会更直观。
练习5-10、写一个程序 expr,计算从命令行输入的逆波兰表达式,其中每个操作符或操作数是一个单独的参数。例如? expr 2 3 4 + * 会对 2 * (3+4) 求值。
练习5-11、扩展(练习1-21中的)?entab 和 detab 以支持简写,?entab -m +n, 表示制表符从第 m 列开始,每 n 列停止。选择(对用户来说)方便的默认行为。
练习5-13、写程序 tail,输出其输入的末尾 n 行。我们定义默认 n 为 10,但可以通过可选参数进行修改,例如 tail -n 打印最后 n 行。不管输入或者 n 的值多么不合理,程序都应该有合理的行为。程序应当最大化地利用存储空间;文本行应当像 5.6 节中的排序程序一样存储,而不能存为固定长度的二维数组。