教您如安在C语言中巧用正则表达式

副标题#e#

假如用户熟悉Linux下的sed、awk、grep或vi，那么对正则表达式这一观念必定不会生疏。由于它可以极大地简化处理惩罚字符串时的巨大度，因此此刻已经在很多Linux实用东西中获得了应用。千万不要觉得正则表达式只是Perl、Python、Bash等剧本语言的专利，作为C语言措施员，用户同样可以在本身的措施中运用正则表达式。

尺度的C和C++都不支持正则表达式，但有一些函数库可以帮助C/C++措施员完成这一成果，个中最著名的当数Philip Hazel的Perl-Compatible Regular Expression库，很多Linux刊行版本都带有这个函数库。

编译正则表达式

为了提高效率，在将一个字符串与正则表达式举办较量之前，首先要用regcomp()函数对它举办编译，将其转化为regex_t布局：

int regcomp(regex_t *preg, const char *regex, int cflags);

参数regex是一个字符串，它代表将要被编译的正则表达式；参数preg指向一个声明为regex_t的数据布局，用来生存编译功效；参数cflags抉择了正则表达式该如何被处理惩罚的细节。

假如函数regcomp()执行乐成，而且编译功效被正确填充到preg中后，函数将返回0，任何其它的返回功效都代表有某种错误发生。

匹配正则表达式

一旦用regcomp()函数乐成地编译了正则表达式，接下来就可以挪用regexec()函数完成模式匹配：

int regexec(const regex_t *preg, const char *string, size_t nmatch, regmatch_t pmatch[], int eflags); typedef struct { regoff_t rm_so; regoff_t rm_eo; } regmatch_t;

参数preg指向编译后的正则表达式，参数string是将要举办匹配的字符串，而参数nmatch和pmatch则用于把匹配功效返回给挪用措施，最后一个参数eflags抉择了匹配的细节。

#p#副标题#e#

在挪用函数regexec()举办模式匹配的进程中，大概在字符串string中会有多处与给定的正则表达式相匹配，参数pmatch就是用来生存这些匹配位置的，而参数nmatch则汇报函数regexec()最多可以把几多个匹配功效填充到pmatch数组中。当regexec()函数乐成返回时，从string+pmatch[0].rm_so到string+pmatch[0].rm_eo是第一个匹配的字符串，而从string+pmatch[1].rm_so到string+pmatch[1].rm_eo，则是第二个匹配的字符串，依此类推。

释放正则表达式

无论什么时候，当不再需要已经编译过的正则表达式时，都应该挪用函数regfree()将其释放，以免发生内存泄漏。

void regfree(regex_t *preg);

函数regfree()不会返回任何功效，它仅吸收一个指向regex_t数据范例的指针，这是之前挪用regcomp()函数所获得的编译功效。

假如在措施中针对同一个regex_t布局挪用了多次regcomp()函数，POSIX尺度并没有划定是否每次都必需挪用regfree()函数举办释放，但发起每次挪用regcomp()函数对正则表达式举办编译后都挪用一次regfree()函数，以尽早释放占用的存储空间。

陈诉错误信息

假如挪用函数regcomp()或regexec()获得的是一个非0的返回值，则表白在对正则表达式的处理惩罚进程中呈现了某种错误，此时可以通过挪用函数regerror()获得具体的错误信息。

size_t regerror(int errcode, const regex_t *preg, char *errbuf, size_t errbuf_size);

参数errcode是来自函数regcomp()或regexec()的错误代码，而参数preg则是由函数regcomp()获得的编译功效，其目标是把名目化动静所必需的上下文提供应regerror()函数。在执行函数regerror()时，将凭据参数errbuf_size指明的最大字节数，在errbuf缓冲区中填入名目化后的错误信息，同时返回错误信息的长度。

#p#副标题#e#

应用正则表达式

最后给出一个详细的实例，先容如安在C语言措施中处理惩罚正则表达式。

#include <stdio.h> #include <sys/types.h> #include <regex.h> /* 取子串的函数 */ static char* substr(const char*str, unsigned start, unsigned end) { unsigned n = end - start; static char stbuf[256]; strncpy(stbuf, str + start, n); stbuf[n] = 0; return stbuf; } /* 主措施 */ int main(int argc, char** argv) { char * pattern; int x, z, lno = 0, cflags = 0; char ebuf[128], lbuf[256]; regex_t reg; regmatch_t pm[10]; const size_t nmatch = 10; /* 编译正则表达式*/ pattern = argv[1]; z = regcomp(?, pattern, cflags); if (z != 0){ regerror(z, ?, ebuf, sizeof(ebuf)); fprintf(stderr, "%s: pattern '%s' \n", ebuf, pattern); return 1; } /* 逐行处理惩罚输入的数据 */ while(fgets(lbuf, sizeof(lbuf), stdin)) { ++lno; if ((z = strlen(lbuf)) > 0 && lbuf[z-1] == '\n') lbuf[z - 1] = 0; /* 对每一行应用正则表达式举办匹配 */ z = regexec(?, lbuf, nmatch, pm, 0); if (z == REG_NOMATCH) continue; else if (z != 0) { regerror(z, ?, ebuf, sizeof(ebuf)); fprintf(stderr, "%s: regcom('%s')\n", ebuf, lbuf); return 2; } /* 输出处理惩罚功效 */ for (x = 0; x < nmatch && pm[x].rm_so != -1; ++ x) { if (!x) printf("%04d: %s\n", lno, lbuf); printf(" $%d='%s'\n", x, substr(lbuf, pm[x].rm_so, pm[x].rm_eo)); } } /* 释放正则表达式 */ regfree(?); return 0; }

#p#分页标题#e#

上述措施认真从呼吁行获取正则表达式，然后将其运用于从尺度输入获得的每行数据，并打印出匹配功效。执行下面的呼吁可以编译并执行该措施：

# gcc regexp.c -o regexp # ./regexp 'regex[a-z]*' < regexp.c 0003: #include <regex.h> $0='regex' 0027: regex_t reg; $0='regex' 0054: z = regexec(?, lbuf, nmatch, pm, 0); $0='regexec'

小结

对那些需要举办巨大数据处理惩罚的措施来说，正则表达式无疑是一个很是有用的东西。本文重点在于叙述如安在C语言中操作正则表达式来简化字符串处理惩罚，以便在数据处理惩罚方面可以或许得到与Perl语言雷同的机动性。

当前位置：以往代写 > C/C++ 教程 >教您如安在C语言中巧用正则表达式