GUN C正则表达式
当前位置:以往代写 > C/C++ 教程 >GUN C正则表达式
2019-06-13

GUN C正则表达式

GUN C正则表达式

副标题#e#

最近项目中要处理惩罚文本,因此就用了gun的正则表达式,它是posix气势气魄的..我们一般利用的都是perl气势气魄的,所以一开始利用大概会有一些不习惯.具体的区别可以在wiki上看到:

http://en.wikipedia.org/wiki/Regular_expression

头文件是regex.h可以在内里看到他所提供的接口.这里主要是3个函数和一个布局体:

引用

int regcomp (regex_t *compiled, const char *pattern, int cflags)
int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr [], int eflags)
void regfree (regex_t *compiled)
typedef struct {
  regoff_t rm_so;
  regoff_t rm_eo;
} regmatch_t;

regcomp会将参数pattern编译为compiled,也就是讲字符串编译为正则表达式.

而参数cflags可以是下面1种可能几种的组合:

REG_EXTENDED

利用 扩展的 posix  Regular Expressions.

REG_ICASE

忽略巨细写

REG_NOSUB

不存储匹配功效,只返回是否匹配乐成.

REG_NEWLINE

可以匹配换行.

regexec执行匹配.compiled为适才编译好的正则表达式,string为将要匹配的字符串,nmatch为后头的布局体数组的长度 (regmatch_t).matchptr为regmatch_t的一个数组(也就是存储着像perl内里的$0,$1这些的位置,也就是).而 eflag参数则可以是下面中的1个或多个.

REG_NOTBOL

会讲^作为一个一般字符来匹配,而不是一行的开始

REG_NOTEOL

会讲$作为一个一般字符来匹配,而不是一行的竣事

regfree每次用完之后需要释放这个正则表达式.compiled为需要释放的正则表达式.

regmatch_t 中的rm_so为匹配字符的开始位置,rm_eo为竣事位置.

说了这么多,其实利用很简朴的:

引用

POSIX Regexp Compilation: Using regcomp to prepare to match.
Flags for POSIX Regexps: Syntax variations for regcomp.
Matching POSIX Regexps: Using regexec to match the compiled pattern that you get from regcomp.
Regexp Subexpressions: Finding which parts of the string were matched.
Subexpression Complications: Find points of which parts were matched.
Regexp Cleanup: Freeing storage; reporting errors.


#p#副标题#e#

然后看个例子吧:

C代码 

#include <stdio.h> 
#include <regex.h> 
#include <string> 
int main(int argc, char** argv) 
{ 
    char* pattern="abc([0-9]+)"; 
    int z=0; 
    char *s_tmp="Abc1234"; 
    regex_t reg; 
    regmatch_t pm[3]; 
    z = regcomp( & reg, pattern, REG_EXTENDED|REG_ICASE); 
    z = regexec( & reg, s_tmp, 3, pm, 0); 
  if (z != 0) { 
//也就是不匹配 
        return 2; 
    } 
    std::string s=s_tmp; 
    std::string result0=s.substr(pm[0].rm_so, pm[0].rm_eo-pm[0].rm_so); 
    std::string result1=s.substr(pm[1].rm_so, pm[1].rm_eo-pm[1].rm_so); 
  printf("[%s]\n", result0.c_str()); 
    printf("[%s]\n", result1.c_str()); 
    regfree( & reg); 
    return 0; 
}

很简朴一个例子, 将会打印出Abc1234gh和1234.这里因为有括号,因此pm[0]存储着第0组的位置,pm[1]存储第1组的位置.

也谈谈本身的体会吧,那就是真欠好用,不管是提供的接口照旧posix气势气魄的正则.并且听说是效率较量低下.因此假如有时机下次筹备试试boost得正则可能pcre了..

    关键字:

在线提交作业