重复的局部变量的正则表达式加变量什么意思

表达式,最全面的表达式文章 - 电子工程世界网
在电子工程世界为您找到如下关于“表达式”的新闻
表达式资料下载
2.4.1 用自然语言表示算法 24
2.4.2 用流程图表示算法 24
2.4.3 三种基本结构和改进的流程图 28
2.4.4 用N-S 流程图表示算法 29
2.4.5 用伪代码表示算法 30
2.4.6 用计算机语言表示算法 31
2.5 结构化程序设计方法 31
3 数据类型、运算符与表达式
3.1 C语言的数据类型 32
正则表达式是描述文本模式的表示法,它可以有效地构造一种用于模式匹配的专用语言。虽然正则表达式可以有多种不同的形式,但它们都有着共同的特点:模式中的大多数字符都是匹配字符串中的字符本身,但有些元字符(metacharacter)却有着特定的含义,例如*表示某种重复,而[...]表示方括号中字符集合的任何一个字符。实际上,在文本编辑器之类的程序中,所执行的查找操作都是查找文字,因此正则表达式通常是...
结构声明中的这些冒号和数字是什么意思?
2.27 为什么人们那么喜欢用显式的掩码和位操作而不直接声明位域?
第3章 表达式
3.1 为什么这样的代码不行?a[i]= i++;
3.2 使用我的编译器,下面的代码int i= 7; printf(\\\\\\\\\\\\\\\&%d\\\\\\\\\\\\\\\\n...
表达式类型的实现:1、 一个表达式和一颗二叉树之间,存在着自然的对应关系。2、 假设算术表达式Expression内可以含有变量(a~z)、常量(0~9)和二元运算符(+,-,*,/,^)。实现一下操作。(1) ReadExpr(E)——以字符序列的形式输入语法正确的前缀表示式并构造表达式E。(2) WritrExpr(E)——用带括弧的中缀表示式输出表达式E。(3) Assign(V,c...
表达式求值用户按平时习惯输入数字算术表达式(即中缀表达式)后,输出对应的后缀表达式,并求出表达式的值。可借此熟悉栈的操作。可供学习《数据结构》(清华大学出版社)(P52表达式求值)、《数据结构课程设计》(机械工业出版社)(P37表达式求值问题)时参考,本程序优于书中算法,并支持浮点型...
,包括基本概念、类型和表达式、控制流、函数与程序结构、指针与数组、结构、输入与输出、unix系统接口、标准库等内容。
  本书的讲述深入浅出,配合典型例证,通俗易懂,实用性强,适合作为大专院校计算机专业或非计算机专业的c语言教材,也可以作为从事计算机相关软硬件开发的技术人员的参考书。 在计算机发展的历史上,没有哪一种程序设计语言像c语言这样应用如此广泛。
   [font color...
正则表达式之道正则表达式之道原著:Steve Mansour Revised: June 5, 1999 (copied by jm /at/ jmason.org from http://www.scruz.net/%7esman/regexp.htm, after the original disappeared! )翻译...
Properties窗口 17   2.2.3 Error List窗口 17   2.3 Windows Forms应用程序 18   2.4 小结 22   第3章 变量和表达式 23   3.1 C#的基本语法 23   3.2 C#控制台应用程序的基本结构 25   3.3 变量 27   3.3.1 简单类型 27   3.3.2 变量的命名 31   3.3.3 字面值 32   3.3.4 变量...
2.4.3 三种基本结构和改进的流程图 28
2.4.4 用N-S流程图表示算法 29
2.4.5 用伪代码表示算法 30
2.4.6 用计算机语言表示算法 31
2.5 结构化程序设计方法 31
3 数据类型、运算符与表达式
3.1 C语言的数据类型 32
3.2 常量与变量 33
3.2.1 常量和符号常量 33...
用流程图表示算法 24
2.4.3 三种基本结构和改进的流程图 28
2.4.4 用N-S流程图表示算法 29
2.4.5 用伪代码表示算法 30
2.4.6 用计算机语言表示算法 31
2.5 结构化程序设计方法 31
3 数据类型、运算符与表达式
3.1 C语言的数据类型 32
3.2 常量与变量 33
3.2.1 常量和符号常量...
表达式相关帖子
算法。下面我们讨论基本算术运算的定点实现方法。
2.1&&加法/减法运算的C语言定点摸拟
设浮点加法运算的表达式为:
float x,y,z;
将浮点加法/减法转化为定点加法/减法时最重要的一点就是必须保证两个操作数的定标
temp=x+temp;
z=temp&&(Qx-Qz),若Qx&=Qz
z=temp&&(Qz-Qx...
;通常如果需要乘以或除以 2n ,都可以用移位的方法代替在 ICCAVR 中,如果乘以 2n ,都可以生成左移的代码,而乘以其它的整数或除以任何数,均调用乘除法子程序用移位的方法得到代码比调用乘除法子程序生成的代码效率高实际上,只要是乘以或除以一个整数,均可以用移位的方法得到结果,如:
采用运算量更小的表达式替换原来的表达式,下面是一个经典例子 :
& & for (i...
数字和变量测试 python会一直记着a k变量值,可以把a k放到其他表达式里使用 Math函数 计算速度OK 数组序列相加 内建函数len min max 删除元素/列表 Append/Insert/pop/reverse/sortappend在列表末尾增加新的对象 感觉这几个函数还是很好用的,C语言之前都是自己创建函数进行操作
micropython初体验...
。1) 一般而言,时钟频率高的,其信号上升沿快,因此一般我们把它们当成高速信号;但反过来不一定成立,时钟频率低的,如果信号上升沿依然快的,一样要把它当成高速信号来处理。根据信号理论,信号上升沿包含了高频信息(用傅立叶变换,可以找出定量表达式),因此,一旦信号上升沿很陡,我们应该按高速信号来处理,设计不好,很可能出现上升沿过于缓慢,有过冲,下冲,振铃的现象。比如,I2C信号,在超快速模式下,时钟频率为1MHz...
指令表就可以实现这个功能。(6)在汇编语言中,注意必须在中断程序名前加一下划杠。例如,c语言中的c_int1,在汇编语言中为_c_int1。(7)中断程序或在中断程序中需要调用的程序都不能用_oe选项进行优化编译。五、表达式分析当C程序中需要计算整型表达式时,必须注意到以下几点:1.&&算术上溢和下溢。即使采用16位操作数,TMS320C2X/C5X也产生32位结果。因此,算术...
帧的起始时标定为10时38分41秒,再过20秒便是10时39分的 起始。P2为预留位。用于需要要扩充信息。
P3 是校验位, 与“午前”, “午后”标志复用。 0和2表示“P1”, “P2”, “时”, “分”,“星期”各位码的值转换成二进制表达式后,其“1”的个为偶 数, 1和 3表示“P1”,“P2”“时”, “分”, “星期”各位码的什转换成二进制表达式后, 其“1”的个数为奇数...
本帖最后由 cruelfox 于
00:20 编辑
为什么电容、电感的阻抗表达式要用虚数?
为什么在傅立叶变换中要有虚数?
为什么在滤波器的传递函数中会出现虚数?
最初遇到“虚数”的概念是在高中数学中,我大概将它看成一维(实数)到二维的扩展。书上也就是画成两个坐标轴来表示复数嘛。那么,为什么只有一个虚数单位i, 没有再定义一个更高级的复数来描述三维空间呢?从来没...
带 来电感的开启时间 V-μs 乘积。FET 关闭 (toff) 期间,电感的电压极性必须倒转以 维持电流,从而拉动点侧为负极。电感电 流斜坡下降,并流经负载和输出电容,再 经二极管返回。电感关闭时 V-μs 乘积必 须等于开启时 V-μs 乘积。由于 Vin 和 Vout 不变,因此很容易便可得出占空比 (D) 的表达式:D=Vout/(Vout & Vin)。 这种控制电路通过计算出...
= 16384;&&
result = result * (!((adapt != 0) || (filt & 5443)));//最巧妙的是,将if...else...融入表达式,adapt!=0和filt&5443任意一个条件成立result就等于0&&
1、源代码:
[cpp] view plain copy...
沿,不是时钟频率 一般而言,时钟频率高的,其信号上升沿快,因此一般我们把它们当成高速信号;但反过来不一定成立,时钟频率低的,如果信号上升沿依然快的,一样要把它当成高速信号来处理。 根据信号理论,信号上升沿包含了高频信息(用傅立叶变换,可以找出定量表达式),因此,一旦信号上升沿很陡,我们应该按高速信号来处理,设计不好,很可能出现上升沿过于缓慢,有过冲,下冲,振铃的现象。 比如,I2C信号,在超快速...
表达式视频
你可能感兴趣的标签
热门资源推荐易语言 正则后 结果 能不能放在变量?_百度知道
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。
易语言 正则后 结果 能不能放在变量?
正则后 得来的结果 能不能放在变量 然后在另一个子程序 调用 ? 为什么 我放在变量后 调出来的 都是错误代码:1错误信息:数组成员引用下标超出定义范围求高手帮忙
计次循环尾 ()编辑框2.内容 = 子文本替换 (编辑框2;/tr”, 牌1, 假)牌2 = 牌2 - 4找 = 取文本中间 (返回资.获胜局数 = 文本1 [4]显示2?)&/”, 假)
&#39.平局局数 = 文本1 [6]显示2, 牌1.局部变量 牌2;0&, ));x22Right\x22&(.*;0&牌1 = 寻找文本 (返回资.创建 (“[^&aln=\)]”.搜索全部 (找).计次循环首 (取数组成员数 (搜索结果1), 数组索引)
编辑框2.版本 2.支持库 RegEx.局部变量 牌1, 整数型, 整数型.局部变量 文本1.局部变量 数组索引.内容, “&td&gt, 整数型.局部变量 abcd43, 正则表达式.局部变量 搜索结果1, 搜索结果, , & &#39, “&lt, “ ”, )显示2.分数 = 文本1 [2]显示2.总局数 = 文本1 [3]显示2, 文本型, , &quot.输掉局数 = 文本1 [5]显示2, “跑胡子”, , 假)牌1 = 牌1 + 6牌2 = 寻找文本 (返回资, “无记录”, 1.加入文本 (搜索结果1 [数组索引].取匹配文本 (找, 6, 真)文本1 = 分割文本 (编辑框2.内容, 牌2 - 牌1)abcd43;\x22=引号搜索结果1 = abcd43
我有更好的答案
或者你的正则 根本不对
我用编辑框 得出来的 就对的 但一改下 放在变量就错了
得出来的结果 都在编辑框2里 我把编辑框2改为变量的 读出来的 都是错误信息:数组成员引用下标超出定义范围
你变量语句里有 符号
把正则规则进行2次处理下面是代码,你复制了粘贴到你的代码里
以后直接调用就可以.版本 2.子程序 表达式生成, 文本型.参数 原内容, 文本型.局部变量 返回文本, 文本型返回文本 = 原内容返回文本 = 子文本替换 (返回文本, “\”, “\\”, , , 真)返回文本 = 子文本替换 (返回文本, “[”, “\[”, , , 真)返回文本 = 子文本替换 (返回文本, “]”, “\]”, , , 真)返回文本 = 子文本替换 (返回文本, “(”, “\(”, , , 真)返回文本 = 子文本替换 (返回文本, “$”, “\$”, , , 真)返回文本 = 子文本替换 (返回文本, “{”, “\{”, , , 真)返回文本 = 子文本替换 (返回文本, “}”, “\}”, , , 真)返回文本 = 子文本替换 (返回文本, “|”, “\|”, , , 真)返回文本 = 子文本替换 (返回文本, “*”, “\*”, , , 真)返回文本 = 子文本替换 (返回文本, “^”, “\^”, , , 真)返回文本 = 子文本替换 (返回文本, “.”, “\.”, , , 真)返回文本 = 子文本替换 (返回文本, “?”, “\?”, , , 真)返回文本 = 子文本替换 (返回文本, “+”, “\+”, , , 真)返回文本 = 子文本替换 (返回文本, “*”, “\*”, , , 真)返回 (返回文本)
我的代码有错吗
你的正则代码不对吧。没代码不容易说哪有错误
我发了 我是读取网页上的数据
然后再正则其中的
我用的编辑框得出来的结果 是正确的 但换成变量就不行了
加个文本数组变量,然后再在 循环里 加入成员到这个数组变量。
能帮忙写个类似的 循环吗?
编辑框2.加入文本 (搜索结果1 [数组索引].取匹配文本 (找, ))这句可以换成个文本变量。文本=文本+搜索结果1 [数组索引].取匹配文本 (找, )+#换行符
谢谢你 解决了 非常感谢
采纳率:31%
把代码发上来,貌似是你的数组变量有问题。 ----特别是 数组型变量-----需要看具体代码
个人认为应该是错误出现在分割文本后面的地方,你 计次循环调试出文本1 看看是几个成员
一共是6个数组
但如果编辑框 改为变量的话 就会提示错误
先不管编辑框该变量,6个成员 文本1[7]是什么意思
因为0是空的
我是说读出六个数组
我设的是0数组
为您推荐:
其他类似问题
易语言的相关知识
换一换
回答问题,赢新手礼包“正则表达式”的应用范围越来越广,有了这个强大的工具,我们可以做很多事情,如搜索一句话中某个特定的数据,屏蔽掉一些非法贴子的发言,网页中匹配特定数据,代码编辑框中字符的高亮等等,这都可以用正则表达式来完成。本书分为四个部分。第一部分介绍了易语言的正则表达式支持库,在这里,大家可以了解第一个正则表达式的易语言程序写法,以及一个通用的小工具的制作。第二部分介绍了正则表达式的基本语法,大家可以用上述的小工具进行试验。第三部分介绍了用易语言写的正则表达式工具的使用方法。这些工具是由易语言用户提供的,有的工具还带有易语言源码。他们是:monkeycz、零点飞越、寻梦。第四部分介绍了正则表达式的高级技巧。录易语言正则表达式入门下的通配符类似其实,所谓的“正则表达式”,是大家一直在使用的,记得吗?在搜索文件时,会使用一种威力巨大的武器——DOS通配符——“?”和“*”。这就是最常用的正则表达式。例如:123.*表示所有文件名为123的文件,如123.txt, 123.doc, 123.wps, 123.swf, 123.xls等。“中国?.doc”表示所有文件名类似于 中国1.doc、中国2.doc、中国x.doc 这样的文件。上述DOS下的通配符用“?”号代表一个字符,“*”号代表任意个字符,但在正则表达式中,可能这些都有些改变。如“*”号匹配的就不一样。下面看看正则表达式是如何规定的吧。正则表达式正是在“DOS通配符”基础上复杂化而得到的。其最常用的表达式可能是:*匹配0或多个正好在它之前的那个字符。例如a*意味着能够匹配任意数量的a字符.匹配任何单个字符。例如r.t匹配这些字符串:rat、rut、r t,但是不匹配root(等同于DOS通配符下的?号。)^匹配一行的开始。例如^When 能够匹配字符串"When in the course of human events"的开始,但是不能匹配"What and When in the"。$匹配行结束符。例如正则表达式weasel$ 能够匹配字符串"He's a weasel"的末尾,但是不能匹配字符串"They are a bunch of weasels."。在这些字符中,可以使用 \. 来表示 . ,\* 表示 * ,不过,这种情况出现得很少,如果不能理解,可以暂时不理它,到用的时候就明白了。正则表达式还有一个强大的符号:[& ],这个 [& ]所括的内容,可以不按顺序进行匹配。如[abc]匹配abc, acb, bac, bca, cab, cba这6个文本[0-9]匹配任意0到9的数字[a-z]匹配所有小写字母[A-Z]匹配所有大写字母当然,你可以把它们混在一起写成[a-z0-9]这种样子。很多时候,我们需要检查文本中的非数字,我们就可以使用^这个符号,表示“除了……”[^0-9]匹配所有非数字文本[^a-zA-Z]匹配所有非字母的文本[^FONT]匹配所有不含FONT的文本下面用一个表来表示:*前面元素出现0次以上.匹配任何单个字符?前面元素出现0次或1次+前面元素出现1次以上^表示开头。$表示结尾。.*表示0个以上的任意字符。[ ]范围描述符。[a-z]表示从a到z之间的任意一个。\w英文字母和数字。即[0-9 A-Z a-z]。\W非英文字母和数字\s空字符,即[\t\n\r\f]。\S非空字符。\d数字,即[0-9]。\D非数字。\b词边界字符(在范围描述符外部时)\B非词边界字符\b退格符(0x08)(在范围描述符内部时){m,n}前面元素最少出现m次,最多出现n次|选择( )群组其他字符该字符本身基本的规则这些也就够了。下面将讲一讲易语言中正则表达式的数据类型和几个相关命令,相关的数据类型有两个:正则表达式和搜索结果。如下图所示:第1个正则表达式程序新建一个易语言程序,界面设计如下图所示:按钮被单击事件代码如下:.局部变量 正则表达式1, 正则表达式正则表达式1.创建 (“A.C”, 假)编辑框2.内容 = 到文本 (正则表达式1.匹配 (编辑框1.内容))如下图所示:在这里,“正则表达式1”是一个正则对象,使用“创建”方法建议了一个“A.C”正则表达式,然后与编辑框1中的内容进行正则比较,最后得出结论。运行后,大家只要输入三个字符,前为A后为C都会返回真。如下图所示:但如果是小写或多于三个字符,那么返回就会是假。如下图所示:大家也许会问,这样匹配有意义吗?我只能说,有没有意义只在于你怎么用了,如:可用于程序加密时,不采用判断语句,也不采用循环语句,而是用正则去匹配是否注册成功,以及可以进行程序名称的检查,程序中一些文字的检查等,这可能让一些不会正则的破解者很难下手。第2个正则表达式例程通过第一个正则程序,大家会了解正则匹配的重要性,也了解了易语言正则支持库的基本使用方法,下面这个例程可以让大家了解正则会返回一些更多的内容,大家如何去取回这些信息呢。下面改动上述程序中的一些代码为以下:.局部变量 正则表达式1, 正则表达式.局部变量 搜索结果1, 搜索结果, , "0"正则表达式1.创建 (“A.C”, 假)搜索结果1 = 正则表达式1.搜索全部 (编辑框1.内容)编辑框2.内容= 搜索结果1 [1].取匹配文本 (编辑框1.内容, )改动后如下所示:在这里,增加了一个搜索结果的对象,用这个对象接收正则表达式匹配的结果,然后从中提取出大家想要的数据。上述易语言代码的运行结果如下图所示:改动上面编辑框的内容后,结果如下:这次是较为重要的一环,即我们知道了取回的内容。即由A和C包含的内容。以及下面会论述到的位置信息。取回的包含的内容意义重大,如:可以取回一对括号内的内容,这也是为了查找的方便。第3个例程这次的工作任务是取一批文字中的所有字母与数字内容。按钮被单击事件代码如下:.局部变量 正则表达式1, 正则表达式.局部变量 搜索结果1, 搜索结果, , "0".局部变量 数组索引, 整数型正则表达式1.创建 (“[a-z0-9” + #换行符 + “]”, 假)' [ ]中间的内容,就是要搜索的内容,可以是任意字符,包括换行、空格、特殊符号.但注意如果有字符"^",就表示"除了",如"[^abc]"表示"除了abc",现在,我们给出的表达式意思是匹配含字母、数字、换行符的文本,后面那个"假"意思是不区分大小写,你写成真也没有问题。搜索结果1 = 正则表达式1.搜索全部 (编辑框1.内容)'搜索结果是个数组,实际上存放的是字符串搜索后的各种参数,例如位置等, 可以用"取匹配文本(,)"方法将其取出,注意它的第一个参数必须和"搜索全部()"的参数一致编辑框2.内容 = “”.计次循环首 (取数组成员数 (搜索结果1), 数组索引)编辑框2.加入文本 (搜索结果1 [数组索引].取匹配文本 (编辑框1.内容, )).计次循环尾 ()图片如下所示:运行后,大家可以在上面的编辑框中输入中文与字母数字的混合,点击按钮后,就可以从中提取出字母与数字了。运行效果如下图所示:一个小型的正则工具在这里,大家将学会制作一个小型的正则表达式工具,使用这个工具进行下面章节更加细致的学习。这个例程也可以在本书的随书光盘中找到。程序界面如下所示安排:按钮被单击事件的代码如下:.局部变量 正则表达式1, 正则表达式.局部变量 搜索结果1, 搜索结果, , "0".局部变量 位置1, 整数型正则表达式1.创建 (组合框1.内容, 假).如果真 (正则表达式1.是否为空 () = 真)连续赋值 (“”, 编辑框A.内容, 编辑框B.内容, 编辑框C.内容, 编辑框D.内容, 编辑框2.内容)返回 ().如果真结束编辑框2.内容 = 到文本 (正则表达式1.匹配 (编辑框1.内容))搜索结果1 = 正则表达式1.搜索全部 (编辑框1.内容).如果真 (取数组下标 (搜索结果1, ) = 0)连续赋值 (“”, 编辑框A.内容, 编辑框B.内容, 编辑框C.内容, 编辑框D.内容, 编辑框2.内容)返回 ().如果真结束编辑框A.内容 = 搜索结果1 [1].取匹配文本 (编辑框1.内容, 位置1)编辑框B.内容 = 到文本 (位置1)编辑框C.内容 = 到文本 (位置1 + 取文本长度 (编辑框A.内容))编辑框D.内容 = 到文本 (取文本长度 (编辑框A.内容))抓图如下:通过上述代码后,运行效果如下:上述是测试“匹配”方法中注释的内容:正则表达式.创建 (“易语言4\.0(模块|支持库)?”)信息框 (正则表达式.匹配 (“易语言4.0支持库”), 0, )在第二章中,大家会发现本书大量用到了这个小程序。请置这个程序的启动窗口总在最前。注意:下标从0开始还是从1开始,因当前编程语言的不同而可能不同。第二章揭开正则表达式的神秘面纱[原创文章,转载请保留或注明出处:]言正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来:(1)检查一个串中是否含有符合某个规则的子串,并且可以得到这个子串;(2)根据匹配规则对字符串进行灵活的替换操作。正则表达式学习起来其实是很简单的,不多的几个较为抽象的概念也很容易理解。之所以很多人感觉正则表达式比较复杂,一方面是因为大多数的文档没有做到由浅入深地讲解,概念上没有注意先后顺序,给读者的理解带来困难;另一方面,各种引擎自带的文档一般都要介绍它特有的功能,然而这部分特有的功能并不是大家首先要理解的。正则表达式规则1.1普通字符字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是“普通字符”。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。举例1:表达式“c”,在匹配字符串“abcde”时,匹配结果是:成功;匹配到的内容是:“c”;匹配到的位置是:开始于2,结束于3。(注:下标从0开始还是从1开始,因当前编程语言的不同而可能不同)举例2:表达式“bcd”,在匹配字符串“abcde”时,匹配结果是:成功;匹配到的内容是:“bcd”;匹配到的位置是:开始于1,结束于4。1.2简单的转义字符一些不便书写的字符,采用在前面加"\"的方法。这些字符其实我们都已经熟知了。表达式可匹配\r, \n代表回车和换行符\t制表符\\代表"\"本身还有其他一些在后边章节中有特殊用处的标点符号,在前面加“\”后,就代表该符号本身。比如:^, $都有特殊意义,如果要想匹配字符串中“^”和“$”字符,则表达式就需要写成“\^”和“\$”。表达式可匹配\^匹配^符号本身\$匹配$符号本身\.匹配小数点(.)本身这些转义字符的匹配方法与“普通字符”是类似的。也是匹配与之相同的一个字符。举例1:表达式“\$d”,在匹配字符串“abc$de”时,匹配结果是:成功;匹配到的内容是:“$d”;匹配到的位置是:开始于3,结束于5。1.3能够与“多种字符”匹配的表达式正则表达式中的一些表示方法,可以匹配“多种字符”其中的任意一个字符。比如,表达式“\d”可以匹配任意一个数字。虽然可以匹配其中任意字符,但是只能是一个,不是多个。这就好比玩扑克牌时候,大小王可以代替任意一张牌,但是只能代替一张牌。表达式可匹配\d任意一个数字,0~9中的任意一个\w任意一个字母或数字或下划线,也就是A~Z,a~z,0~9,_中任意一个\s包括空格、制表符、换页符等空白字符的其中任意一个.小数点可以匹配除了换行符(\n)以外的任意一个字符举例1:表达式“\d\d”,在匹配“abc123”时,匹配的结果是:成功;匹配到的内容是:“12”;匹配到的位置是:开始于3,结束于5。举例2:表达式“a.\d”,在匹配“aaa100”时,匹配的结果是:成功;匹配到的内容是:“aa1”;匹配到的位置是:开始于1,结束于4。1.4自定义能够匹配“多种字符”的表达式使用方括号[ ]包含一系列字符,能够匹配其中任意一个字符。用[^ ]包含一系列字符,则能够匹配其中字符之外的任意一个字符。同样的道理,虽然可以匹配其中任意一个,但是只能是一个,不是多个。表达式可匹配[ab5@]匹配"a"或"b"或"5"或"@"[^abc]匹配"a","b","c"之外的任意一个字符[f-k]匹配"f"~"k"之间的任意一个字母[^A-F0-3]匹配"A"~"F","0"~"3"之外的任意一个字符举例1:表达式“[bcd][bcd]”匹配“abc123”时,匹配的结果是:成功;匹配到的内容是:“bc”;匹配到的位置是:开始于1,结束于3。举例2:表达式“[^abc]”匹配“abc123”时,匹配的结果是:成功;匹配到的内容是:“1”;匹配到的位置是:开始于3,结束于4。1.5修饰匹配次数的特殊符号前面章节中讲到的表达式,无论是只能匹配一种字符的表达式,还是可以匹配多种字符其中任意一个的表达式,都只能匹配一次。如果使用表达式再加上修饰匹配次数的特殊符号,那么不用重复书写表达式就可以重复匹配。使用方法是:“次数修饰”放在“被修饰的表达式”后边。比如:“[bcd][bcd]”可以写成“[bcd]{2}”。表达式作用{n}表达式重复n次,比如:;{m,n}表达式至少重复m次,最多重复n次,比如:{m,}表达式至少重复m次,比如:?匹配表达式0次或者1次,相当于{0,1},比如:+表达式至少出现1次,相当于{1,},比如:*表达式不出现或出现任意次,相当于{0,},比如:举例1:表达式“\d+\.?\d*”在匹配“It costs $12.5”时,匹配的结果是:成功;匹配到的内容是:“12.5”;匹配到的位置是:开始于10,结束于14。举例2:表达式“go{2,8}gle”在匹配“Ads by goooooogle”时,匹配的结果是:成功;匹配到的内容是:“goooooogle”;匹配到的位置是:开始于7,结束于17。想取得某个网址的匹配可以如下:哈哈,越来越有意思了吧,如果在一句话中找到某个网址也是非常简单的了,如下图所示:1.6其他一些代表抽象意义的特殊符号一些符号在表达式中代表抽象的特殊意义:表达式作用^与字符串开始的地方匹配,不匹配任何字符$与字符串结束的地方匹配,不匹配任何字符\b匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符进一步的文字说明仍然比较抽象,因此,举例帮助大家理解。举例1:表达式"^aaa"在匹配"xxx aaa xxx"时,匹配结果是:失败。因为"^"要求与字符串开始的地方匹配,因此,只有当"aaa"位于字符串的开头的时候,"^aaa"才能匹配,比如:"aaa xxx xxx"。举例2:表达式"aaa$"在匹配"xxx aaa xxx"时,匹配结果是:失败。因为"$"要求与字符串结束的地方匹配,因此,只有当"aaa"位于字符串的结尾的时候,"aaa$"才能匹配,比如:"xxx xxx aaa"。举例3:表达式".\b."在匹配"@@@abc"时,匹配结果是:成功;匹配到的内容是:"@a";匹配到的位置是:开始于2,结束于4。进一步说明:"\b"与"^"和"$"类似,本身不匹配任何字符,但是它要求它在匹配结果中所处位置的左右两边,其中一边是"\w"范围,另一边是非"\w"的范围。举例4:表达式“\bend\b”在匹配“weekend,endfor,end”时,匹配结果是:成功;匹配到的内容是:“end”;匹配到的位置是:开始于15,结束于18。一些符号可以影响表达式内部的子表达式之间的关系:表达式作用|左右两边表达式之间"或"关系,匹配左边或者右边( )(1).在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰(2).取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到举例5:表达式"Tom|Jack"在匹配字符串"I'm Tom, he is Jack"时,匹配结果是:成功;匹配到的内容是:"Tom";匹配到的位置是:开始于4,结束于7。匹配下一个时,匹配结果是:成功;匹配到的内容是:"Jack";匹配到的位置时:开始于15,结束于19。举例6:表达式"(go\s*)+"在匹配"Let's go go go!"时,匹配结果是:成功;匹配到内容是:"go go go";匹配到的位置是:开始于6,结束于14。举例7:表达式"¥(\d+\.?\d*)"在匹配"$10.9,¥20.5"时,匹配的结果是:成功;匹配到的内容是:"¥20.5";匹配到的位置是:开始于6,结束于10。单独获取括号范围匹配到的内容是:"20.5"。正则表达式中的一些高级规则2.1匹配次数中的贪婪与非贪婪在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不同的次数,比如:"{m,n}", "{m,}", "?", "*", "+",具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。比如,针对文本"dxxxdxxxd",举例如下:表达式匹配结果(d)(\w+)“\w+”将匹配第一个“d”之后的所有字符“xxxdxxxd”(d)(\w+)(d)“\w+”将匹配第一个“d”和最后一个“d”之间的所有字符“xxxdxxx”。虽然“\w+”也能够匹配上最后一个“d”,但是为了使整个表达式匹配成功,“\w+”可以“让出”它本来能够匹配的最后一个“d”由此可见,“\w+”在匹配的时候,总是尽可能多的匹配符合它规则的字符。虽然第二个举例中,它没有匹配最后一个“d”,但那也是为了让整个表达式能够匹配成功。同理,带“*”和“{m,n}”的表达式都是尽可能地多匹配,带“?”的表达式在可匹配可不匹配的时候,也是尽可能的“要匹配”。这种匹配原则就叫作“贪婪”模式。非贪婪模式:在修饰匹配次数的特殊符号后再加上一个“?”号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的“不匹配”。这种匹配原则叫作“非贪婪”模式,也叫作“勉强”模式。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例如下,针对文本“dxxxdxxxd”举例:表达式匹配结果“\w+?”将尽可能少的匹配第一个“d”之后的字符,结果是:“\w+?”只匹配了一个“x”为了让整个表达式匹配成功,“\w+?”不得不匹配“xxx”才可以让后边的“d”匹配,从而使整个表达式匹配成功。因此,结果是:“\w+?”匹配“xxx”更多的情况,举例如下:举例1:表达式“&td&(.*)&/td&”与字符串“&td&&p&aa&/p&&/td& &td&&p&bb&/p&&/td&”匹配时,匹配的结果是:成功;匹配到的内容是“&td&&p&aa&/p&&/td& &td&&p&bb&/p&&/td&”整个字符串,表达式中的“&/td&”将与字符串中最后一个“&/td&”匹配。举例2:相比之下,表达式“&td&(.*?)&/td&”匹配举例1中同样的字符串时,将只得到“&td&&p&aa&/p&&/td&”,再次匹配下一个时,可以得到第二个“&td&&p&bb&/p&&/td&”。2.2反向引用\1, \2...表达式在匹配时,表达式引擎会将小括号“( )”包含的表达式所匹配到的字符串记录下来。在获取匹配结果的时候,小括号包含的表达式所匹配到的字符串可以单独获取。这一点,在前面的举例中,已经多次展示了。在实际应用场合中,当用某种边界来查找,而所要获取的内容又不包含边界时,必须使用小括号来指定所要的范围。比如前面的“&td&(.*?)&/td&”。其实,“小括号包含的表达式所匹配到的字符串”不仅是在匹配结束后才可以使用,在匹配过程中也可以使用。表达式后边的部分,可以引用前面“括号内的子匹配已经匹配到的字符串”。引用方法是“\”加上一个数字。“\1”引用第1对括号内匹配到的字符串,“\2”引用第2对括号内匹配到的字符串……以此类推,如果一对括号内包含另一对括号,则外层的括号先排序号。换句话说,哪一对的左括号“(”在前,那这一对就先排序号。举例如下:举例1:表达式“('|")(.*?)(\1)”在匹配“'Hello', "World"”时,匹配结果是:成功;匹配到的内容是:“'Hello'”。再次匹配下一个时,可以匹配到“"World"”。举例2:表达式“(\w)\1{4,}”在匹配“aa bbbb abcdefg ccccc 9999999”时,匹配结果是:成功;匹配到的内容是“ccccc”。再次匹配下一个时,将得到。这个表达式要求“\w”范围的字符至少重复5次,注意与“\w{5,}”之间的区别。举例3:表达式“&(\w+)\s*(\w+(=('|").*?\4)?\s*)*&.*?&/\1&”在匹配“&td id='td1' style="bgcolor:white"&&/td&”时,匹配结果是成功。如果“&td&”与“&/td&”不配对,则会匹配失败;如果改成其他配对,也可以匹配成功。2.3预搜索,不匹配;反向预搜索,不匹配前面的章节中,本书讲到了几个代表抽象意义的特殊符号:“^”,“$”,“\b”。它们都有一个共同点,那就是:它们本身不匹配任何字符,只是对“字符串的两头”或者“字符之间的缝隙”附加了一个条件。理解到这个概念以后,本节将继续介绍另外一种对“两头”或者“缝隙”附加条件的,更加灵活的表示方法。正向预搜索:“(?=xxxxx)”,“(?!xxxxx)”格式:“(?=xxxxx)”,在被匹配的字符串中,它对所处的“缝隙”或者“两头”附加的条件是:所在缝隙的右侧,必须能够匹配上xxxxx这部分的表达式。因为它只是在此作为这个缝隙上附加的条件,所以它并不影响后边的表达式去真正匹配这个缝隙之后的字符。这就类似“\b”,本身不匹配任何字符。“\b”只是将所在缝隙之前、之后的字符取来进行了一下判断,不会影响后边的表达式来真正的匹配。举例1:表达式“Windows(?=NT|XP)”在匹配“Windows 98, Windows NT, Windows 2000”时,将只匹配“Windows NT”中的“Windows”,其他的“Windows”字样则不被匹配。举例2:表达式“(\w)((?=\1\1\1)(\1))+”在匹配字符串“aaa ffffff ”时,将可以匹配6个“f”的前4个,可以匹配9个“9”的前7个。这个表达式可以读解成:重复4次以上的字母数字,则匹配其剩下最后2位之前的部分。当然,这个表达式可以不这样写,在此的目的是作为演示之用。格式:“(?!xxxxx)”,所在缝隙的右侧,必须不能匹配xxxxx这部分表达式。举例3:表达式“((?!\bstop\b).)+”在匹配“fdjka ljfdl stop fjdsla fdj”时,将从头一直匹配到“stop”之前的位置,如果字符串中没有“stop”,则匹配整个字符串。举例4:表达式“do(?!\w)”在匹配字符串“done, do, dog”时,只能匹配“do”。在本条举例中,“do”后边使用“(?!\w)”和使用“\b”效果是一样的。反向预搜索:“(?&=xxxxx)”,“(?&!xxxxx)”这两种格式的概念和正向预搜索是类似的,反向预搜索要求的条件是:所在缝隙的“左侧”,两种格式分别要求必须能够匹配和必须不能够匹配指定表达式,而不是去判断右侧。与“正向预搜索”一样的是:它们都是对所在缝隙的一种附加条件,本身都不匹配任何字符。举例5:表达式“(?&=\d{4})\d+(?=\d{4})”在匹配“3456”时,将匹配除了前4个数字和后4个数字之外的中间8个数字。由于JScript.RegExp不支持反向预搜索,因此,本条举例不能够进行演示。很多其他的引擎可以支持反向预搜索,比如:Java 1.4以上的java.util.regex包,.NET中System.Text.RegularExpressions命名空间,以及本站推荐的最简单易用的DEELX正则引擎。三.其他通用规则还有一些在各个正则表达式引擎之间比较通用的规则,在前面的讲解过程中没有提到。3.1表达式中,可以使用“\xXX”和“\uXXXX”表示一个字符(“X”表示一个十六进制数)形式字符范围\xXX编号在0 ~ 255范围的字符,比如:空格可以使用“\x20”表示\uXXXX任何字符可以使用“\u”再加上其编号的4位十六进制数表示,比如:“\u4E2D”3.2在表达式"\s","\d","\w","\b"表示特殊意义的同时,对应的大写字母表示相反的意义表达式可匹配\S匹配所有非空白字符("\s"可匹配各个空白字符)\D匹配所有的非数字字符\W匹配所有的字母、数字、下划线以外的字符\B匹配非单词边界,即左右两边都是"\w"范围或者左右两边都不是"\w"范围时的字符缝隙3.3在表达式中有特殊意义,需要添加“\”才能匹配该字符本身的字符汇总字符说明^匹配输入字符串的开始位置。要匹配"^"字符本身,请使用"\^"$匹配输入字符串的结尾位置。要匹配"$"字符本身,请使用"\$"( )标记一个子表达式的开始和结束位置。要匹配小括号,请使用"\("和"\)"[ ]用来自定义能够匹配'多种字符'的表达式。要匹配中括号,请使用"\["和"\]"{ }修饰匹配次数的符号。要匹配大括号,请使用"\{"和"\}".匹配除了换行符(\n)以外的任意一个字符。要匹配小数点本身,请使用"\."?修饰匹配次数为0次或1次。要匹配"?"字符本身,请使用"\?"+修饰匹配次数为至少1次。要匹配"+"字符本身,请使用"\+"*修饰匹配次数为0次或任意次。要匹配"*"字符本身,请使用"\*"|左右两边表达式之间"或"关系。匹配"|"本身,请使用"\|"3.4括号“( )”内的子表达式,如果希望匹配结果不进行记录供以后使用,可以使用“(?:xxxxx)”格式举例1:表达式 “(?:(\w)\1)+”匹配“a bbccdd efg”时,结果是“bbccdd”。括号“(?:)”范围的匹配结果不进行记录,因此“(\w)”使用“\1”来引用。3.5常用的表达式属性设置简介:Ignorecase,Singleline,Multiline,Global表达式属性说明Ignorecase默认情况下,表达式中的字母是要区分大小写的。配置为Ignorecase可使匹配时不区分大小写。有的表达式引擎,把"大小写"概念延伸至UNICODE范围的大小写。Singleline默认情况下,小数点"."匹配除了换行符(\n)以外的字符。配置为Singleline可使小数点可匹配包括换行符在内的所有字符。Multiline默认情况下,表达式"^"和"$"只匹配字符串的开始①和结尾④位置。如:①xxxxxxxxx②\n③xxxxxxxxx④配置为Multiline可以使"^"匹配 ① 外,还可以匹配换行符之后,下一行开始前 ③ 的位置,使"$"匹配 ④ 外,还可以匹配换行符之前,一行结束 ② 的位置。Global主要在将表达式用来替换时起作用,配置为Global表示替换所有的匹配。四.其他提示4.1如果想要了解高级的正则引擎还支持那些复杂的正则语法,可参见网上关于DEELX正则引擎的说明文档。4.2如果要要求表达式所匹配的内容是整个字符串,而不是从字符串中找一部分,那么可以在表达式的首尾使用"^"和"$",比如:"^\d+$"要求整个字符串只有数字。4.3如果要求匹配的内容是一个完整的单词,而不会是单词的一部分,那么在表达式首尾使用"\b",比如:。4.4表达式不要匹配空字符串。否则会一直得到匹配成功,而结果什么都没有匹配到。比如:准备写一个匹配"123"、"123."、"123.5"、".5"这几种形式的表达式时,整数、小数点、小数数字都可以省略,但是不要将表达式写成:"\d*\.?\d*",因为如果什么都没有,这个表达式也可以匹配成功。更好的写法是:"\d+\.?\d*|\.\d+"。4.5能匹配空字符串的子匹配不要循环无限次。如果括号内的子表达式中的每一部分都可以匹配0次,而这个括号整体又可以匹配无限次,那么情况可能比上一条所说的更严重,匹配过程中可能死循环。虽然现在有些正则表达式引擎已经通过办法避免了这种情况出现死循环了,比如.NET的正则表达式,但是我们仍然应该尽量避免出现这种情况。如果我们在写表达式时遇到了死循环,也可以从这一点入手,查找一下是否是本条所说的原因。4.6合理选择贪婪模式与非贪婪模式,参见话题讨论。4.7或"|"的左右两边,对某个字符最好只有一边可以匹配,这样,不会因为"|"两边的表达式因为交换位置而有所不同。正则表达式工具与实例第一章将易语言的正则表达式工具简单地向大家作了介绍,并且在最后给出了一个实用的小工具进行测试。在第二章中,重点介绍了正则表达式的概念,同时用这个小工具进行了验算。本章会重新回到易语言环境中,将正则表达式支持库中的所有命令都介绍给大家。在本章的后面,就会有针对性地教大家自己写工具,以及介绍几个有用的实例。在第一章中只是简单地使用了易语言正则表达式的几个命令。在此将会向大家介绍所有的命令。同时希望大家能安装ESDN,很多例程大家都可以通过这个进一步了解。“正则表达式”数据类型“创建”方法:表示创建一个正则表达式,其在第一章中已有使用。根据指定的正则表达式文本创建一个正则表达式对象。本对象中的原有内容将被释放。成功返回真;否则返回假。“是否为空”方法:测试是否已使用创建方法载入一个正则表达式了,如果已有正则表达式,返回为“真”,否则返回为“假”。“取文本”方法。测试是否已使用创建方法载入一个正则表达式了,如果已有正则表达式,返回正则表达式的文本,否则返回“空”。“匹配”方法。表示用正则表达式与被测试文本之间的完全对应关系是否成立,如果完全对应返回“真”,否则返回“假”。比如:正则表达式.创建(“易语言4\.0(模块|支持库)?”) |信息框(正则表达式.匹配(“易语言4.0支持库”), 0, )将显示“真”。“搜索”方法。使用指定的正则表达式搜索指定文本中与该表达式匹配的子文本。“替换”方法。使用指定的正则表达式搜索指定文本中与该表达式匹配的子文本,并按照指定的格式进行替换。“搜索全部”方法。使用指定的正则表达式搜索指定文本中与该表达式匹配的所有子文本。返回值包含所有的搜索结果的一维数组,数组原有内容将被销毁,维数也将根据需要做相应调整。本命令的内部是通过循环多次调用“搜索”,每次指定适当的参数,来实现搜索整个文本的。返回值数组的各个成员分别对应每次调用“搜索”的返回值。本命令可高效地一次性取得目标文本中所有的匹配子文本信息。“取子表达式个数”方法。返回该表达式中子表达式(用圆括号标记)的个数。比如“易语言4\.0(模块|支持库)?”中包含1个子表达式:“(模块|支持库)”。“搜索结果”数据类型“是否为空”方法。表示搜索结果数据类型中是否有数据,如果对象的内容为空,没有数据,那么返回“真”,否则返回“假”。“取匹配文本”方法。取得与整个正则表达式匹配的子文本。“取子匹配文本”方法。取得与正则表达式中某个子表达式匹配的子文本。一个成品工具在天空或华军,可以下载到一些制作好的正则表达式工具,其各有自己的优点。大家可以自己去下载一下。本书的随书光盘中也有这样一个工具。一般一个正则表达式工具可能包括下面的重要部分:正则表达式工具必须的部分正则表达式区被分析的文本区可选的部分分析后的结果显示区替换文本区设置工具工具条、状态条区菜单条自动生成语言代码工具辅助生成正则表达式的工具生成代码的工个是单独一个窗口,如下图所示:此外,有的工具还提供了可以辅助生成正则表达式的工具。有时,大家下载一个正则表达式工具,运行不了,这是需要“.NET”的支持才行。易语言写的工具用易语言写一个正则表达式工具实际上也不是什么难事。在此向大家介绍一下界面,操作方法应该也是比较简单的。实例1打开随书例程:匹配中文.e,界面如下:代码如下:运行后的效果如下:实例2大家还是自己看代码吧。实例3大家可以下载这个贴子中的编译程序源代码,其中有一部分的接收到错误信息时,可以通过正则表达式匹配到出错行,并且定位到出错的行上。实例4在ESDN中有一个替换网页的例程,大家自己看吧。正则表达式话题[原创文章,转载请保留或注明出处:]言本文将逐步讨论一些正则表达式的使用话题。本文为第二章之后的扩展,在阅读本文之前,建议先阅读本书第二章节内容。一.表达式的递归匹配有时候,我们需要用正则表达式来分析一个计算式中的括号配对情况。比如,使用表达式“\( [^)]* \)”或者“\( .*? \)”可以匹配一对小括号。但是如果括号内还嵌有一层括号的话,如“( ( ) )”,则这种写法将不能够匹配正确,得到的结果是“( ( )”。类似情况的还有HTML中支持嵌套的标签如“&font& &/font&”等。本节将要讨论的是,想办法把有嵌套的的成对括号或者成对标签匹配出来。1匹配未知层次的嵌套有的正则表达式引擎,专门针对这种嵌套提供了支持。并且在栈空间允许的情况下,能够支持任意未知层次的嵌套:比如Perl,PHP,GRETA等。在PHP和GRETA中,表达式中使用"(?R)"来表示嵌套部分。匹配嵌套了未知层次的“小括号对”的表达式写法如下:“\(& ([^()]& |& (?R))*& \)”。[Perl和PHP的示例代码]匹配有限层次的嵌套对于不支持嵌套的正则表达式引擎,只能通过一定的办法来匹配有限层次的嵌套。思路如下:第一步,写一个不能支持嵌套的表达式:“\( [^()]* \)”,“&font&((?!&/?font&).)*&/font&”。这两个表达式在匹配有嵌套的文本时,只匹配最内层。第二步,写一个可匹配嵌套一层的表达式:“\( ([^()] | \( [^()]* \))* \)”。这个表达式在匹配嵌套层数大于一时,只能匹配最里面的两层,同时,这个表达式也能匹配没有嵌套的文本或者嵌套的最里层。匹配嵌套一层的“&font&”标签,表达式为:“&font&((?!&/?font&).|(&font&((?!&/?font&).)*&/font&))*&/font&”。这个表达式在匹配“&font&”嵌套层数大于一的文本时,只匹配最里面的两层。第三步,找到匹配嵌套(n)层的表达式与嵌套(n-1)层的表达式之间的关系。比如,能够匹配嵌套(n)层的表达式为:[标记头]([匹配[标记头]和[标记尾]之外的表达式]|[匹配n-1层的表达式])*[标记尾]回头来看前面编写的“可匹配嵌套一层”的表达式:\(([^()]|\(([^()])*\))*\)&font&((?!&/?font&).|(&font&((?!&/?font&).)*&/font&))*&/font&PHP和GRETA的简便之处在于,匹配嵌套(n-1)层的表达式用(?R)表示:\(([^()]|(?R))*\)第四步,依此类推,可以编写出匹配有限(n)层的表达式。这种方式写出来的表达式,虽然看上去很长,但是这种表达式经过编译后,匹配效率仍然是很高的。非贪婪匹配的效率可能有不少的人和本人一样,有过这样的经历:当我们要匹配类似“&td&内容&/td&”或者“[b]加粗[/b]”这样的文本时,我们根据正向预搜索功能写出这样的表达式:“&td&([^&]|&(?!/td&))*&/td&”或者“&td&((?!&/td&).)*&/td&”。当发现非贪婪匹配之时,恍然大悟,同样功能的表达式可以写得如此简单:“&td&.*?&/td&”。顿时间如获至宝,凡是按边界匹配的地方,尽量使用简捷的非贪婪匹配“.*?”。特别是对于复杂的表达式来说,采用非贪婪匹配“.*?”写出来的表达式的确是简练了许多。然而,当一个表达式中,有多个非贪婪匹配时,或者多个未知匹配次数的表达式时,这个表达式将可能存在效率上的陷阱。有时候,匹配速度慢得莫名奇妙,甚至开始怀疑正则表达式是否实用。.1效率陷阱的产生在本书第二章里,对非贪婪匹配的描述中说到:“如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。”具体的匹配过程是这样的:1.“非贪婪部分”先匹配最少次数,然后尝试匹配“右侧的表达式”。2.如果右侧的表达式匹配成功,则整个表达式匹配结束。如果右侧表达式匹配失败,则“非贪婪部分”将增加匹配一次,然后再尝试匹配“右侧的表达式”。3.如果右侧的表达式又匹配失败,则“非贪婪部分”将再增加匹配一次。再尝试匹配“右侧的表达式”。4.依此类推,最后得到的结果是“非贪婪部分”以尽可能少的匹配次数,使整个表达式匹配成功。或者最终仍然匹配失败。当一个表达式中有多个非贪婪匹配,以表达式“d(\w+?)d(\w+?)z”为例,对于第一个括号中的“\w+?”来说,右边的“d(\w+?)z”属于它的“右侧的表达式”,对于第二个括号中的“\w+?”来说,右边的“z”属于它的“右侧的表达式”。当“z”匹配失败时,第二个“\w+?”会“增加匹配一次”,再尝试匹配“z”。如果第二个“\w+?”无论怎样“增加匹配次数”,直至整篇文本结束,“z”都不能匹配,那么表示“d(\w+?)z”匹配失败,也就是说第一个“\w+?”的“右侧”匹配失败。此时,第一个“\w+?”会增加匹配一次,然后再进行“d(\w+?)z”的匹配。循环前面所讲的过程,直至第一个“\w+?”无论怎么“增加匹配次数”,后边的“d(\w+?)z”都不能匹配时,整个表达式才宣告匹配失败。其实,为了使整个表达式匹配成功,贪婪匹配也会适当的“让出”已经匹配的字符。因此贪婪匹配也有类似的情况。当一个表达式中有较多的未知匹配次数的表达式时,为了让整个表达式匹配成功,各个贪婪或非贪婪的表达式都要进行尝试减少或增加匹配次数,由此容易形成一个大循环的尝试,造成了很长的匹配时间。本文之所以称之为“陷阱”,因为这种效率问题往往不易察觉。举例:“d(\w+?)d(\w+?)d(\w+?)z”匹配“ddddddddddd...”时,将花费较长一段时间才能判断出匹配失败。.2效率陷阱的避免避免效率陷阱的原则是:避免“多重循环”的“尝试匹配”。并不是说非贪婪匹配就是不好的,只是在运用非贪婪匹配的时候,需要注意避免过多“循环尝试”的问题。情况一:对于只有一个非贪婪或者贪婪匹配的表达式来说,不存在效率陷阱。也就是说,要匹配类似“&td&内容&/td&”这样的文本,表达式“&td&([^&]|&(?!/td&))*&/td&”和“&td&((?!&/td&).)*&/td&”和“&td&.*?&/td&”的效率是完全相同的。情况二:如果一个表达式中有多个未知匹配次数的表达式,应防止进行不必要的尝试匹配。比如,对表达式“&script language='(.*?)'&(.*?)&/script&”来说,如果前面部分表达式在遇到“&script language='vbscript'&”时匹配成功后,而后边的“(.*?)&/script&”却匹配失败,将导致第一个“.*?”增加匹配次数再尝试。而对于表达式真正目的,让第一个“.*?”增加匹配成“vbscript'&”是不对的,因此这种尝试是不必要的尝试。因此,对依靠边界来识别的表达式,不要让的部分跨过它的边界。前面的表达式中,第一个“.*?”应该改写成“[^']*”。后边那个“.*?”的右边再没有的表达式,因此这个非贪婪匹配没有效率陷阱。于是,这个匹配脚本块的表达式,应该写成:“&script language='([^']*)'&(.*?)&/script&”更好。:17种常用正则表达式"^\\d+$" & &&&//非负整数(正整数+ 0)"^[0-9]*[1-9][0-9]*$" & &&&//正整数"^((-\\d+)|(0+))$"&& &//非正整数(负整数+ 0)"^-[0-9]*[1-9][0-9]*$" & &&&//负整数"^-?\\d+$" & &&&//整数"^\\d+(" &&&//非负浮点数(正浮点数+ 0)"^(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*))$"&& &//正浮点数"^((-\\d+(" & &&&//非正浮点数(负浮点数+ 0)"^(-(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*)))$" & //负浮点数"^(-?\\d+)(" &&&//浮点数"^[A-Za-z]+$"&& &//由26个英文字母组成的字符串"^[A-Z]+$" & &&&//由26个英文字母的大写组成的字符串"^[a-z]+$" & &&&//由26个英文字母的小写组成的字符串"^[A-Za-z0-9]+$" & &&&//由数字和26个英文字母组成的字符串"^\\w+$"&& &//由数字、26个英文字母或者下划线组成的字符串"^[\\w-]+(\\.[\\w-]+)*@[\\w-]+(\\.[\\w-]+)+$"&& &//email地址"^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$" & &&&//url网址附录2-简明教程正则表达式(regular expression)前言正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真去阅读这些资料,加上应用的时候进行一定的参考,掌握正则表达式不是问题。索引1._引子2._正则表达式的历史3._正则表达式定义3.1_普通字符3.2_非打印字符3.3_特殊字符3.4_限定符3.5_定位符3.6_选择3.7_后向引用4._各种操作符的运算优先级5._全部符号解释6._部分例子7._正则表达式匹配规则7.1_基本模式匹配7.2_字符簇7.3_确定重复出现--------------------------------------------------------------------------------1. 引子目前,正则表达式已经在很多软件中得到广泛的应用,包括*nix(Linux, Unix等),HP等操作系统,PHP,C#,Java等开发环境,以及很多的应用软件中,都可以看到正则表达式的影子。正则表达式的使用,可以通过简单的办法来实现强大的功能。为了简单有效而又不失强大,造成了正则表达式代码的难度较大,学习起来也不是很容易,所以需要付出一些努力才行,入门之后参照一定的参考,使用起来还是比较简单有效的。例子: ^.+@.+\\..+$这样的代码曾经多次把我自己给吓退过。可能很多人也是被这样的代码给吓跑的吧。继续阅读本文将让你也可以自由应用这样的代码。注意:这里的第7部分跟前面的内容看起来似乎有些重复,目的是把前面表格里的部分重新描述了一次,目的是让这些内容更容易理解。2. 正则表达式的历史正则表达式的“祖先”可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。1956 年, 一位叫 Stephen Kleene 的数学家在 McCulloch 和 Pitts 早期工作的基础上,发表了一篇标题为“神经网事件的表示法”的论文,引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式,因此采用“正则表达式”这个术语。随后,发现可以将这一工作应用于使用 Ken Thompson 的计算搜索算法的一些早期研究,Ken Thompson 是 Unix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的 qed 编辑器。如他们所说,剩下的就是众所周知的历史了。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。3. 正则表达式定义正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。列目录时, dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。3.1 普通字符由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。3.2 非打印字符字符& 含义\cx& 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。\f& 匹配一个换页符。等价于 \x0c 和 \cL。\n& 匹配一个换行符。等价于 \x0a 和 \cJ。\r& 匹配一个回车符。等价于 \x0d 和 \cM。\s& 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。\S& 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。\t& 匹配一个制表符。等价于 \x09 和 \cI。\v& 匹配一个垂直制表符。等价于 \x0b 和 \cK。3.3 特殊字符所谓特殊字符,就是一些有特殊含义的字符,如上面说的"*.txt"中的*,简单的说就是表示任何字符串的意思。如果要查找文件名中有*的文件,则需要对*进行转义,即在其前加一个\。ls \*.txt。正则表达式有以下特殊字符。特别字符 说明$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,请使用 \$。( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。* 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。+ 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。. 匹配除换行符 \n之外的任何单字符。要匹配 .,请使用 \。[& 标记一个中括号表达式的开始。要匹配 [,请使用 \[。? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。^ 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。{ 标记限定符表达式的开始。要匹配 {,请使用 \{。| 指明两项之间的一个选择。要匹配 |,请使用 \|。构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与操作符将小的表达式结合在一起来创建更大的表达式。正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。3.4 限定符限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。正则表达式的限定符有:字符& 描述*& 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。+& 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。?& 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。{n}& n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。{n,}& n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。{n,m}& m 和 n 均为非负整数,其中n &= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。3.5 定位符用来描述字符串或单词的边界,^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B表示非单词边界。不能对定位符使用限定符。3.6 选择用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,是相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。其中?:是非捕获元之一,还有两个非捕获元是?=和?!,这两个还有更多的含义,前者为正向预查,在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串,后者为负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。3.7 后向引用对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式模式中从左至右所遇到的内容存储。存储子匹配的缓冲区编号从 1 开始,连续编号直至最大 99 个子表达式。每个缓冲区都可以使用 '\n' 访问,其中 n 为一个标识特定缓冲区的一位或两位十进制数。可以使用非捕获元字符 '?:', '?=', or '?!' 来忽略对相关匹配的保存。4. 各种操作符的运算优先级相同优先级的从左到右进行运算,不同优先级的运算先高后低。各种操作符的优先级从高到低如下:操作符& 描述\& 转义符(), (?:), (?=), []& 圆括号和方括号*, +, ?, {n}, {n,}, {n,m}& 限定符^, $, \anymetacharacter& 位置和顺序|& “或”操作5. 全部符号解释字符& 描述\& 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。^& 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '\n' 或 '\r' 之后的位置。$& 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 '\n' 或 '\r' 之前的位置。*& 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。+& 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。?& 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。{n}& n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。{n,}& n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。{n,m}& m 和 n 均为非负整数,其中n &= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。?& 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。.& 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。(pattern)& 匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在JScript 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '\(' 或 '\)'。(?:pattern)& 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。(?=pattern)& 正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。(?!pattern)& 负向预查,在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始x|y& 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。[xyz]& 字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。[^xyz]& 负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。[a-z]& 字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。[^a-z]& 负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。\b& 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。\B& 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。\cx& 匹配由 x 指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。\d& 匹配一个数字字符。等价于 [0-9]。\D& 匹配一个非数字字符。等价于 [^0-9]。\f& 匹配一个换页符。等价于 \x0c 和 \cL。\n& 匹配一个换行符。等价于 \x0a 和 \cJ。\r& 匹配一个回车符。等价于 \x0d 和 \cM。\s& 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。\S& 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。\t& 匹配一个制表符。等价于 \x09 和 \cI。\v& 匹配一个垂直制表符。等价于 \x0b 和 \cK。\w& 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。\W& 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。\xn& 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。.\num& 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。\n& 标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。\nm& 标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。\nml& 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。\un& 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。6. 部分例子正则表达式 说明/\b([a-z]+) \1\b/gi 一个单词连续出现的位置/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/& 将一个URL解析为协议、域、端口及相对路径/^(?:Chapter|Section) [1-9][0-9]{0,1}$/ 定位章节的位置/[-a-z]/ A至z共26个字母再加一个-号。/ter\b/ 可匹配chapter,而不能terminal/\Bapt/ 可匹配chapter,而不能aptitude/Windows(?=95 |98 |NT )/ 可匹配Windows95或Windows98或WindowsNT,当找到一个匹配后,从Windows后面开始进行下一次的检索匹配。7. 正则表达式匹配规则7.1 基本模式匹配一切从最基本的开始。模式,是正规表达式最基本的元素,它们是一组描述字符串特征的字符。模式可以很简单,由普通的字符串组成,也可以非常复杂,往往用特殊的字符表示一个范围内的字符、重复出现,或表示上下文。例如:^once这个模式包含一个特殊的字符^,表示该模式只匹配那些以once开头的字符串。例如该模式与字符串"once upon a time"匹配,与"There once was a man from NewYork"不匹配。正如如^符号表示开头一样,$符号用来匹配那些以给定模式结尾的字符串。bucket$这个模式与"Who kept all of this cash in a bucket"匹配,与"buckets"不匹配。字符^和$同时使用时,表示精确匹配(字符串与模式一样)。例如:^bucket$只匹配字符串"bucket"。如果一个模式不包括^和$,那么它与任何包含该模式的字符串匹配。例如:模式once与字符串There once was a man from NewYorkWho kept all of his cash in a bucket.是匹配的。在该模式中的字母(o-n-c-e)是字面的字符,也就是说,他们表示该字母本身,数字也是一样的。其他一些稍微复杂的字符,如标点符号和白字符(空格、制表符等),要用到转义序列。所有的转义序列都用反斜杠(\)打头。制表符的转义序列是:\t。所以如果我们要检测一个字符串是否以制表符开头,可以用这个模式:^\t类似的,用\n表示“新行”,\r表示回车。其他的特殊符号,可以用在前面加上反斜杠,如反斜杠本身用\\表示,句号.用\.表示,以此类推。7.2 字符簇在INTERNET的程序中,正规表达式通常用来验证用户的输入。当用户提交一个FORM以后,要判断输入的电话号码、地址、EMAIL地址、信用卡号码等是否有效,用普通的基于字面的字符是不够的。所以要用一种更自由的描述我们要的模式的办法,它就是字符簇。要建立一个表示所有元音字符的字符簇,就把所有的元音字符放在一个方括号里:[AaEeIiOoUu]这个模式与任何元音字符匹配,但只能表示一个字符。用连字号可以表示一个字符的范围,如:[a-z] //匹配所有的小写字母[A-Z] //匹配所有的大写字母[a-zA-Z] //匹配所有的字母[0-9] //匹配所有的数字[0-9\.\-] //匹配所有的数字,句号和减号[ \f\r\t\n] //匹配所有的白字符同样的,这些也只表示一个字符,这是一个非常重要的。如果要匹配一个由一个小写字母和一位数字组成的字符串,比如"z2"、"t6"或"g7",但不是"ab2"、"r2d3" 或"b52"的话,用这个模式:^[a-z][0-9]$尽管[a-z]代表26个字母的范围,但在这里它只能与第一个字符是小写字母的字符串匹配。前面曾经提到^表示字符串的开头,但它还有另外一个含义。当在一组方括号里使用^是,它表示“非”或“排除”的意思,常常用来剔除某个字符。还用前面的例子,我们要求第一个字符不能是数字:^[^0-9][0-9]$这个模式与"&5"、"g7"及"-2"是匹配的,但与"12"、"66"是不匹配的。下面是几个排除特定字符的例子:[^a-z] //除了小写字母以外的所有字符[^\\\/\^] //除了(\)(/)(^)之外的所有字符[^\"\'] //除了双引号(")和单引号(')之外的所有字符特殊字符"." (点,句号)在正规表达式中用来表示除了“新行”之外的所有字符。所以模式"^.5$"与任何两个字符的、以数字5结尾和以其他非“新行”字符开头的字符串匹配。模式"."可以匹配任何字符串,除了空串和只包括一个“新行”的字符串。PHP的正规表达式有一些内置的通用字符簇,列表如下:字符簇 含义[[:alpha:]] 任何字母[[:digit:]] 任何数字[[:alnum:]] 任何字母和数字[[:space:]] 任何白字符[[:upper:]] 任何大写字母[[:lower:]] 任何小写字母[[:punct:]] 任何标点符号[[:xdigit:]] 任何16进制的数字,相当于[0-9a-fA-F]7.3 确定重复出现到现在为止,你已经知道如何去匹配一个字母或数字,但更多的情况下,可能要匹配一个单词或一组数字。一个单词有若干个字母组成,一组数字有若干个单数组成。跟在字符或字符簇后面的花括号({})用来确定前面的内容的重复出现的次数。字符簇 含义^[a-zA-Z_]$ 所有的字母和下划线^[[:alpha:]]{3}$ 所有的3个字母的单词^a$ 字母a^a{4}$ aaaa^a{2,4}$ aa,aaa或aaaa^a{1,3}$ a,aa或aaa^a{2,}$ 包含多于两个a的字符串^a{2,} 如:aardvark和aaab,但apple不行a{2,} 如:baad和aaa,但Nantucket不行\t{2} 两个制表符.{2} 所有的两个字符这些例子描述了花括号的三种不同的用法。一个数字,{x}的意思是“前面的字符或字符簇只出现x次”;一个数字加逗号,{x,}的意思是“前面的内容出现x或更多的次数”;两个用逗号分隔的数字,{x,y}表示“前面的内容至少出现x次,但不超过y次”。我们可以把模式扩展到更多的单词或数字:^[a-zA-Z0-9_]{1,}$ //所有包含一个以上的字母、数字或下划线的字符串^[0-9]{1,}$ //所有的正数^\-{0,1}[0-9]{1,}$ //所有的整数^\-{0,1}[0-9]{0,}\.{0,1}[0-9]{0,}$ //所有的小数最后一个例子不太好理解,是吗?这么看吧:与所有以一个可选的负号(\-{0,1})开头(^)、跟着0个或更多的数字([0-9]{0,})、和一个可选的小数点(\.{0,1})再跟上0个或多个数字([0-9]{0,}),并且没有其他任何东西($)。下面你将知道能够使用的更为简单的方法。特殊字符"?"与{0,1}是相等的,它们都代表着:“0个或1个前面的内容”或“前面的内容是可选的”。所以刚才的例子可以简化为:^\-?[0-9]{0,}\.?[0-9]{0,}$特殊字符"*"与{0,}是相等的,它们都代表着“0个或多个前面的内容”。最后,字符"+"与 {1,}是相等的,表示“1个或多个前面的内容”,所以上面的4个例子可以写成:^[a-zA-Z0-9_]+$ //所有包含一个以上的字母、数字或下划线的字符串^[0-9]+$ //所有的正数^\-?[0-9]+$ //所有的整数^\-?[0-9]*\.?[0-9]*$ //所有的小数当然这并不能从技术上降低正规表达式的复杂性,但可以使它们更容易阅读。教程精选:正则表达式快速入门作者:开心石头出处:天极网责任编辑:wenwu[
11:06 ]【导读】正则表达式是从左向右去匹配目标字符串的一组模式。大多数字符在模式中表示它们自身并匹配目标中相应的字符正则表达式广泛出现在UNIX/Linux相关的各种领域和多种编程语言里。从常见的shell命令到大名鼎鼎的Perl语言再到当前非常流行的PHP,它都扮演着一个重要的角色。甚至windows的命令行控制台也支持正则表达式。如果你是一个Linux服务器管理员,你经常会在一些服务器的设置脚本里看到它。可以说,它是学好Linux/UNIX必需掌握的一个知识点,否则你连Linux的启动脚本都读不懂。偏偏它又的确有点晦涩难懂,而且相关的资料又大部分是英文,更为它的学习增加了几多困难。即使有些中文的翻译资料,不同的译者对一些术语的译法也五花八门,读着让人平添困惑。为此,我决定为它写一个简明教程,尽量可以覆盖正则表达式涉及到的各主要概念。我并不想把本文写成一本详细的正则表达式语法手册,事实上,这些手册已经存在了,不过读起来比较难懂。我希望的是在完成本教程后,你可以比较轻松的读懂各种工具的正则表达式语法手册并可以迅速上手,不过要用好正则表达式,可不是一篇短短的教程可以解决的,那是无数实践练习的结果。但是,本文的最后一部分对于正则表达式的编写提出了一些原则性的建议,学习一下这些正则表达式应用先驱者的经验会让我们在今后的实践中少走一些弯路。正则表达式是英文“regular expressions”的译文,它的产生据说可以追溯到“神经网络”等比较高深的理论。那么什么是正则表达式呢?正则表达式是从左向右去匹配目标字符串的一组模式。大多数字符在模式中表示它们自身并匹配目标中相应的字符。举个最简单的例子,模式“The quick brown fox”匹配了目标字符串中与其完全相同的一部分。前面已经提过,正则表达式被许多植根于UNIX/Linux的工具采用,可是这些工具的正则表达式语法并不完全相同,它们中的一些对正则表达式语法的扩展并不被其它工具识别,这也为正则表达式的使用增加了难度。因此,当你在一个具体的环境中使用正则表达式时,你还要先看一下目标环境支持的语法范围,以确保你的正则表达式被正确的解析。在本文中列举的例子里,我们用正斜线“/”做为模式的定界符(delimiter),一个模式用下面这种格式表示:/[A-Z]+(abc|xyz)*/I本文将较详细的阐明下面这些正则表达式概念:模式修正符(modifier),元字符(Meta-characters),子模式(subpatterns)与逆向引用(Back references),重复(Repetition)和量词(quantifiers),断言(Assertions),注释,正则表达式中的递归,最后我介绍一款方便学习正则表达式的工具并介绍一些正则表达式编写的思路。正则表达式的模式修正符(modifier)正则表达式的模式修正符主要用来限定模式与目标字符串的匹配方式,例如是否需要大小写敏感的匹配,是单行模式还是多行模式。修正符中的空格和换行被忽略,其它字符会导致错误。下面列举一些常见的模式修正符。注意,模式修正符是区分大小写的。i:非大小写敏感模式,:如果设定此修正符,模式中的字符将同时匹配大小写字母。m:多行模式,当设定了此修正符,“行起始”和“行结束”除了匹配整个字符串开头和结束外,还分别匹配其中的换行符的之后和之前。s:单行模式,如果设定了此修正符,模式中的圆点元字符(.)匹配所有的字符,包括换行符。没有此设定的话,则不包括换行符。对于多行模式和单行模式,一个容易让初学者迷惑的地方是这两者并不向字面上那样是互斥的。事实上,它们只是分别定义了英文句点(.)、音调符(^)和美元符($)这三个元字符的匹配方式,因此,单行模式与多行模式的修正符可以同时使用。x:如果设定了此修正符,模式中的空白字符除了被转义的或在字符类中的以外完全被忽略,在未转义的字符类之外的#以及下一个换行符之间的所有字符,包括两头,也都被忽略。它使得可以在复杂的模式中加入注释。我们会在后面的部分更详细的讲解正则表达中的注释。模式修正符还有很多,这里不再一一列举。我们会结合后面的内容介绍一些其它的模式修正符。不同的工具也可以添加自己的模式修正符,不过上面几最为常见。模式修正符通常跟在模式定义结束符的后面,例如下面例子中模式最后的“i”字符。/[A-Z]+(abc|xyz)*/i,这时此修正符会对整个匹配模式起作用。模式修正符也可以在模式内部通过包含在"(?"和")"之间的修正符字母序列来实现。例如,(?im)设定了不区分大小写,多行模式。也可以通过在字母前加上减号来取消这些选项。例如组合的选项(?im-s),设定了不区分大小写和多行模式,并取消了单行模式。如果一个字母在减号之前与之后都出现了,则该选项被取消设定。注意,如果(?im-s)出现在一个子模式内(被另一对小括号包含)会把模式修正符的作用局限在该子模式中。正则表达式的元字符(Meta-characters)正则表达式的威力在于其能够在模式中包含选择和循环。它们通过使用元字符来编码在模式中,元字符不代表其自身,它们用一些特殊的方式来解析。有两组不同的元字符:一种是模式中除了方括号内都能被识别的,还有一种是在方括号内被识别的。如果想在模式里包含一个元字符本身,就需要用到转义符号,正则表达式常用反斜线“\”作为转义字符使用,为了匹配“\”本身,你需要输入两个“\”,向这样“\\”。当然,这个符号本身也是一个元字符。方括号之外的元字符有这些:有数种用途的通用转义符^断言目标的开头(或在多行模式下行的开头,即紧随一换行符之后)$断言目标的结尾(或在多行模式下行的结尾,即紧随一换行符之前).匹配除了换行符外的任意一个字符(默认情况下)[字符类定义开始]字符类定义结束|开始一个多选一的分支(子模式开始)子模式结束?扩展(的含义,我们已经在介绍模式修正符里看到过它的使用。它也可以是0或1数量限定符,以及数量限定符最小值*匹配0个或多个的数量限定符+匹配1个或多个的数量限定符{最少/最多数量限定开始}最少/最多数量限定结束模式中方括号内的部分称为“字符类”。字符类中可用的元字符为:通用转义字符^排除字符类,但仅当其为第一个字符时有效-指出字符范围在这里,最值得一提是“\”这个元字符。之所以重点对它进行讲解是因为这一个元字符有多种不同的用法,在不同情况下代表不同的含义,而且使用频率非常高,是个很容易让人迷惑的地方。第一种用法前面我们已经提过,是作为通用转义字符使用,如果其后跟着一个非字母数字字符,则取消该字符可能具有的任何特殊含义。此种将反斜线用作转义字符的用法适用于无论是字符类之中还是之外。例如“\\”代表一个单独的反斜线“\”。第二种用途提供了一种在模式中以可见方式去编码不可打印字符的方法。模式中完全可以包括不可打印字符,除了代表模式结束的二进制零,例如,可以用“\a”代表alarm,即BEL字符(0x07),或用“\cx”代表"control-x",其中x是任意字符。当然,这种方法表示的不一定非得是不可打印字符,实际上,可以用“\xhh(十六进制代码为hh的字符)”和“\ddd(八进制代码为ddd的字符)”来以编码的形式表达任何单字节字符,例如“\040”可以用来表示空格。反斜线的第三个用法是指定通用字符类型,这些字符类型序列可以出现在字符类之中和之外。每一个匹配相应类型中的一个字符。如果当前匹配点在目标字符串的结尾,以上所有匹配都失败,因为没有字符可供匹配。有以下这些常见的通用字符类:\d任一十进制数字\D任一非十进制数的字符\s任一空白字符\S任一非空白字符\w任一“字”的字符\W任一“非字”的字符反斜线的第四个用法是某些简单的断言,关于断言的讨论我们放在后面,这里先不加讨论。反斜线的最后一个用法是逆向引用。关于逆向引用,我们会在后面讨论逆向引用的部分来做进一步的讨论。我们已经看到,反斜线的众多用法,其中一些涉及到了以后才讲的内容。我们在模式中遇到反斜线时一定要注意它具体是哪一种用途以免疑惑。另外两个方括号也是非常重要的元字符,左方括号开始了一个字符类,右方括号结束之。单独一个右方括号不是特殊字符。字符类匹配目标中的一个字符,该字符必须是字符类定义的字符集中的一个;除非字符类中的第一个字符是音调符(^),此情况下目标字符必须不在字符类定义的字符集中。如果在字符类中需要音调符本身,则其必须不是第一个字符,或用反斜线转义。例如,[^A-Z]表式非大写字符。其它元字符我们会在以后的文章中结合相关内容介绍。在里,我们介绍了正则表达式的模式修正符与元字符,细心的读者也许会发现,这部分介绍的非常简略,而且很少有实际的例子的讲解。这主要是因为网上现有的正则表达式资料都对这部分都有详细的介绍和众多的例子,如果觉得对前一部分缺乏了解可以参看这些资料。本文希望可以尽可能多涉及一些较高级的正则表达式特性。在本文里,我们主要介绍子模式(subpatterns),逆向引用(Back references)和量词(quantifiers),其中重点介绍对这些概念的一些扩展应用,例如子模式中的非捕获子模式,量词匹配时的greedy与ungreedy。子模式(subpatterns)与逆向引用(Back references)正则表达式可以包含多个字模式,子模式由圆括号定界,可以嵌套。这也是两个元字符“(”和“)”的作用。子模式可以有以下作用:1.将多选一的分支局部化。例如,模式: cat(aract|erpillar|)匹配了"cat","cataract"或"caterpillar"之一,没有圆括号的话将匹配"cataract","erpillar"或空字符串。2.将子模式设定为捕获子模式(例如上面这个例子)。当整个模式匹配时,目标字符串中匹配了子模式的部分可以通过逆向引用进行调用。左圆括号从左到右计数(从1开始)以取得捕获子模式的数。注意,子模式是可以嵌套的,例如,如果将字符串"the red king"来和模式/the ((red|white) (king|queen))/进行匹配,捕获的子串为"red king","red"以及"king",并被计为1,2和3,可以通过“\1”,“\2”,“\3”来分别引用它们,“\1”包含了“\2”和“\3”,它们的序号是由左括号的顺序决定的。在一些老的linux/unux工具里,子模式使用的圆括号需要用反斜线转义,向这种\(subpattern\),但现代的工具已经不需要了,本文中使用的例子都不进行转义。在里,我们介绍了正则表达式的子模式,逆向引用和量词,在这篇文章里,我们将重点介绍正则表达式中的断言(Assertions)。断言(Assertions)断言(Assertions)是在目标字符串的当前匹配位置进行的一种测试但这种测试并不占用目标字符串,也即不会移动模式在目标字符串中的当前匹配位置。读起来似乎有点拗口,我们还是举几个简单的例子。两个最常见的断言是元字符“^”和“$”,它们检查匹配模式是否出现在行首或行尾。我们来看这个模式/^\d\d\d$/,试着用它来匹配目标字符串“123”。“\d\d\d”表示三个数字字符,匹配了目标字符串的三个字符,而模式中的^和$分别表示这三个字符同时出现在行首和行尾,而它们本身并不与目标字符串中的任何字符相对应。其它还有一些简单的断言\b, \B, \A, \Z, \z,它们都以反斜线开头,前面我们已经介绍过反斜线的这个用法。这几个断言的含义如下表。断言含义\b字分界线\B非字分界线\A目标的开头(独立于多行模式)\Z目标的结尾或位于结尾的换行符前(独立于多行模式)\z目标的结尾(独立于多行模式)\G目标中的第一个匹配位置注意这些断言不能出现在字符类中,如果出现了也是其它的含义,例如\b在字符类中表示反斜线字符0x08。前面介绍的这些断言的测试都是一些基于当前位置的测试,断言还支持更多复杂的测试条件。更复杂的断言以子模式方式来表示,它包括前向断言(Lookahead assertions)和后向断言(Lookbehind assertions)。前向断言(Lookahead assertions)前向断言从目标字符串的当前位置向前测试断言条件是否成立。前向断言又可分为前向肯定断言和前向否定断言,分别用(?=和{?!表示。例如模式/ \w+(?=;)/用来表示一串文本字符后面会有一个分号,但是这个分号并不包括在匹配结果中。一件有趣的事看起来差不多的模式/ (?=;)\w+/并不是表示一串前面不是分号的alpha字符串,事实上,不论这串alpha字符的前面是否是一个分号它总是匹配的,要完成这个功能需要我们下面提到的后向断言(Lookbehind assertions)。后向断言(Lookbehind assertions)后向断言分别用(?&=和(?&!表示肯定的后向断言与否定后向断言。例如,/&(?&!foo)bar/将寻找一个前面不是foo的bar字符串。一般而言,后向断言使用的子模式需要有确定的长度值,否则会产生一个编译错误。使用后向断言与一次性子模式搭配使用可以有效的文本的结束部分进行匹配,这里来看一下例子。考虑一下如果用/abcd$/这样一个简单的模式来匹配一长段以abcd结尾的文本,因为模式的匹配过程是从左向右进行的,正则表达式引擎将在文本中寻找每一个a字符并尝试匹配剩余的模式,如果在这长段文本里仅好有不少的a字符,这样做明显是非常低效的}

我要回帖

更多关于 正则表达式使用变量 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信