Java 正则表达式

     阅读:43

正则表达式

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @author ZHR
 * @version 1.0
 **/
public class regexp_01 {
    public static void main(String[] args) {

        String s = "由于在开发Oak语言时,尚且不存在运行字节码的硬件平台,所以为了在开发时可以对这种语言进行实验研究,他们就在已有的" +
                "硬件和软件平台基础上,按照自己所指定的规范,用软件建设了一个运行平台,整个系统除了比C++更加简单之外,没有什么大的区" +
                "别。1992年的夏天,当Oak语言开发成功后,研究者们向硬件生产商进行演示了Green操作系统、Oak的程序设计语言、类库和其" +
                "硬件,以说服他们使用Oak语言生产硬件芯片,但是,硬件生产商并未对此产生极大的热情。因为他们认为,在所有人对Oak语言" +
                "还一无所知的情况下,就生产硬件产品的风险实在太大了,所以Oak语言也就因为缺乏硬件的支持而无法进入市场,从而被搁置了下" +
                "来。\n" +
                "1994年6、7月间,在经历了一场历时三天的讨论之后,团队决定再一次改变了努力的目标,这次他们决定将该技术应用于" +
                "万维网。他们认为随着Mosaic浏览器的到来,因特网正在向同样的高度互动的远景演变,而这一远景正是他们在有线电视网中看" +
                "到的。作为原型,帕特里克·诺顿写了一个小型万维网浏览器WebRunner。";
        //1.\\d表示一个任意的数字
        String regStr = "(\\d\\d)(\\d\\d)";
        //2.创建模式对象[即正则表达式对象]
        Pattern pattern = Pattern.compile(regStr);
        //3.创建匹配器
        //说明:创建匹配器matcher,按照正则表达式的规则
        Matcher matcher = pattern.matcher(s);
        //4.开始匹配

        //matcher.find() 完成的任务

        //1.根据指定的规则,定位满足规则的子字符串(1998)
        //2.找到后,将子字符串的开始索引记录到matcher对象的属性int[] groups的groups[0]中,
        // 把子字符串的结束的索引+1的值记录到groups[1]
        //3.同时记录oldLast的值为groups[1],即下次执行find时,从oldLast开始匹配

        //什么是分组,比如(\\d\\d)(\\d\\d),正则表达式中有() 表示分组,第一个()表示第一组,第二个()表示第二组,以此类推
        //例如找到(19)(98)
        //则记录第一组()匹配到的字符 groups[2]=0 (第一组中1所在的下标) groups[3]=1+1=2 (第一组中9所在的下标加1)
        //则记录第二组()匹配到的字符 groups[4]=2 (第二组中9所在的下标) groups[5]=3+1=4 (第二组中8所在的下标加1)
        //调用时,matcher.group(1)和matcher.group(2)返回第一组和第二组截取的字符串

        //matcher.group(0)完成的任务
        //根据groups[0]和groups[1]记录的位置,截取子字符串,即[groups[0],groups[1])

        //如果正则表达式取出的组大于定义的组,则由于初始化groups为-1,会出现数组越界,建议查看源码

        while(matcher.find()){
            System.out.println("找到:"+matcher.group(0));
            System.out.println("找到第一组内容:"+matcher.group(1));
            System.out.println("找到第二组内容:"+matcher.group(2));
        }
    }
}

一.底层原理

(1).matcher.find() 完成的任务

1.根据指定的规则,定位满足规则的子字符串

2.找到后,将子字符串的开始索引记录到matcher对象的属性int[] groups的groups[0]中,
把子字符串的结束的索引+1的值记录到groups[1]

3.同时记录oldLast的值为groups[1],即下次执行find时,从oldLast开始匹配

(2)matcher.group(0)完成的任务

根据groups[0]和groups[1]记录的位置,截取子字符串,即[groups[0],groups[1])

(3)什么是分组,比如(\d\d)(\d\d),正则表达式中有() 表示分组,第一个()表示第一组,第二个()表示第二组,以此类推

例如找到(19)(98)

则记录第一组()匹配到的字符 groups[2]=0 (第一组中1所在的下标) groups[3]=1+1=2 (第一组中9所在的下标加1)

则记录第二组()匹配到的字符 groups[4]=2 (第二组中9所在的下标) groups[5]=3+1=4 (第二组中8所在的下标加1)

调用时,matcher.group(1)和matcher.group(2)返回第一组和第二组截取的字符串

即:matcher.group(0)表示匹配到的字符串,matcher.group(1)表示匹配到的第一组子字符串,matcher.group(2)表示匹配到的第二组子字符串…依此类推

二.正则表达式语法

(1)转义号\\

在检索特殊字符( .*+()$/?[]^{} )时,需要用到\\,否则报错

在java中,两个\\代表其他语言中一个\

(2)字符匹配符
在这里插入图片描述
在这里插入图片描述
\\w还可以匹配下划线

如何不指定大小写?
在这里插入图片描述
在这里插入图片描述
\\s匹配任何空白字符
\\S匹配任何非空白字符

(3)选择匹配符
在这里插入图片描述
(4)限定符
在这里插入图片描述
在这里插入图片描述
Java匹配是贪婪匹配,即尽可能匹配多的
非贪婪匹配,在限定符后面加一个 ?

(5)定位符
在这里插入图片描述
\\b边界可能是字符串最后,也可以是空格的字符串子串的后面

(6)分组
在这里插入图片描述
演示代码:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @author ZHR
 * @version 1.0
 **/
public class regexp_04 {
    public static void main(String[] args) {
        //非命名捕获
//        String content = "zhrzhr s7789 nn1189n";
//        String regStr = "(\\d\\d)(\\d\\d)";
//
//        Pattern pattern = Pattern.compile(regStr);
//        Matcher matcher = pattern.matcher(content);
//
//        while(matcher.find()){
//            System.out.println(matcher.group(0));
//            System.out.println("第一个分组为:"+matcher.group(1));
//            System.out.println("第二个分组为:"+matcher.group(2));
//        }



        //命名捕获
        String content = "zhrzhr s7789 nn1189n";
        String regStr = "(?<g1>\\d\\d)(?<g2>\\d\\d)";

        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);

        while(matcher.find()){
            System.out.println(matcher.group(0));
            //可以用非命名捕获的内容,也可以通过名字来获取
            System.out.println("第一个分组为:"+matcher.group("g1"));
            System.out.println("第二个分组为:"+matcher.group("g2"));
        }
    }
}

非捕获分组
在这里插入图片描述
举例:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @author ZHR
 * @version 1.0
 **/
public class regexp_05 {
    public static void main(String[] args) {
        //找吃火锅 吃麻辣烫 吃烧烤中的子串 (?:... )
        String content = "吃火锅 吃麻辣烫 吃烧烤";
        String regStr = "吃(?:火锅|麻辣烫|烧烤)";

//        Pattern pattern = Pattern.compile(regStr);
//        Matcher matcher = pattern.matcher(content);
//
//        while(matcher.find()){
//            System.out.println(matcher.group(0));
//        }

        //找吃火锅 吃麻辣烫中的吃 (?= ...)
//        regStr = "吃(?=火锅|麻辣烫)";
//        Pattern pattern = Pattern.compile(regStr);
//        Matcher matcher = pattern.matcher(content);
//
//        while(matcher.find()){
//            System.out.println(matcher.group(0));
//        }

        //找吃这个关键字,但是找不是吃火锅中的吃 (?!... )
        regStr = "吃(?!火锅)";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);

        while(matcher.find()){
            System.out.println(matcher.group(0));
        }
    }
}

三.正则表达式常用类

在这里插入图片描述

1.Pattern.matcher(regStr,content)是整体验证,常用方法,返回Boolean值

2.Pattern常用方法
在这里插入图片描述
注意:end()是最后元素的下标加1

3.Matcher常用方法
在这里插入图片描述
注意:replaceAll("…")返回的才是替换后的字符串,原字符串不变

四.反向引用

在这里插入图片描述
举例

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @author ZHR
 * @version 1.0
 **/
public class regexp_09 {
    public static void main(String[] args) {
        //判断是否是4位回文数字
//        String content = "1221";
//        String regStr = "(\\d)(\\d)\\2\\1";
//
//        Pattern pattern = Pattern.compile(regStr);
//        Matcher matcher = pattern.matcher(content);
//
//        if(matcher.find()){
//            System.out.println(matcher.group(0));
//        }

        String content = "12321-333999111";
        String regStr = "\\d{5}-(\\d)\\1\\1(\\d)\\2\\2(\\d)\\3\\3";

        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);

        if(matcher.find()){
            System.out.println(matcher.group(0));
        }

    }
}

我…我要…学学学习习Java 变为 我要学习Java

import java.util.regex.Pattern;

/**
 * @author ZHR
 * @version 1.0
 **/
public class exercise_03 {
    public static void main(String[] args) {
        String str = "我...我要...学学学习习Java";
        //先去除.
        str = Pattern.compile("\\.").matcher(str).replaceAll("");
        //再去除重复的字
        str = Pattern.compile("(.)\\1+").matcher(str).replaceAll("$1");
        System.out.println(str);
    }
}

验证电子邮件是否合法

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @author ZHR
 * @version 1.0
 **/
public class exercise_04 {
    public static void main(String[] args) {
        //验证电子邮件是否合法

        String content = "1184524381@qq.org.com";
        String regStr = "^\\w+@([a-zA-Z]+\\.)+[a-zA-Z]+$";

        //这里使用String的match方法,整体匹配正则表达式
        if(content.matches(regStr)){
            System.out.println("匹配成功");
        }else{
            System.out.println("匹配失败");
        }
    }
}