使用正则表达式从较长字符串中提取单引号括起来的字符串的 Java 程序


正则表达式正则表达式 是一种用于模式匹配和字符串操作的语言。它由一系列定义搜索模式的字符组成,可用于执行搜索、替换甚至验证文本输入等操作。正则表达式由一系列字符和符号组成,这些字符和符号构成一个搜索模式。

在本文中,我们将了解如何编写一个 Java 程序,使用正则表达式从较长字符串中提取用单引号括起来的字符串。

Java 通过java.util.regex 包提供对正则表达式的支持。Pattern 类表示已编译的正则表达式,Matcher 类可用于将模式与给定的输入字符串进行匹配。

问题陈述

编写一个 Java 程序,使用正则表达式从较长字符串中提取一个或多个用单引号括起来的子字符串。该程序应能够处理此类子字符串的单次和多次出现。

输入

input = "This is a 'single quote' enclosed string"

输出

single quote

用单引号括起来的单个子字符串

以下是使用正则表达式从较长字符串中提取用单引号括起来的字符串的步骤:

  • 导入必要的类。
  • 声明一个包含输入文本的字符串变量。
  • 我们将通过使用Pattern.compile() 方法创建一个正则表达式模式,以定义匹配单引号内文本的正则表达式模式。
  • 通过使用Pattern.matcher() 方法和输入字符串实例化 Matcher 对象来创建 Matcher 对象。
  • 通过使用find() 方法在输入字符串中搜索模式。如果找到,则使用 group(1) 方法提取子字符串。
  • 打印提取的子字符串。

示例

在下面的示例中,我们将首先定义输入字符串以及我们要匹配的正则表达式模式。模式 '(_+?)' 匹配单引号内任意字符序列,而部分 _*? 匹配任意字符 0 次或多次,但尽可能少地匹配,以便允许其余模式匹配。

然后,我们从模式创建一个 Matcher 对象,以使用 find 方法将其应用于输入字符串。如果模式匹配,我们使用group() 方法和参数 1 提取匹配的字符串,该参数代表模式中的第一个捕获组。这是此方法的缺点,因为它不会捕获所有用单引号括起来的子字符串组。

import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class StringExtractor {
   public static void main(String[] args) {
      String input = "This is a 'single quote' enclosed string";
      Pattern pattern = Pattern.compile("'(.*?)'");
      Matcher matcher = pattern.matcher(input);
        
      if (matcher.find()) {
         String extractedString = matcher.group(1);
         System.out.println(extractedString);
      }
   }
}

输出

single quote

多个用单引号括起来的子字符串

以下是使用正则表达式从较长字符串中提取用单引号括起来的字符串的步骤:

  • 导入必要的类。
  • 声明一个包含输入文本的字符串变量。
  • 使用Pattern.compile()定义匹配单引号内文本的正则表达式模式。
  • 使用输入字符串实例化 Matcher 对象。
  • 创建一个列表以存储所有匹配的子字符串。
  • 使用 while 循环使用find() 方法查找输入字符串中的所有匹配项。使用 group(1) 提取每个匹配项并将其添加到列表中。
  • 遍历列表并打印每个提取的子字符串。

示例

上述方法有一个主要的缺点,即它过于简单,无法从输入字符串中提取多个用单引号括起来的子字符串,并且只提取了第一次出现的子字符串。这是先前方法的更新和高级版本,因为它能够提取多次出现的子字符串。我们使用 while 循环进行迭代并继续搜索匹配项,直到输入字符串中没有匹配项为止。matches 列表用于存储所有提取的字符串,并由该方法返回。main 方法演示了如何使用更新的extractStringsWithRegex() 方法提取所有用单引号括起来的字符串。

import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.ArrayList;
import java.util.List;
public class StringExtractor {    
   public static List<String> extractStringsWithRegex(String input) {
      // This function takes string as input, iterates over to search for regex matches
      // and stores them in a List named matches which is finally returned in the end
      Pattern pattern = Pattern.compile("'(.*?)'");
      Matcher matcher = pattern.matcher(input);
      List<String> matches = new ArrayList<>();
      while (matcher.find()) {
         matches.add(matcher.group(1));
      }
      return matches;
   }   
   public static void main(String[] args) {
      String input = "This is a 'test' string with 'multiple' 'single quote' enclosed 'words'";
      List<String> matches = extractStringsWithRegex(input);
      for (String match : matches) {
         System.out.println(match);
      }
   }
}

输出

test
multiple
single quote
words

使用正则表达式从较长字符串中提取用单引号括起来的字符串的 Java 程序具有一些优点和缺点,如下所示。

优点

  • 正则表达式功能强大,允许匹配用单引号括起来的字符串,甚至可以匹配更复杂的模式。

  • Matcher 类为我们提供了更多用于处理匹配字符串的方法,例如查找匹配项的起始和结束索引。

缺点

  • 与其他方法相比,编写和理解正则表达式可能更难理解。

  • 与其他方法相比,正则表达式可能较慢,尤其是在处理大型输入字符串或复杂模式时。

结论

有多种方法可以提取用单引号括起来的字符串,最常见的方法是正则表达式、split()substring() 方法。正则表达式是一个功能强大且灵活的选项,尤其是在处理复杂模式时,尽管对于大型字符串来说它可能较慢。Pattern 类定义正则表达式模式,而Matcher 类将其应用于输入字符串并提取匹配的文本。正则表达式广泛用于验证用户输入和操作文本等任务,但务必仔细设计和测试模式以有效地处理所有边缘情况。

更新于:2024-09-16

984 次浏览

启动你的 职业生涯

通过完成课程获得认证

开始学习
广告