Python程序提取字符串直到第一个非字母数字字符

Python字符串是表示信息或数据的字符序列。普通字符串可以包含用单引号或双引号括起来的各种字符，但字母数字字符串仅包含**数字**和**字母**。**字母数字**和**非字母数字**字符串都用于各种场景，包括密码保护、数据处理和验证、格式化等。

可以识别和提取特定的模式。我们还可以使用这些类型的字符串提供不同的组合。我们将根据这些字符串执行操作。我们的任务是提取字符串，直到遇到第一个非字母数字字符。

理解问题

在遇到非字母数字字符之前，我们必须从原始字符串中提取子字符串。让我们借助一个示例来理解这一点。

输入输出场景

让我们考虑一个包含以下值的字典：

Input: Inp_STR = "Sales18@22!Roam"

给定的字符串包含字母、数字和特殊字符。我们必须在遇到非字母数字字符时立即检索子字符串。

Output: Sales18

我们可以看到从原始字符串中返回了一个子字符串“Sales18”，因为在此之后遇到了一个非字母数字字符，即“@”。现在我们已经了解了问题陈述，让我们讨论一些解决方案。

使用迭代

这是一种基于提供的条件提取字符串的基本且更简单的方案。我们将传递一个字符串并创建一个新的变量，该变量将存储所有字母数字字符，即字母（大写和小写）和数字。在此之后，我们将遍历原始字符串并迭代每个字符。

我们将建立一个条件，该条件将检查原始字符串中的字符是否为字母数字。一旦遇到非字母数字字符，循环将中断并返回子字符串。

示例

以下是提取字符串直到第一个非字母数字字符的示例：

Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")

ExSTR = ""
alphaNum = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz1234567890"
for x in Inp_STR:
   if x not in alphaNum:
      break
   else:
      ExSTR += x
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")

输出

The original string is: Sales18@22Roam
The extracted string till 1st Non-Alphanumeric character: Sales18

使用正则表达式模块 + Search()

正则表达式模块或“re”模块是一个强大的编程工具，用于搜索和匹配模式。这些模式以唯一表达式的形式传递。使用此模块，我们将检测原始字符串中的非字母数字模式并检索第一次遇到的序列。我们使用“search()”函数搜索字符串中是否存在由表达式“\W+”表示的非字母数字模式。

“\W”表示非字母数字类，“+”设置非字母数字字符连续匹配的逻辑。“.start()”方法返回匹配子字符串的起始索引，此索引值将用于检索所需的子字符串。

示例

以下是一个示例：

import re
Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")

ExSTR = re.search(r"\W+", Inp_STR).start()
print(f"The 1st non-alphanumeric character is encountered at: {ExSTR}")
ExSTR = Inp_STR[ : ExSTR]

print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")

输出

The original string is: Sales18@22Roam
The 1st non-alphanumeric character is encountered at: 7
The extracted string till 1st Non-Alphanumeric character: Sales18

使用正则表达式模块 + Findall()

这是提取字符串直到遇到第一个非字母数字字符的另一种方案。在这种方案中，我们将使用re模块中的“findall()”函数查找由字母数字字符组成的子字符串的所有出现。

将获得匹配子字符串的列表，我们将使用“0”索引值检索第一个子字符串。我们将使用正则表达式：“[\dA-Za-z]*”，它表示连续出现零个或多个字母数字字符。

正则表达式符号“\d”匹配0到9之间的任何数字，“A-Z”匹配A到Z之间的任何大写字母，“a-z”匹配a到z之间的任何小写字母。

示例

以下是一个示例：

import re
Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")

ExSTR = re.findall(r"[\dA-Za-z]*", Inp_STR)[0]
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")

输出

The original string is: Sales18@22Roam
The extracted string till 1st Non-Alphanumeric character: Sales18

使用Isalnum()方法

在这种方案中，我们将迭代原始字符串中每个字符的索引，并建立一个条件，该条件将检查索引“x”处的字符是否不是字母数字。这是借助“isalnum()”方法完成的，该方法确定字符串的字母数字性质。在此之后，我们将使用列表切片提取字符串直到第一个字母数字字符。

示例

以下是一个示例：

Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")

for x in range(len(Inp_STR)):
   if not Inp_STR[x].isalnum():
      ExSTR = Inp_STR[:x]
      print(f"The 1st non-alphanumeric character is encountered at: {x}")
      break
   else:
      ExSTR = Inp_STR
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")

输出

The original string is: Sales18@22Roam
The 1st non-alphanumeric character is encountered at: 7
The extracted string till 1st Non-Alphanumeric character: Sales18

结论

在本文中，我们讨论了一些有效且优化的解决方案，用于在遇到第一个非字母数字字符时从字符串中提取子字符串。我们了解了简单和蛮力的解决方案以及高级和优化的解决方案。我们使用了正则表达式模块并使用了其“search()”和“findall()”函数来提取相关字符串。最后，我们讨论了另一个基于列表切片的解决方案，其中涉及使用“isalnum()”方法。

Devesh Chauhan

更新于： 2023年7月12日

329 次查看

开启你的职业生涯

通过完成课程获得认证

开始学习