如何以文本格式从 HTML 标签中提取文本?


HTML 文件中提取文本的行为,基本上等同于将网站内容复制粘贴到记事本中。这听起来很简单,但如果你需要从数百万个 HTML 文件(网页)中提取文本,那就不会那么轻松愉快了。

让我们深入了解这篇文章,以便更好地理解如何以文本格式从HTML 标签 中提取文本。

从 HTML 标签中提取文本

许多HTML 元素 可用于赋予文本特定的含义。为了更好地理解如何以文本格式从 HTML 标签中提取文本,让我们看看下面的例子。

示例

在下面的示例中,我们运行脚本从 HTML 标签中提取文本。

<!DOCTYPE html>
<html>
   <body>
      <script>
         function gettext(html){
            var tempDivElement = document.createElement("div");
            tempDivElement.innerHTML = html;
            return tempDivElement.textContent || tempDivElement.innerText || "";
         }
         var sentence= "<div><h1>Welcome to Tutorialspoint</h1></div>";
         document.write(gettext(sentence));
      </script>
   </body>
</html>

脚本执行后,它将生成一个包含从上述脚本获得的数据的输出,并将其显示在网页上。

示例

考虑下面的示例,我们运行脚本从 HTML 标签获取文本。

<!DOCTYPE html>
<html>
   <body>
      <script>
         var statement= "<div><h1>TutorialsPoint</h1>
<p> is the Best E-Learning</p></div>"; var result = statement.replace(/<[^>]+>/g, ''); document.write(result) </script> </body> </html>

运行上述脚本后,将弹出输出窗口,其中包含运行脚本后从网页中提取的文本。

更新于:2023年11月23日

1K+ 次浏览

开启你的职业生涯

完成课程获得认证

开始学习
广告