MySQL - 自然语言全文搜索



在我们深入了解自然语言全文搜索的概念之前,让我们先了解一下它的背景。如今,用于搜索的关键词可能并不总是与用户期望的结果完全匹配。因此,搜索引擎的设计重点是提高搜索相关性,以减少搜索查询和搜索结果之间的准确性差距。这样,结果将按照与搜索关键词最相关的顺序显示。

类似地,在像 MySQL 这样的关系数据库中,全文搜索是一种用于检索可能与搜索关键词不完全匹配的结果集的技术。全文搜索使用三种搜索模式:

  • 自然语言模式

  • 查询扩展模式

  • 布尔模式

自然语言全文搜索在 **IN NATURAL LANGUAGE** 模式下执行常规全文搜索。当在此模式下执行全文搜索时,搜索结果将按照它们与关键词的相关性顺序显示(根据该关键词执行搜索)。这是全文搜索的默认模式。

由于这是全文搜索,因此必须在基于文本的列(例如 CHAR、VARCHAR、TEXT 数据类型列)上应用 FULLTEXT 索引。FULLTEXT 索引是一种特殊的索引类型,用于搜索文本值中的关键词,而不是尝试将关键词与这些列值进行比较。

语法

以下是执行自然语言全文搜索的基本语法:

SELECT * FROM table_name WHERE MATCH(column_name(s)) AGAINST ('keyword_name' IN NATURAL LANGUAGE MODE);

示例

让我们通过以下示例了解如何在数据库表上执行自然语言全文搜索。

为此,我们将首先创建一个名为 **ARTICLES** 的表,其中包含文章的标题和描述。FULLTEXT 索引应用于文本列 **article_title** 和 **descriptions**,如下所示:

CREATE TABLE ARTICLES ( ID INT AUTO_INCREMENT NOT NULL PRIMARY KEY, ARTICLE_TITLE VARCHAR(100), DESCRIPTION TEXT, FULLTEXT (ARTICLE_TITLE, DESCRIPTION) ) ENGINE = InnoDB;

现在,让我们使用以下查询将有关文章的详细信息(例如它们的标题和描述)插入此表:

INSERT INTO ARTICLES (ARTICLE_TITLE, DESCRIPTION) VALUES ('MySQL Tutorial', 'MySQL is a relational database system that uses SQL to structure data stored'), ('Java Tutorial', 'Java is an object-oriented and platform-independent programming language'), ('Hadoop Tutorial', 'Hadoop is framework that is used to process large sets of data'), ('Big Data Tutorial', 'Big Data refers to data that has wider variety of data sets in larger numbers'), ('JDBC Tutorial', 'JDBC is a Java based technology used for database connectivity');

创建的表如下:

ID ARTICLE_TITLE DESCRIPTION
1 MySQL 教程 MySQL 是一种关系数据库系统,它使用 SQL 来组织存储的数据。
2 Java 教程 Java 是一种面向对象且与平台无关的编程语言。
3 Hadoop 教程 Hadoop 是一个用于处理大型数据集的框架。
4 大数据教程 大数据是指具有更大数量和更广泛种类的数据集的数据。
5 JDBC 教程 JDBC 是一种基于 Java 的技术,用于数据库连接。

使用自然语言模式在全文搜索中搜索与数据相关的文章记录,关键词为“数据集”。

SELECT * FROM ARTICLES WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('data set' IN NATURAL LANGUAGE MODE);

输出

以下是输出:

ID ARTICLE_TITLE DESCRIPTION
4 大数据教程 大数据是指具有更大数量和更广泛种类的数据集的数据。
1 MySQL 教程 MySQL 是一种关系数据库系统,它使用 SQL 来组织存储的数据。
3 Hadoop 教程 Hadoop 是一个用于处理大型数据集的框架。

如上所示,在表中存在的所有文章中,获得了三个与术语“数据集”相关的搜索结果,并按其相关性顺序排列。但请注意,关键词“数据集”在“MySQL 教程”文章记录中并非完全匹配,它仍然被检索到,因为 MySQL 也处理数据集。

自然语言全文搜索使用 tf-idf 算法,其中“tf”指词频,“idf”指逆文档频率。搜索指的是一个词在一个文档中的频率,以及该词出现在多少个文档中。但是,搜索通常会忽略某些词,例如字符数少于一定数量的词。InnoDB 忽略少于 3 个字符的词,而 MyISAM 忽略少于 4 个字符的词。这些词被称为停用词(the、a、an、are 等)。

示例

在下面的示例中,我们将在上面创建的 ARTICLES 表上执行简单的自然语言全文搜索。让我们看看停用词如何通过针对两个关键词“Big Tutorial”和“is Tutorial”进行搜索来影响全文搜索。

搜索“Big Tutorial”

以下查询在自然语言模式下针对关键词“Big Tutorial”执行全文搜索:

SELECT ARTICLE_TITLE, DESCRIPTION FROM ARTICLES WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('Big Tutorial' IN NATURAL LANGUAGE MODE);

输出

获得的输出为:

ARTICLE_TITLE DESCRIPTION
大数据教程 大数据是指具有更大数量和更广泛种类的数据集的数据。
MySQL 教程 MySQL 是一种关系数据库系统,它使用 SQL 来组织存储的数据。
Java 教程 Java 是一种面向对象且与平台无关的编程语言。
Hadoop 教程 Hadoop 是一个用于处理大型数据集的框架。
JDBC 教程 JDBC 是一种基于 Java 的技术,用于数据库连接。

搜索“is Tutorial”

以下查询在自然语言模式下针对关键词“is Tutorial”执行全文搜索:

SELECT ARTICLE_TITLE, DESCRIPTION FROM Articles WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('is Tutorial' IN NATURAL LANGUAGE MODE);

输出

获得的输出为:

ARTICLE_TITLE DESCRIPTION
MySQL 教程 MySQL 是一种关系数据库系统,它使用 SQL 来组织存储的数据。
Java 教程 Java 是一种面向对象且与平台无关的编程语言。
Hadoop 教程 Hadoop 是一个用于处理大型数据集的框架。
大数据教程 大数据是指具有更大数量和更广泛种类的数据集的数据。
JDBC 教程 JDBC 是一种基于 Java 的技术,用于数据库连接。

如上例所示,由于单词“Tutorial”出现在表格的所有记录中,因此在这两种情况下都会检索到所有记录。但是,相关性的顺序由指定的关键字的第二个单词决定。

在第一种情况下,由于“Big Data Tutorial”中存在单词“Big”,因此该记录首先被检索。在第二种情况下,结果集中的记录顺序与原始表格的顺序相同,因为单词“is”是停用词,所以被忽略。

Learn MySQL in-depth with real-world projects through our MySQL certification course. Enroll and become a certified expert to boost your career.

使用客户端程序进行自然语言全文搜索

我们还可以使用客户端程序在 MySQL 数据库上执行自然语言全文搜索操作。

语法

要通过 PHP 程序执行自然语言全文搜索,我们需要使用mysqli函数query()执行以下 SELECT 语句:

$sql = "SELECT * FROM Articles WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('data set' IN NATURAL LANGUAGE MODE)"; $mysqli->query($sql);

要通过 JavaScript 程序执行自然语言全文搜索,我们需要使用mysql2库的query()函数执行以下 SELECT 语句:

sql = `SELECT * FROM Articles WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('data set' IN NATURAL LANGUAGE MODE)`; con.query(sql);

要通过 Java 程序执行自然语言全文搜索,我们需要使用JDBC函数executeQuery()执行 SELECT 语句:

String sql = "SELECT * FROM Articles WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('data set' IN NATURAL LANGUAGE MODE)"; statement.executeQuery(sql);

要通过 Python 程序执行自然语言全文搜索,我们需要使用MySQL Connector/Pythonexecute()函数执行 SELECT 语句:

natural_language_search_query = 'SELECT * FROM Articles WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('data set' IN NATURAL LANGUAGE MODE)' cursorObj.execute(natural_language_search_query)

示例

以下是程序示例:

$dbhost = 'localhost'; $dbuser = 'root'; $dbpass = 'password'; $dbname = 'TUTORIALS'; $mysqli = new mysqli($dbhost, $dbuser, $dbpass, $dbname); if ($mysqli->connect_errno) { printf("Connect failed: %s", $mysqli->connect_error); exit(); } // printf('Connected successfully.'); $s = "SELECT * FROM Articles WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('data set' IN NATURAL LANGUAGE MODE)"; if ($r = $mysqli->query($s)) { printf("Table Records: \n"); while ($row = $r->fetch_assoc()) { printf(" ID: %d, Title: %s, Descriptions: %s", $row["id"], $row["ARTICLE_TITLE"], $row["DESCRIPTION"]); printf("\n"); } } else { printf('Failed'); } $mysqli->close();

输出

获得的输出如下所示:

Table Records:
ID: 4, Title: Big Data Tutorial, Descriptions: Big Data refers to data that has wider variety of data sets in larger numbers
ID: 1, Title: MySQL Tutorial, Descriptions: MySQL is a relational database system that uses SQL to structure data stored
ID: 3, Title: Hadoop Tutorial, Descriptions: Hadoop is framework that is used to process large sets of data   
var mysql = require("mysql2"); var con = mysql.createConnection({ host: "localhost", user: "root", password: "password", }); //Connecting to MySQL con.connect(function (err) { if (err) throw err; // console.log("Connected successfully...!"); // console.log("--------------------------"); sql = "USE TUTORIALS"; con.query(sql); //display the table details!... sql = `SELECT * FROM Articles WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('data set' IN NATURAL LANGUAGE MODE)`; con.query(sql, function (err, result) { if (err) throw err; console.log(result); }); });

输出

获得的输出如下所示:

We get the following output, after executing the above NodeJs Program.
[
  {
    id: 4,
    ARTICLE_TITLE: 'Big Data Tutorial',
    DESCRIPTION: 'Big Data refers to data that has wider variety of data sets in larger numbers'
  },
  {
    id: 1,
    ARTICLE_TITLE: 'MySQL Tutorial',
    DESCRIPTION: 'MySQL is a relational database system that uses SQL to structure data stored'
  },
  {
    id: 3,
    ARTICLE_TITLE: 'Hadoop Tutorial',
    DESCRIPTION: 'Hadoop is framework that is used to process large sets of data'
  }
]  
import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.Statement; public class NaturalLanguageSearch { public static void main(String[] args) { String url = "jdbc:mysql://127.0.0.1:3306/TUTORIALS"; String username = "root"; String password = "password"; try { Class.forName("com.mysql.cj.jdbc.Driver"); Connection connection = DriverManager.getConnection(url, username, password); Statement statement = connection.createStatement(); System.out.println("Connected successfully...!"); //displaying the fulltext records in the Natural language mode: ResultSet resultSet = statement.executeQuery("SELECT * FROM Articles WHERE MATCH(ARTICLE_TITLE, descriptions) AGAINST ('data set' IN NATURAL LANGUAGE MODE)"); while (resultSet.next()){ System.out.println(resultSet.getString(1)+" "+resultSet.getString(2)+ " "+resultSet.getString(3)); } connection.close(); } catch (Exception e) { System.out.println(e); } } }

输出

获得的输出如下所示:

Connected successfully...!
4 Big Data Tutorial Big Data refers to data that has wider variety of data sets in larger numbers
1 MySQL Tutorial MySQL is a relational database system that uses SQL to structure data stored
3 Hadoop Tutorial Hadoop is framework that is used to process large sets of data
import mysql.connector # Establishing the connection connection = mysql.connector.connect( host='localhost', user='root', password='password', database='tut' ) # Creating a cursor object cursorObj = connection.cursor() natural_language_search_query = ''' SELECT * FROM Articles WHERE MATCH(ARTICLE_TITLE, DESCRIPTION) AGAINST ('data set' IN NATURAL LANGUAGE MODE) ''' cursorObj.execute(natural_language_search_query) # Fetching all the results results = cursorObj.fetchall() # Display the result print("NATURAL LANGUAGE search results:") for row in results: print(row) cursorObj.close() connection.close()

输出

获得的输出如下所示:

NATURAL LANGUAGE search results:
(4, 'Big Data Tutorial', 'Big Data refers to data that has wider variety of data sets in larger numbers')
(1, 'MySQL Tutorial', 'MySQL is a relational database system that uses SQL to structure data stored')
(3, 'Hadoop Tutorial', 'Hadoop is framework that is used to process large sets of data')
广告