Apache Solr - 添加文档 (XML)



在上一章中,我们解释了如何将JSON和.CSV文件格式的数据添加到Solr中。在本章中,我们将演示如何使用XML文档格式将数据添加到Apache Solr索引中。

示例数据

假设我们需要使用XML文件格式将以下数据添加到Solr索引中。

学生ID 名字 姓氏 电话 城市
001 Rajiv Reddy 9848022337 海德拉巴
002 Siddharth Bhattacharya 9848022338 加尔各答
003 Rajesh Khanna 9848022339 德里
004 Preethi Agarwal 9848022330 浦那
005 Trupthi Mohanty 9848022336 布巴内斯瓦尔
006 Archana Mishra 9848022335 钦奈

使用XML添加文档

要将上述数据添加到Solr索引中,我们需要准备一个XML文档,如下所示。将此文档保存到名为sample.xml的文件中。

<add> 
   <doc> 
      <field name = "id">001</field> 
      <field name = "first name">Rajiv</field> 
      <field name = "last name">Reddy</field> 
      <field name = "phone">9848022337</field> 
      <field name = "city">Hyderabad</field> 
   </doc>  
   <doc> 
      <field name = "id">002</field> 
      <field name = "first name">Siddarth</field> 
      <field name = "last name">Battacharya</field> 
      <field name = "phone">9848022338</field> 
      <field name = "city">Kolkata</field> 
   </doc>  
   <doc> 
      <field name = "id">003</field> 
      <field name = "first name">Rajesh</field> 
      <field name = "last name">Khanna</field> 
      <field name = "phone">9848022339</field> 
      <field name = "city">Delhi</field> 
   </doc>  
   <doc> 
      <field name = "id">004</field> 
      <field name = "first name">Preethi</field> 
      <field name = "last name">Agarwal</field> 
      <field name = "phone">9848022330</field> 
      <field name = "city">Pune</field> 
   </doc>  
   <doc> 
      <field name = "id">005</field> 
      <field name = "first name">Trupthi</field> 
      <field name = "last name">Mohanthy</field> 
      <field name = "phone">9848022336</field> 
      <field name = "city">Bhuwaeshwar</field> 
   </doc> 
   <doc> 
      <field name = "id">006</field> 
      <field name = "first name">Archana</field> 
      <field name = "last name">Mishra</field> 
      <field name = "phone">9848022335</field> 
      <field name = "city">Chennai</field> 
   </doc> 
</add>

您可以看到,编写的用于将数据添加到索引的XML文件包含三个重要的标签,即<add></add>,<doc></doc>和<field></field>。

  • add − 这是将文档添加到索引的根标签。它包含一个或多个要添加的文档。

  • doc − 我们添加的文档应该用<doc></doc>标签括起来。此文档包含字段形式的数据。

  • field − field标签包含文档字段的名称和值。

准备好文档后,您可以使用上一章中讨论的任何方法将此文档添加到索引中。

假设XML文件存在于Solr的bin目录中,并且它要索引到名为my_core的核心,那么您可以使用post工具将其添加到Solr索引中,如下所示:

[Hadoop@localhost bin]$ ./post -c my_core sample.xml

执行上述命令后,您将获得以下输出。

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-
core6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files 
org.apache.Solr.util.SimplePostTool sample.xml 
SimplePostTool version 5.0.0 
Posting files to [base] url https://127.0.0.1:8983/Solr/my_core/update... 
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,
xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log 
POSTing file sample.xml (application/xml) to [base] 
1 files indexed. 
COMMITting Solr index changes to https://127.0.0.1:8983/Solr/my_core/update... 
Time spent: 0:00:00.201

验证

访问Apache Solr Web界面的主页,然后选择核心my_core。尝试通过在文本区域q中传递查询“:”来检索所有文档并执行查询。执行后,您可以观察到所需数据已添加到Solr索引中。

Solr Index
广告