- OpenNLP教程
- OpenNLP主页
- OpenNLP概述
- OpenNLP环境配置
- OpenNLP参考API
- OpenNLP句子检测
- OpenNLP分词
- 命名实体识别
- OpenNLP词性标注
- OpenNLP句法分析
- OpenNLP组块分析
- OpenNLP命令行界面
- OpenNLP有用资源
- OpenNLP快速指南
- OpenNLP有用资源
- OpenNLP讨论
OpenNLP概述
NLP是一套用于从自然语言来源(例如网页和文本文档)中提取有意义和有用信息的工具。
什么是OpenNLP?
Apache OpenNLP是一个开源的Java库,用于处理自然语言文本。您可以使用此库构建高效的文本处理服务。
OpenNLP提供诸如分词、句子分割、词性标注、命名实体提取、组块分析、句法分析和共指消解等服务。
OpenNLP的功能
以下是OpenNLP的一些显著功能:
命名实体识别 (NER) - OpenNLP支持NER,您可以使用它来提取位置、人物和事物的名称,即使在处理查询时也是如此。
摘要 - 使用摘要功能,您可以对段落、文章、文档或其集合进行NLP摘要。
搜索 - 在OpenNLP中,即使给定的单词被更改或拼写错误,也可以在给定的文本中识别给定的搜索字符串或其同义词。
标注 (词性标注) - NLP中的标注用于将文本划分为各种语法成分,以便进行进一步分析。
翻译 - 在NLP中,翻译有助于将一种语言翻译成另一种语言。
信息分组 - NLP中的此选项将文档内容中的文本信息分组,就像词性标注一样。
自然语言生成 - 它用于从数据库生成信息并自动化信息报告,例如天气分析或医疗报告。
反馈分析 - 正如其名称所示,NLP收集人们关于产品的各种反馈,以分析产品在赢得他们青睐方面取得的成功程度。
语音识别 - 虽然分析人类语音很困难,但NLP具有一些内置功能来满足此需求。
OpenNLP API
Apache OpenNLP库提供类和接口来执行各种自然语言处理任务,例如句子检测、分词、命名实体识别、词性标注、组块分析、句法分析、共指消解和文档分类。
除了这些任务之外,我们还可以为这些任务中的任何一个训练和评估我们自己的模型。
OpenNLP CLI
除了库之外,OpenNLP还提供命令行界面 (CLI),我们可以在其中训练和评估模型。我们将在本教程的最后一章详细讨论此主题。
OpenNLP模型
为了执行各种NLP任务,OpenNLP提供了一组预定义模型。此集合包括针对不同语言的模型。
下载模型
您可以按照以下步骤下载OpenNLP提供的预定义模型。
步骤1 - 通过点击以下链接打开OpenNLP模型的索引页面:http://opennlp.sourceforge.net/models-1.5/。
步骤2 - 访问给定链接后,您将看到各种语言的组件列表以及下载它们的链接。在这里,您可以获得OpenNLP提供的所有预定义模型的列表。
通过点击各自的链接,将所有这些模型下载到C:/OpenNLP_models/>文件夹。所有这些模型都依赖于语言,使用这些模型时,您必须确保模型语言与输入文本的语言匹配。
OpenNLP的历史
2010年,OpenNLP进入Apache孵化器。
2011年,Apache OpenNLP 1.5.2孵化版发布,同年毕业成为顶级Apache项目。
2015年,OpenNLP 1.6.0发布。