- Gensim 教程
- Gensim - 首页
- Gensim - 简介
- Gensim - 快速入门
- Gensim - 文档与语料库
- Gensim - 向量与模型
- Gensim - 创建词典
- 创建词袋 (BoW) 语料库
- Gensim - 变换
- Gensim - 创建 TF-IDF 矩阵
- Gensim - 主题建模
- Gensim - 创建 LDA 主题模型
- Gensim - 使用 LDA 主题模型
- Gensim - 创建 LDA Mallet 模型
- Gensim - 文档与 LDA 模型
- Gensim - 创建 LSI 和 HDP 主题模型
- Gensim - 开发词嵌入
- Gensim - Doc2Vec 模型
- Gensim 有用资源
- Gensim - 快速指南
- Gensim - 有用资源
- Gensim - 讨论
Gensim - 简介
本章将帮助您了解 Gensim 的历史和特性,以及其用途和优势。
什么是 Gensim?
Gensim = “Generate Similar” 是一个流行的开源自然语言处理 (NLP) 库,用于无监督主题建模。它使用顶尖的学术模型和现代统计机器学习来执行各种复杂的任务,例如:
- 构建文档或词向量
- 语料库
- 执行主题识别
- 执行文档比较(检索语义相似的文档)
- 分析纯文本文档的语义结构
除了执行上述复杂任务外,Gensim 使用 Python 和 Cython 实现,旨在通过数据流和增量在线算法处理大型文本集合。这使其不同于那些仅针对内存内处理的机器学习软件包。
历史
2008 年,Gensim 最初是一组用于捷克数字数学的各种 Python 脚本的集合。在那里,它用于生成与特定给定文章最相似的文章的简短列表。但在 2009 年,RARE Technologies Ltd. 发布了其初始版本。然后,在 2019 年 7 月,我们得到了其稳定版本 (3.8.0)。
各种特性
以下是 Gensim 提供的一些特性和功能:
可扩展性
Gensim 可以通过使用其增量在线训练算法轻松处理大型和网络规模的语料库。它本质上是可扩展的,因为不需要整个输入语料库在任何时间都完全驻留在随机存取内存 (RAM) 中。换句话说,其所有算法在语料库大小方面都是内存独立的。
健壮性
Gensim 本质上是健壮的,并且已被各种人员和组织在各种系统中使用了四年多。我们可以轻松插入我们自己的输入语料库或数据流。它也很容易扩展到其他向量空间算法。
平台无关性
众所周知,Python 是一种非常通用的语言,作为纯 Python 的 Gensim 可以在所有支持 Python 和 NumPy 的平台(如 Windows、Mac OS、Linux)上运行。
高效的多核实现
为了加快机器集群上的处理和检索速度,Gensim 提供了各种流行算法的高效多核实现,例如潜在语义分析 (LSA)、潜在狄利克雷分配 (LDA)、随机投影 (RP)、层次狄利克雷过程 (HDP)。
开源和丰富的社区支持
Gensim 采用 OSI 批准的 GNU LGPL 许可证,允许免费用于个人和商业用途。对 Gensim 做出的任何修改都会被开源,并且拥有丰富的社区支持。
Gensim 的用途
Gensim 已在超过一千个商业和学术应用程序中使用和引用。它也被各种研究论文和学生论文引用。它包括以下内容的流式并行实现:
fastText
fastText 使用神经网络进行词嵌入,是一个用于学习词嵌入和文本分类的库。它由 Facebook 的人工智能研究 (FAIR) 实验室创建。此模型基本上允许我们创建一个监督或无监督算法来获取单词的向量表示。
Word2vec
Word2vec 用于生成词嵌入,是一组浅层和两层神经网络模型。这些模型基本上经过训练以重建单词的语言上下文。
LSA(潜在语义分析)
它是自然语言处理 (NLP) 中的一种技术,允许我们分析一组文档及其包含的术语之间的关系。这是通过生成与文档和术语相关的一组概念来完成的。
LDA(潜在狄利克雷分配)
它是 NLP 中的一种技术,允许通过未观察到的组来解释观察集。这些未观察到的组解释了为什么数据的一些部分是相似的。这就是它是一个生成统计模型的原因。
tf-idf(词频-逆文档频率)
tf-idf 是信息检索中的一个数值统计量,反映了一个词对语料库中一篇文档的重要性。搜索引擎经常使用它来根据用户查询对文档的相关性进行评分和排名。它还可以用于文本摘要和分类中的停用词过滤。
所有这些都将在接下来的章节中详细解释。
优势
Gensim 是一个进行主题建模的 NLP 包。Gensim 的重要优势如下:
我们可能会在其他包(如‘scikit-learn’ 和‘R’)中获得主题建模和词嵌入的功能,但 Gensim 提供的构建主题模型和词嵌入的功能是无与伦比的。它还为文本处理提供了更方便的功能。
Gensim 的另一个最重要的优势是,它允许我们处理大型文本文件,即使不将整个文件加载到内存中。
Gensim 不需要昂贵的注释或文档的手动标记,因为它使用无监督模型。