如何使用 Python 和 TensorFlow 来准备包含 Stack Overflow 问题的的数据集?
TensorFlow 是 Google 提供的一个机器学习框架。它是一个开源框架,与 Python 结合使用,用于实现算法、深度学习应用程序等等。它被用于研究和生产目的。
可以使用以下代码行在 Windows 上安装“tensorflow”包:
pip install tensorflow
张量是 TensorFlow 中使用的一种数据结构。它有助于连接流图中的边。此流图称为“数据流图”。张量只不过是多维数组或列表。我们使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 帮助通过浏览器运行 Python 代码,并且无需任何配置即可免费访问 GPU(图形处理单元)。Colaboratory 建立在 Jupyter Notebook 之上。以下是代码片段:
示例
VOCAB_SIZE = 10000
print("The preprocessing of text begins")
binary_vectorize_layer = TextVectorization(
max_tokens=VOCAB_SIZE,
output_mode='binary')
MAX_SEQUENCE_LENGTH = 250
int_vectorize_layer = TextVectorization(
max_tokens=VOCAB_SIZE,
output_mode='int',
output_sequence_length=MAX_SEQUENCE_LENGTH)代码来源 - https://tensorflowcn.cn/tutorials/load_data/text
输出
The preprocessing of text begins
解释
使用“TextVectorization”层对数据进行标准化、标记化和矢量化。
标准化涉及预处理文本并删除标点符号和 HTML 元素。
标记化涉及通过拆分空格将句子拆分为单词。
矢量化涉及将标记转换为数字,以便在馈送到神经网络时可以理解。
二元模型使用词袋模型来构建模型。
广告
数据结构
网络
关系数据库管理系统
操作系统
Java
iOS
HTML
CSS
Android
Python
C 编程
C++
C#
MongoDB
MySQL
Javascript
PHP