如何使用 Python 和 TensorFlow 配置 Stack Overflow 问题数据集?


TensorFlow 是 Google 提供的一个机器学习框架。它是一个开源框架,与 Python 结合使用以实现算法、深度学习应用程序等等。它用于研究和生产目的。它具有优化技术,有助于快速执行复杂的数学运算。这是因为它使用了 NumPy 和多维数组。这些多维数组也称为“张量”。

该框架支持使用深度神经网络。它具有高度可扩展性,并附带许多流行的数据集。它使用 GPU 计算并自动管理资源。它附带大量机器学习库,并且得到良好的支持和记录。该框架能够运行深度神经网络模型,训练它们,并创建预测相应数据集相关特征的应用程序。

可以使用以下代码行在 Windows 上安装“tensorflow”包:

pip install tensorflow

张量是 TensorFlow 中使用的数据结构。它有助于在流程图中连接边。这个流程图称为“数据流图”。张量只不过是多维数组或列表。可以使用三个主要属性来识别它们:

  • - 它说明了张量的维度。可以理解为张量的阶数或已定义的张量中的维度数。

  • 类型 - 它说明了与张量元素关联的数据类型。它可以是一维、二维或 n 维张量。

  • 形状 - 它是行数和列数的总和。

我们正在使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 帮助在浏览器上运行 Python 代码,并且无需任何配置即可免费访问 GPU(图形处理单元)。Colaboratory 基于 Jupyter Notebook 构建。

示例

以下是代码片段:

AUTOTUNE = tf.data.experimental.AUTOTUNE
print("The configure_dataset method is defined")
def configure_dataset(dataset):
   return dataset.cache().prefetch(buffer_size=AUTOTUNE)

print("The function is called on training dataset")
binary_train_ds = configure_dataset(binary_train_ds)
print("The function is called on validation dataset")
binary_val_ds = configure_dataset(binary_val_ds)
print("The function is called on test dataset")
binary_test_ds = configure_dataset(binary_test_ds)

int_train_ds = configure_dataset(int_train_ds)
int_val_ds = configure_dataset(int_val_ds)
int_test_ds = configure_dataset(int_test_ds)

代码来源 - https://tensorflowcn.cn/tutorials/load_data/text

输出

The configure_dataset method is defined
The function is called on training dataset
The function is called on validation dataset
The function is called on test dataset

解释

  • 定义两种方法以确保在加载数据时输入或输出不会阻塞非常重要。

  • “cache”方法即使在从磁盘加载数据后也会将其保存在内存中。

  • 这确保了数据在训练过程中不会成为障碍。

  • “prefetch”方法在训练过程中重载数据预处理和模型执行。

更新于: 2021年1月18日

98 次查看

开启你的 职业生涯

通过完成课程获得认证

立即开始
广告

© . All rights reserved.