如何使用Python和TensorFlow下载并探索伊利亚特数据集?


TensorFlow是由Google提供的机器学习框架。它是一个开源框架,与Python结合使用以实现算法、深度学习应用程序等等。它用于研究和生产目的。

可以使用以下代码行在Windows上安装“tensorflow”包:

pip install tensorflow

张量是TensorFlow中使用的数据结构。它有助于连接数据流图中的边。这个数据流图被称为“数据流图”。张量只不过是多维数组或列表。

它们可以使用三个主要属性来标识:

  • **秩** - 它表示张量的维度。可以理解为张量的阶数或已定义张量的维度数。

  • **类型** - 它表示与张量元素关联的数据类型。它可以是一维、二维或n维张量。

  • **形状** - 它是行数和列数的总和。

我们将使用伊利亚特数据集,其中包含威廉·考珀、爱德华(德比伯爵)和塞缪尔·巴特勒的三部译文的文本数据。该模型经过训练,可以根据给定的单行文本识别翻译者。使用的文本文件已经过预处理。这包括删除文档页眉和页脚、行号和章节标题。

我们使用Google Colaboratory运行以下代码。Google Colab或Colaboratory有助于通过浏览器运行Python代码,无需任何配置,并可免费访问GPU(图形处理单元)。协作工具构建在Jupyter Notebook之上。以下是代码片段:

示例

print("Loading the Illiad dataset")
DIRECTORY_URL = 'https://storage.googleapis.com/download.tensorflow.org/data/illiad/'
FILE_NAMES = ['cowper.txt', 'derby.txt', 'butler.txt']

print("Iterating through the name of the files")
for name in FILE_NAMES:
   text_dir = utils.get_file(name, origin=DIRECTORY_URL + name)

parent_dir = pathlib.Path(text_dir).parent
print("The list of files in the directory")
print(list(parent_dir.iterdir()))

代码来源 -  https://tensorflowcn.cn/tutorials/load_data/text

输出

Loading the Illiad dataset
Iterating through the name of the files
Downloading data from
https://storage.googleapis.com/download.tensorflow.org/data/illiad/cowper.txt
819200/815980 [==============================] - 0s 0us/step
Downloading data from
https://storage.googleapis.com/download.tensorflow.org/data/illiad/derby.txt
811008/809730 [==============================] - 0s 0us/step
Downloading data from
https://storage.googleapis.com/download.tensorflow.org/data/illiad/butler.txt
811008/807992 [==============================] - 0s 0us/step
The list of files in the directory
[PosixPath('/root/.keras/datasets/derby.txt'), PosixPath('/root/.keras/datasets/cowper.txt'),
PosixPath('/root/.keras/datasets/butler.txt')]
[ ]

解释

  • “tf.data.TextLineDataset”用于从文本文件加载示例。

  • “tf.text”用于预处理数据。

  • 首先,下载并探索数据集。

更新于:2021年1月19日

89 次浏览

启动您的职业生涯

完成课程后获得认证

开始
广告