- Python - 文本处理
- Python - 文本处理入门
- Python - 文本处理环境
- Python - 字符串不变性
- Python - 排序行
- Python - 段落重新格式化
- Python - 统计段落中的词元
- Python - 二进制 ASCII 转换
- Python - 字符串作为文件
- Python - 反向读取文件
- Python - 过滤重复单词
- Python - 从文本中提取电子邮件
- Python - 从文本中提取 URL
- Python - 美化打印
- Python - 文本处理状态机
- Python - 首字母大写和翻译
- Python - 分词
- Python - 去除停用词
- Python - 同义词和反义词
- Python - 文本翻译
- Python - 单词替换
- Python - 拼写检查
- Python - WordNet 接口
- Python - 语料库访问
- Python - 词性标注
- Python - 块和块隙
- Python - 块分类
- Python - 文本分类
- Python - 二元语法
- Python - 处理 PDF
- Python - 处理 Word 文档
- Python - 读取 RSS Feed
- Python - 情感分析
- Python - 搜索和匹配
- Python - 文本处理
- Python - 文本换行
- Python - 频率分布
- Python - 文本摘要
- Python - 词干提取算法
- Python - 受限搜索
Python - 读取 RSS Feed
RSS(网站摘要)是一种用于传输定期更改的网络内容的格式。许多新闻相关的网站、网络日志和其他在线出版商将其内容作为 RSS Feed 传播给任何想要它的人。在 Python 中,我们借助以下包来读取和处理这些 Feed。
pip install feedparser
Feed 结构
在下面的示例中,我们获取 Feed 的结构,以便我们可以进一步分析我们想要处理的 Feed 的哪些部分。
import feedparser NewsFeed = feedparser.parse("https://timesofindia.indiatimes.com/rssfeedstopstories.cms") entry = NewsFeed.entries[1] print entry.keys()
运行上述程序后,我们将得到以下输出:
['summary_detail', 'published_parsed', 'links', 'title', 'summary', 'guidislink', 'title_detail', 'link', 'published', 'id']
Feed 标题和文章
在下面的示例中,我们读取 RSS Feed 的标题和摘要。
import feedparser NewsFeed = feedparser.parse("https://timesofindia.indiatimes.com/rssfeedstopstories.cms") print 'Number of RSS posts :', len(NewsFeed.entries) entry = NewsFeed.entries[1] print 'Post Title :',entry.title
运行上述程序后,我们将得到以下输出:
Number of RSS posts : 5 Post Title : Cong-JD(S) in SC over choice of pro tem speaker
Feed 详情
基于上述条目结构,我们可以使用如下所示的 Python 程序从 Feed 中提取必要的详细信息。由于条目是一个字典,我们利用它的键来产生所需的值。
import feedparser NewsFeed = feedparser.parse("https://timesofindia.indiatimes.com/rssfeedstopstories.cms") entry = NewsFeed.entries[1] print entry.published print "******" print entry.summary print "------News Link--------" print entry.link
运行上述程序后,我们将得到以下输出:
Fri, 18 May 2018 20:13:13 GMT ****** Controversy erupted on Friday over the appointment of BJP MLA K G Bopaiah as pro tem speaker for the assembly, with Congress and JD(S) claiming the move went against convention that the post should go to the most senior member of the House. The combine approached the SC to challenge the appointment. Hearing is scheduled for 10:30 am today. ------News Link-------- https://timesofindia.indiatimes.com/india/congress-jds-in-sc-over-bjp-mla-made-pro-tem-speaker-hearing-at-1030-am/articleshow/64228740.cms
广告