说明
1、将数据模块类定义为Dataloader。
2、有核心变量data用于保存爬行数据和两个相关界面grab_data(爬数据)和save_data(将数据保存到当地)。
实例
grab_data() 的核心代码
defgrab_data(self): #获取入口链接 entries=self.get_entry() #通过对入口链接的分析获得文章链接 links=self.parse4links(entries) #遍历文章链接,对文章内容进行分析 datas=self.parse4datas(links) #将相关数据写入变量data self.data=pd.DataFrame(datas)
save_data() 的核心代码
defsave_data(self): #将变量data写入csv文件 self.data.to_csv(self.data_path,index=None)
我们已经爬行并保存了数据 data,数据以 DataFrame 形式存储,存储 csv 格式如下:
|---------------------------------------------------| |id|link|cont|title| |---------------------------------------------------| |pageid|pagelink|pagecontent|pagetitle| |---------------------------------------------------| |...|...|...|...| |---------------------------------------------------|
以上是定义python数据模块类的方法,希望对大家有所帮助。更多Python学习指南:python基础教程
本文教程操作环境:windows7系统Python 3.9.1,DELL G3电脑。