摘要:C#源码,网络相关,多线程,采集程序
C#多线程新闻采集源代码,通过程序,可实现几乎所有网页的新闻抓龋根据DataSourceID,获取Gather_DataSourceConfig实体类,根据实体类中的网页采集地址url,获取网页源代码str开始进行处理:
第一步:根据DataSourceID,基本配置ID=1(信息列表配置),获取信息列表的详细配置Dataset,写成通用函数
第二步:根据信息列表的详细配置Dataset,网页源代码Str,对Str进行解析,返回str
第三步:根据DataSourceID,基本配置ID=2(单个信息Url配置),获取每个新闻信息的Url地址,并保存至Dataset2
第四步:循环解析Dataset2,根据单个信息的Url获取该条新闻信息的网页源代码ArticleStr
根据获取的网页源代码ArticleStr,获取文章标题、说明、正文内容。将文章标题、说明、内容存储至数据库中,另有数据库操作类,删除信息类别的同时,遍历其下分的各个信息子类,同时删除信息子类的数据源和采集周期,此处需要修改。