deepseek公布广度数据采集方法专利,可降低网络资源消耗

2025-4-2 话题分类:AI
摘要: 近日,deepseek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利公布。

 

天眼查财产线索信息显示,近日,deepseek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利公布。

 

摘要显示,本发明涉及数据采集领域,包括建立网页元信息库;确定每日调度单元下载配额及当日下载总额度;从网页元信息库中选取相应数量的链接,分配下载额度;下载过程控制;下载文本进行后处理及数据清洗后进入回灌队列,通过信息回灌实现网页元信息库更新。本发明的有益效果在于:发现尽可能多的网页链接,并减少对网站的流量冲击;对已经下载的内容进行分析,对未下载的连接进行质量推断,通过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据采集过程中网络资源的消耗;采用单独的信息回灌队列,保证网页元信息库修改操作的原子性和稳定性。

本文为“知顿平台”(https://www.zdone.com)投稿文章,作者:小北,责编:青青,转载请联系授权,并注明文章原始来源。如有疑问,请您联系我们。

0
好文章,需要你的鼓励
知顿slogan
2025-04-02 09:33:04
deepseek公布广度数据采集方法专利,可降低网络资源消耗

 

天眼查财产线索信息显示,近日,deepseek关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利公布。

 

摘要显示,本发明涉及数据采集领域,包括建立网页元信息库;确定每日调度单元下载配额及当日下载总额度;从网页元信息库中选取相应数量的链接,分配下载额度;下载过程控制;下载文本进行后处理及数据清洗后进入回灌队列,通过信息回灌实现网页元信息库更新。本发明的有益效果在于:发现尽可能多的网页链接,并减少对网站的流量冲击;对已经下载的内容进行分析,对未下载的连接进行质量推断,通过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据采集过程中网络资源的消耗;采用单独的信息回灌队列,保证网页元信息库修改操作的原子性和稳定性。

本文作者:小北

好文章,需要您的鼓励

知顿slogan
下一篇文章
推荐阅读