用于抓取网页或调用API(特别是iTunes)的最快服务?
我们需要每天下载所有iOS应用程序的元数据。 我们计划通过抓取iTunes网站和使用iTunessearchAPI来提取信息。 由于有700K +的应用程序,我们需要一个有效的方式来做到这一点。
一种方法是在EC2上build立一堆脚本并行运行。 在我们踏上这条道路之前,有没有像人们用来完成类似任务的服务? 本质上,我们希望能够帮助我们非常快地抓取成千上万个页面(或进行一堆API调用)。
您可能需要查看Apple的Enterprise Partner Feed(EPF) 。 这可能比获得一堆EC2机器或构build抓取基础架构来抓取数据要便宜得多。 从EFP描述本身:
Enterprise Partner Feed是来自iTunes和App Store的完整元数据集的数据馈送。 联盟合作伙伴可以将iTunes和App Store目录的各个方面完全纳入网站或应用程序。
EPF有两种进纸模式
iTunes以两种模式生成EPF数据:
完整模式
增量模式完整导出每周生成一次,包含截至当天的iTunes元数据的完整快照。 增量导出每天生成,包含自上次完全导出以来添加或修改的logging。 增量导出相对于它们所基于的完整导出而定位。
显然,当你想填充你的数据时,你会使用完整模式,那么你会使用增量的日常更新。
祝你好运。