用于抓取网页或调用API(特别是iTunes)的最快服务?

我们需要每天下载所有iOS应用程序的元数据。 我们计划通过抓取iTunes网站和使用iTunessearchAPI来提取信息。 由于有700K +的应用程序,我们需要一个有效的方式来做到这一点。

一种方法是在EC2上build立一堆脚本并行运行。 在我们踏上这条道路之前,有没有像人们用来完成类似任务的服务? 本质上,我们希望能够帮助我们非常快地抓取成千上万个页面(或进行一堆API调用)。

您可能需要查看Apple的Enterprise Partner Feed(EPF) 。 这可能比获得一堆EC2机器或构build抓取基础架构来抓取数据便宜得多。 从EFP描述本身:

Enterprise Partner Feed是来自iTunes和App Store的完整元数据集的数据馈送。 联盟合作伙伴可以将iTunes和App Store目录的各个方面完全纳入网站或应用程序。

EPF有两种进纸模式

iTunes以两种模式生成EPF数据:

完整模式
增量模式

完整导出每周生成一次,包含截至当天的iTunes元数据的完整快照。 增量导出每天生成,包含自上次完全导出以来添加或修改的logging。 增量导出相对于它们所基于的完整导出而定位。

显然,当你想填充你的数据时,你会使用完整模式,那么你会使用增量的日常更新。

祝你好运。