“如果您正在设置动态报告或构建自己的工具,类似变更检测的功能,这样当目标 HTML 的 X% 发生变化时,您就会收到警报,这可能会使您的 Xpath 无效。另一方面,通过公共 HTTP GET 请求或 XHR 解析私有 API 凭据/身份验证的现象非常普遍 — 认真地说,如果网站不希望在公共域中访问这些内容,就需要开始锁定这些内容。” - Dan Butler
“降低抓取速度很重要。我说的甚至不是 Google 抓取。我说的是抓 skype 电话号码数据取其他人的网站。我一直对大多数网站技术堆栈的优化程度之差感到惊讶。如果你开始以每秒一页的速度抓取,你实际上可能会减慢或崩溃一个价值数百万美元的网站。我们曾经以每秒一页的速度抓取客户的网站,导致其网站崩溃——他们是一家财富 1000 强公司。这很荒谬,但这种情况发生的频率比你想象的要高。此外,如果你没有将抓取程序设计为检测和避开蜘蛛网,你最终可能会抓取 250,000 页纯粹重复的垃圾。这是对服务器资源的浪费。一旦你发现一个无限扩展的 URL 或其他问题,就将你的抓取程序向前移动。—— Ian Lowry
“我现在面临的最大劣势是,很多网站都使用 JavaScript 提供内容,而标准的基于文本的爬虫并不总是能解决问题。我经常使用无头浏览器进行爬取。我最喜欢的 PhantomJS 抽象是 NightmareJS,因为它快速而简单,所以我使用它。另一件事是,有时人们的代码太糟糕了,没有结构,所以你必须抓住一切并组织起来。” – Mike King