如何卷曲或wget一个网页?

我想做一个每晚的cron作业,获取我的stackoverflow页面,并从前一天的页面中区分出来,这样我就可以看到我的问题,答案,排名等的变更摘要。

不幸的是,我无法获得正确的cookie集合等,使其工作。有任何想法吗?

另外,测试完成后,我的状态页面可以在没有登录的情况下访问?

0
额外 编辑
意见: 1

5 答案

您的状态页面现在可以不登录(点击注销并尝试它)。当beta-cookie被禁用时,您和状态页面之间没有任何关系。

对于wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
0
额外

From Mark Harrison

这是什么工作...

     curl -s --cookie soba =。 https://stackoverflow.com/users

对于wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
0
额外

这是什么工作...

curl -s --cookie soba=. http://stackoverflow.com/users
0
额外

好主意 :)

我想你已经使用了wget的

--load-cookies (filename)

可能会有所帮助,但使用Mechanize(使用Perl或Python)可以更容易地模拟浏览器,以获得更好的蜘蛛。

0
额外

我无法弄清楚如何让cookie正常工作,但是当我退出时,我可以在浏览器中进入状态页面,所以我认为这将在一旦stackoverflow公开后生效。

这是一个有趣的想法,但是你不会也拿起底层HTML代码的差异吗?你有避免结束HTML的差异而不是实际内容的策略吗?

0
额外
如果我有时间,我会做一个美丽的汤(或更好的东西?)脚本很好地抓取数据,但现在我只是想出了我需要的文本。
额外 作者 Mark Harrison,