程序自动获取指定论文集中每篇論文在谷歌学术上的被引用数
利用HttpClient(.hk/scholar?hl=zh-CN&q=$title 获取单篇论文的HTML页面,再解析页面得到其被引用数基本的模拟过程考虑了浏览器信息和CookiePolicy的设置,以忣每两次访问之间的间隔(间隔为一个固定值+一个随机数的和大约在2s~3s)。
3、问题 访问数次后持续返回503状态码(503 Service Unavailable),成功次数不超过30次;并且一旦访问失败程序方式会被禁用相当长的一段时间,而浏览器访问正常
4、求助 由于实验需要大批论文的谷歌学术被引用数,通過人工浏览器检索的方式不可行所以,希望有经验的大神能帮忙支招突破谷歌学术的这层限制短期内能有效地批量获取到谷歌学术被引用数即可!
PS:新手不知放哪,暂且放在Java中吧