Classical · Cycling · Code

利用Python解析新浪博客javascript生成的评论

【前言】sina2wordpress终于有一个大概模样了，目前版本号为0.1
这是本站项目地址，这是代码托管地址

言归正传，目前新浪博客的评论是用JavaScript生成的，直接用urllib2读取的信息中没有评论信息

通过Firefox下的firebug或者Chrome自带的Develop Tools，都可以找到js脚本在运行时GET的数据，具体方法是：打开之后选择“Network”标签，并选择“XHR”分类项，刷新页面并等待加载完成，稍等一会就会看到GET了一条以“comment”开头的html页面。

主要规律是，例如韩寒同学的这篇日志地址是 “http://blog.sina.com.cn/s/blog_4701280b0101854o.html”，那么打开日志页面时GET的就会是 “comment_4701280b0101854o_1.html”，规律不难发现，后面的那个数字就是评论的页数，最后的那个页数可以变为任意整数（没有尝试过上限），当超过实际评论页数时，显示的会是同样的编码，这也就是循环结束条件

此地址为相对路径，打开后是一堆乱码，这就是JavaScript的数据存储形式——json编码。可以简单的类比成Python中的字典，本例中共有两个关键字，一个是“Code”，对应值”A00006″，没发现啥用处，第二个关键字是“data”，其余部分均为data的对应值，利用Python的json模块进行解析可以发现，这就是评论的html代码。不过这里需要注意的是，第二个关键字“data”缺少双引号，直接解析会报错，需要先进行字符串处理，然后再解析。

相关代码如下（完整代码可以参见前言中的代码托管地址）：
[python]
#根据json解析之后的html代码总结出来的各个关键信息的正则表达式
comment_author_pattern=re.compile(r’(.*?)‘)
comment_url_pattern=re.compile(r’(.*?)‘)
comment_time_pattern=re.compile(r’(.*?)‘)
comment_content_pattern=re.compile(r’

(.*?)

‘, re.S) #这里的re.S很重要

def commentsAnalyze(key): #key为地址中间的标识性字符串
num=1 #表示评论的页数
url=r’http://blog.sina.com.cn/s/comment_%s_%d.html’ %(key, num) #生成json编码对应的地址
page=urllib2.urlopen(url).read().replace(‘data:’,’”data”:’,1) #给data添加双引号
while not ‘noCommdate’ in page: #noCommdata是无评论json编码页面的关键字
data=json.loads(page)[‘data’] #最关键的一部，json代码的解析并有效部分

#通过正则匹配出相关信息，其中url是可能存在的，将稍后处理
author=comment_author_pattern.findall(data)
url=[]
time=comment_time_pattern.findall(data)
content=comment_content_pattern.findall(data)

#后处理url，判断前面提取出来的author周边是不是带有标签（超链接）即可
for i in range(len(author)):
comment_id+=1
result=comment_url_pattern.search(author[i])
if result:
url.append(result.group(1))
author[i]=result.group(2)
else: url.append(”)

num+=1 #评论页数+1
url=r’http://blog.sina.com.cn/s/comment_’+key+’_’+str(num)+’.html’ #生成新的页面地址
page=urllib2.urlopen(url).read().replace(‘data:’,’”data”:’,1) #修正data的双引号，重复循环
[/python]

【后记】感谢 @lqs 学长和北航开源俱乐部BHOSC的同胞们在此问题上给予的帮助

July 8, 2011

Xuan Hu

Just about Code

JavaScript, json, Python, Sina2WordPress, wordpress

4 responses to “利用Python解析新浪博客javascript生成的评论”

艳文 says:

07/09/2011 at 13:31

看到我都晕乎乎的。。。。。我对代码都有恐惧感

Reply
Shane.Hu says:

07/09/2011 at 14:35

@艳文 python我也是新人～

Reply
lyxint says:

07/16/2011 at 21:27

话说我最近用PHP写抓站, 都是用用explode和implode的… 纠结死了

Reply
Shane.Hu says:

07/17/2011 at 14:10

@lyxint 我这代码也好久没碰了，最近准备看看多线程的东西。

Reply

利用Python解析新浪博客javascript生成的评论

4 responses to “利用Python解析新浪博客javascript生成的评论”

Leave a Reply Cancel reply