不会飞的鸟

2010年12月10日 ... 不鸟他们!!! 我要用自己开发的分布式文件系统、分布式调度系统、分布式检索系统, 做自己的搜索引擎!!!大鱼有大志!!! ---杨书童

[转]新浪微博 爬取实现之微博登录

最近做一个东西,需要抓取新浪微博的微话题,新浪微博api有所限制所以就没用新浪微博api了,想直接的从网页上获取内容,但微博的很多网页都需要登录后才能浏览的,所以做了个新浪微博的登录功能,基本需要的功能实现了,但并不健全。

对于新浪微博的页面是要用户登录之后才能进入的,如http://weibo.com/pub/topic,那么爬虫也必须登录上新浪微博才能爬取内容,在这里实现下新浪微博的登录功能,到现在还有一些问题没解决,但可以实现必须登录后才能进入的页面的文本捕获了。

先分析下微博登录提交的内容,新浪微博主页登录向服务器提交的是使用POST的,post附带的参数有


entry:weibo
gateway:1
from:
savestate:7
useticket:1
ssosimplelogin:1
vsnf:1
vsnval:
su:NDY0Mjg5NTg4JTQwcXEuY29t
service:miniblog
servertime:1321269451
nonce:HGE0XB 
pwencode:wsse
sp:a3135915db1b5d15a47a43e550d89e1499a26a9b
encoding:UTF-8
url:http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack
returntype:META

  在这些参数中su是用户的用户名使用base64编码的;servertime是该动作的开始时间,nonce是随机产生的6为随机数,pwencode:wsse应该指的是密码格式的编码了,sp是密码的通过编码后的形式。对于我现在的应用只需要这几个参数就好了。

接着分析下这些参数吧:

request.su=sinaSSOEncoder.base64.encode(urlencode(username));

  用户名通过了urlencode和base64编码后才提交的;

servertime在哪里忘记了,通过获取时间/1000就可以得到servertime了;

var makeNonce=function(len){var x="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";var str="";for(var i=0;i<len;i++){str+=x.charAt(Math.ceil(Math.random()*1000000)%x.length)}return str};

  nonce参数是上面函数得到的;

sp的得到就相对比较麻烦一些,是通过password,servertime,nonce 共同编码后得到的数据;使用的编码函数是

var sinaSSOEncoder=sinaSSOEncoder||{};(function(){var i=0;var g=8;this.hex_sha1=function(j){return h(b(f(j),j.length*g))};var b=function(A,r){A[r>>5]|=128<<(24-r%32);A[((r+64>>9)<<4)+15]=r;var B=Array(80);var z=1732584193;var y=-271733879;var v=-1732584194;var u=271733878;var s=-1009589776;for(var o=0;o<A.length;o+=16){var q=z;var p=y;var n=v;var m=u;var k=s;for(var l=0;l<80;l++){if(l<16){B[l]=A[o+l]}else{B[l]=d(B[l-3]^B[l-8]^B[l-14]^B[l-16],1)}var C=e(e(d(z,5),a(l,y,v,u)),e(e(s,B[l]),c(l)));s=u;u=v;v=d(y,30);y=z;z=C}z=e(z,q);y=e(y,p);v=e(v,n);u=e(u,m);s=e(s,k)}return Array(z,y,v,u,s)};var a=function(k,j,m,l){if(k<20){return(j&m)|((~j)&l)}if(k<40){return j^m^l}if(k<60){return(j&m)|(j&l)|(m&l)}return j^m^l};var c=function(j){return(j<20)?1518500249:(j<40)?1859775393:(j<60)?-1894007588:-899497514};var e=function(j,m){var l=(j&65535)+(m&65535);var k=(j>>16)+(m>>16)+(l>>16);return(k<<16)|(l&65535)};var d=function(j,k){return(j<<k)|(j>>>(32-k))};var f=function(m){var l=Array();var j=(1<<g)-1;for(var k=0;k<m.length*g;k+=g){l[k>>5]|=(m.charCodeAt(k/g)&j)<<(24-k%32)}return l};var h=function(l){var k=i?"0123456789ABCDEF":"0123456789abcdef";var m="";for(var j=0;j<l.length*4;j++){m+=k.charAt((l[j>>2]>>((3-j%4)*8+4))&15)+k.charAt((l[j>>2]>>((3-j%4)*8))&15)}return m};this.base64={encode:function(l){l=""+l;if(l==""){return""}var j="";var s,q,o="";var r,p,n,m="";var k=0;do{s=l.charCodeAt(k++);q=l.charCodeAt(k++);o=l.charCodeAt(k++);r=s>>2;p=((s&3)<<4)|(q>>4);n=((q&15)<<2)|(o>>6);m=o&63;if(isNaN(q)){n=m=64}else{if(isNaN(o)){m=64}}j=j+this._keys.charAt(r)+this._keys.charAt(p)+this._keys.charAt(n)+this._keys.charAt(m);s=q=o="";r=p=n=m=""}while(k<l.length);return j},_keys:"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/="}}).call(sinaSSOEncoder);

  得到得到sp的函数为

password=sinaSSOEncoder.hex_sha1(""+sinaSSOEncoder.hex_sha1(sinaSSOEncoder.hex_sha1(password))+me.servertime+me.nonce)}request.sp=password;return request};

  必要的参数已经分析到了,只要封装http包先服务器发送即可。我使用的是java实现,把上面一些javascript函数改写成java函数

//用户名编码
private String encodeAccount(String account){
        return Base64.encodeBase64String(URLEncoder.encode(account).getBytes());
    }
//六位随机数nonce的产生
private String makeNonce(int len){
        String x="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";
        String str = "";
        for(int i=0;i<len;i++){
            str+=x.charAt((int) (Math.ceil(Math.random()*1000000)%x.length()));
        }
        return str;
    }
//servertime的产生
private String getServerTime(){
        long servertime = new Date().getTime()/1000;
        return String.valueOf( servertime);
    }
//密码的编码
this.sp = new SinaSSOEncoder().encode(this.pwd, this.servertime, this.nonce);

  SinaSSOEncoder编码类的实现

package com.sinaweibo;
 
//新浪微博密码加密的算法
public class SinaSSOEncoder {
    private boolean i=false;
    private int g=8;
     
    public SinaSSOEncoder(){
         
    }
    public String encode(String psw,String servertime,String nonce){
        String password;
        password=hex_sha1(""+hex_sha1(hex_sha1(psw))+servertime+nonce);
        return password;
    }
     
    private String hex_sha1(String j) {
        return h(b(f(j,j.length()*g), j.length() * g));
    }
    private String h(int[] l){
        String k = i ? "0123456789ABCDEF" : "0123456789abcdef";
        String m = "";
        for (int j = 0; j < l.length * 4; j++) {
            m += k.charAt((l[j >> 2] >> ((3 - j % 4) * 8 + 4)) & 15) + "" + k.charAt((l[j >> 2] >> ((3 - j % 4) * 8)) & 15);
        }
        return m;
    }
     
    private int[] b(int[] A,int r){
        A[r>>5]|=128<<(24-r%32);
        A[((r+64>>9)<<4)+15]=r;
        int[] B = new int[80];
        int z = 1732584193;
        int y = -271733879;
        int v = -1732584194;
        int u = 271733878;
        int s = -1009589776;
        for (int o = 0; o < A.length; o += 16) {
            int q = z;
            int p = y;
            int n = v;
            int m = u;
            int k = s;
            for (int l = 0; l < 80; l++) {
                if (l < 16) {
                    B[l] = A[o + l];
                } else {
                    B[l] = d(B[l - 3] ^ B[l - 8] ^ B[l - 14] ^ B[l - 16], 1);
                }
                int C = e(e(d(z, 5), a(l, y, v, u)), e(e(s, B[l]), c(l)));
                s = u;
                u = v;
                v = d(y, 30);
                y = z;
                z = C;
            }
            z = e(z, q);
            y = e(y, p);
            v = e(v, n);
            u = e(u, m);
            s = e(s, k);
        }
        return new int[]{z,y,v,u,s};
    }
     
    private int a(int k,int j,int m,int l){
        if(k<20){return(j&m)|((~j)&l);};
        if(k<40){return j^m^l;};
        if(k<60){return(j&m)|(j&l)|(m&l);};
        return j^m^l;
    }
     private int c(int j){
        return(j<20)?1518500249:(j<40)?1859775393:(j<60)?-1894007588:-899497514;
    }
    private int e(int j, int m) {
        int l = (j & 65535) + (m & 65535);
        int k = (j >> 16) + (m >> 16) + (l >> 16);
        return (k << 16) | (l & 65535);
    }
    private int d(int j,int k){
        return(j<<k)|(j>>>(32-k));
    }
     
    private int[] f(String m,int r){
        int[] l;
        int j = (1<<this.g)-1;
        int len=((r+64>>9)<<4)+15;
        int k;
        for(k=0;k<m.length()*g;k+=g){
            len = k>>5>len?k>>5:len;
        }
        l = new int[len+1];
        for(k=0;k<l.length;k++){
            l[k]=0;
        }
        for(k=0;k<m.length()*g;k+=g){
            l[k>>5]|=(m.charAt(k/g)&j)<<(24-k%32);
        }
        return l;
    }
}

  得到这几个参数后连通其他的一些参数,其他的参数内容不需要改变,一起封装成HTTP包先服务器发送即可,到这一步,已经完成得差不多了,提交 到服务器后服务器返回了一些Cookie,有六个tgc,SUE,SUP,ALC,ALF,SUR。登录新浪微博提交的Cookie有很多,但在访问需要 用户登录的页面只需要这里面的2个参数即可, SUE,SUP;还有一个wvr的参数,其值为4,其他的参数还没去理解,为了方便我把所有服务器返回的Cookie全都封装在HTTP包里了。

要访问其他的之前需要登录的页面时,这需要在提交的http包的Header加上Cookie项,值为获得的这几个参数加上wvr=4就好了。这就会发现原来不能直接访问的页面,现在可以访问了。

分析数据是个挺花时间的过程,但最终能实现还是很爽的。。。

一些其他的参数还没去理解他们的意义,爬取微话题的主页是没问题的,但使用一些新浪微博api时就出现了一些问题。

posted on 2012-03-30 09:27 不会飞的鸟 阅读(954) 评论(1)  编辑 收藏 引用

评论

# re: [转]新浪微博 爬取实现之微博登录 2012-05-07 14:22 紫枫闲人

膜拜牛人,被你翻译成java了,代码贴过来稍微改改就是C#的,呵呵。加我Q4157874,多交流啊  回复  更多评论   


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理