Python脚本实例 包括xml,json,http,编码


这几天在研究python相关的一些东西,其中涉及的内容包括:

xml的解析,json的解析,urllib的使用,urllib的使用,python中中文编码的问题等

项目托管在Google上,地址是http://code.google.com/p/ipmobile/source/checkout

当然一切都来源于实际工作嘛,首先引入缘由,情景是这样的:

有一个Excel表格,有注册日期,用户ID,注册IP,注册手机号这几个字段, 但现在需要获取注册IP所在的地址 以及手机号所属地区等信息, 并根据这些信息进行分类统计等工作

当然如果在没有编码人员介入的情况下, 需要一个个的到一些网络上的页面上查出地址的信息,然后填到excel里, 而这完全是重复劳动,完全可以抽象并做出系统,在没有人力进行系统开发的情况下, 可以使用简单的脚本进行替代, 本文中,本人使用python脚本进行了相关研究和实验性的工作.用Python写出的代码的可读性非常的高的 首先是一个简单的例子使用过的是有道的接口获取IP和手机号码的地址的

#!/usr/bin/env python
#coding=utf-8

"""
getinfo.py
Created by Luke on 2009-04-29.
Copyright (c) 2009 Alibaba. All rights reserved.
"""

import urllib
from xml2dict import XML2Dict
import codecs


def gbk2utf8(xml):
    return xml.decode("gbk").encode("utf8").replace('gbk', 'utf-8');

def get_ip_info(ip):
    url="http://www.yodao.com/smartresult-xml/search.s?type=ip&q=%s"%ip
    return  gbk2utf8(urllib.urlopen(url).read())

def get_mobile_info(mobile):
    url="http://www.yodao.com/smartresult-xml/search.s?type=mobile&q=%s"%mobile
    return gbk2utf8(urllib.urlopen(url).read())


def main():
    fr = open('x.csv')
    wr = codecs.open('y.csv','w','gbk')
    xml = XML2Dict()
    for line in fr.readlines():
        line = line.rstrip('\n')
        items = line.split(',')
        ip_item = items[2]
        mobile_item = items[3]
        ip_dict = xml.fromstring(get_ip_info(ip_item))
        mobile_dict = xml.fromstring(get_mobile_info(mobile_item))
        new_line=''
        if ip_dict.smartresult!=None:
            new_line = items[0]+','+items[1]+','+items[2]+','
                                         +ip_dict.smartresult.product.location.encode("gbk")
        else:
            new_line = items[0]+','+items[1]+','+items[2]+','
        if mobile_dict.smartresult!=None:
            new_line = new_line+','+items[3]+','
                                         +mobile_dict.smartresult.product.location.encode("gbk")+'\n'
        else:
            new_line = new_line+','+items[3]+','+'\n'
        print new_line.decode("gbk")
        wr.write(new_line.decode("gbk"))
    fr.close();
    wr.close();


if __name__ == '__main__':
    main()

这段代码从有道那获得的结果是xml编码格式为gbk的,所以在编码上我将其先转换成utf8的,然后再通过xml2dict将其转换成Python的字典结构,这样我就可以直接读取节点的值了. 这段代码还使用了urllib模块还有读文件写文件的相关知识点,总体来说还是很简单的,主要就是字符串的拼接了,这里的文件格式都是csv的很容易就可以编程excel的格式

但是问题来了,有的IP地址在有道这里查不出来,而在ip138这个网站上可以查出来,后来试了好多,发现IP138的数据库的数据貌似全一些,但是IP138没有提供任何数据读取的API,那怎么办呢?嘿嘿,那就用最那个的办法了,在脚本里解析使用正则表达式处理html,解析出想要的结果,代码如下:

"""
ip138poster.py
Created by Luke on 2009-05-04.
Copyright (c) 2009 Alibaba. All rights reserved.
"""

import httplib,urllib;  #加载模块
import re

class Ip138Poster:

    def __init__(self):
        #定义一些文件头
        self.headers = {"Content-Type":"application/x-www-form-urlencoded",
                    "Connection":"Keep-Alive","Referer":"http://www.ip138.com/ips.asp"};
        #与网站构建一个连接
        self.conn = httplib.HTTPConnection("www.ip138.com");

    def post(self,ip_addr):
        #定义需要进行发送的数据
        params = urllib.urlencode({'ip':ip_addr,'action':'2'});
        #开始进行数据提交   同时也可以使用get进行
        self.conn.request(method="POST",url="/ips8.asp",
                                            body=params,headers=self.headers);
        #返回处理后的数据
        response = self.conn.getresponse();
        #判断是否提交成功
        if response.status == 200:
            s=response.read()
            print s.decode("gbk")
            lis = re.findall(r"(?<=<li>).*?(?=</li>)",s)
            return lis

    def get_main_data(self,ip_addr):
        ##下面的十六进制的值为"本站主数据:"的unicode
        self.main_data_parttern = r"(?<=\xe6\x9c\xac\xe7\xab\x99\xe4\xb8\xbb\xe6\x95\xb0\xe6\x8d\xae\xef\xbc\x9a).*"
        list = self.post(ip_addr)
        if len(list)>0:
            main_data = re.findall(self.main_data_parttern,list[0].decode("gbk").encode("utf8"))
        if len(main_data)>0:
            ret_value = main_data[0]
        return ret_value.decode("utf8")



    def __del__(self):
        #关闭连接
        self.conn.close()



##由于需要匹配中文,所以需要转换,然后再匹配
def UTF2Hex(s):
    temp = s.encode("UTF-8").encode("hex")
    line = ""
    for i in range(0,len(temp)-1,2):
        line += "\\x" + temp[i] + temp[i+1]
    return line

def GBK2Hex(s):
    temp = s.encode("GBK").encode("hex")
    line = ""
    for i in range(0,len(temp)-1,2):
        line += "\\x" + temp[i] + temp[i+1]
    return line


if __name__ == '__main__':
    poster = Ip138Poster()
    print poster.get_main_data("121.0.29.231")

这里我还提供一个json的可选方案,可惜的是目前我没有发现国内的可以使用json协议获取ip地址信息的API(SOAP的万网好像有个),所以IP的API是使用国外的,手机号码信息查询国内是有API的,可以直接使用,代码非常非常简单,如下:

#!/usr/bin/env python
# encoding: utf-8
"""
locatingsystem.py

Created by Luke on 2009-05-04.
Copyright (c) 2009 Alibaba.com. All rights reserved.
"""

import sys
import os
import urllib
import json

class LocatingSystem:
    def get_ip_json(self,ip):
        url="http://iplocationtools.com/ip_query.php?ip=%s&output=json"%ip
        return json.read(urllib.urlopen(url).read())

    def get_mobile_json(self,mobile):
        url="http://api.showji.com/locating/?m=%s&output=json"%mobile
        return json.read(urllib.urlopen(url).read())

def main():
    ls = LocatingSystem()
    print ls.get_ip_json("134.34.54.56")
    print ls.get_mobile_json("13819127490")


if __name__ == '__main__':
    main()
dfas /
Published under (CC) BY-NC-SA in categories Programming  tagged with Python