sunrise

每天不断学习，才能不断提升自己。

:: 管理 ::

64 随笔 :: 0 文章 :: 92 评论 :: 0 Trackbacks

话不多说，奉上代码。

#/usr/bin/env python
#coding=utf8

#对提取的数据进行预处理

def pretreat(infile,outfile):
  rfile = open(infile,'r')
  wfile = open(outfile,'wa+')
  while(1):
    line = rfile.readline()
    if not line:
      break
    line = line.split('>')

    #数据的长度，避免重复计算
    lens = len(line)

    #获得有效信息
    for i in range(lens):
      line[i] = line[i].split('/')
    for i in range(lens):
      #处理三元组第三个元素
      #print line[i]
      flag = 0
      if '@zh' in line[i][0]:
        line[i][0] = line[i][0].replace('@zh .','')
        line[i][0] = line[i][0].replace('／','')
      if '^^<http:' in line[i][0]:
        flag = 1
        line[i][0] = line[i][0].replace('^^<http:','')
        line[i][0] = line[i][0].replace('／','')
        print line[i][0]
        wfile.write(line[i][0].strip())
      if len(line[i]) >= 1 and i != 3 and 0 == flag:
        if '／' in line[i][len(line[i])-1]:
          line[i][len(line[i])-1] = line[i][len(line[i])-1].replace('／','')
        wfile.write(line[i][len(line[i])-1].strip()+' ')
    wfile.write('\n')
  wfile.close()

#判断是否含有字母
def is_alphabet(input):
  input = unicode(input,"utf-8")
  buf = []
  for uchar in input:
    if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
      return True
    else:
      return False

  #去除国家名中含有字母的三元组
def removealp(infile,outfile):
  rfile = open(infile,'r')
  wfile = open(outfile,'w')
  while(1):
    line = rfile.readline()
    if not line:
      break
    linetmp = line
    line = line.split(' ')
    if False == is_alphabet(line[0]):
      wfile.write(linetmp)
  wfile.close()

pretreat('article_categories_en_uris_zh.nt','tag_article_categories_en_uris_zh.txt')

posted on 2012-09-13 17:29 SunRise_at 阅读(1415) 评论(0) 编辑收藏引用所属分类: 可爱的python

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！

相关文章: turbogear2上传文件功能关于PIL库的一些概念 python的默认参数 Google Translate API json的编码和解析 python多线程 python编码转换 Python yield 用法 python enumerate用法 python之Queue

网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

sunrise

常用链接

留言簿(12)

随笔分类(63)

随笔档案(64)

收藏夹

ACMer

技术联盟

可爱的python

数据挖掘

算法之道

友情链接

最新随笔

搜索

积分与排名

最新随笔

最新评论

阅读排行榜

评论排行榜