Welcome 微信登录
编程资源 图片资源库 蚂蚁家优选 PDF转换器

首页 / 操作系统 / Linux / 一个小程序的Python和Bash版本比较

最近有一个小需求:在一个目录下有很多文件,每个文件的第一行是BEGIN开头的,最后一行是END开头的,中间每一行有多列,数量不等,第一列称为"DN", 第二列称为"CV",DN和CV的联合作为主键,现在需要检测文件中是否有重复的DN-CV。于是写了个简单的python程序#! /usr/bin/pythonimport osimport syscmd = "cat /home/zhangj/hosts/* | grep -v BEGIN | grep -v END"def check_dc_line(): has_duplicate = False dc_set = set() for dc_line in os.popen(cmd, "r").readlines():  dc_token = dc_line.split()  dn = dc_token[0]  cv = dc_token[1]  dc = dn + "," + cv  if dc in dc_set:   print "duplicate dc found:", dc   has_duplicate = True  else:   dc_set.add(dc) return has_duplicateif not check_dc_line():    print "no duplicate dc"对于250个文件,共60万行的数据,过滤一遍约1.67秒有点不甘心这个效率,于是又写了一个同样功能的shell脚本#! /bin/bashcat /home/zhangj/hosts/* | grep -v BEGIN | grep -v END | awk " BEGIN {  has_duplicate = 0 } {  dc = $1","$2;   if dc in dc_set)   {   print "duplicate dc found"dc    has_duplicate = 1    else {   dc_set[dc] = 1  } } END {  if (has_duplicate ==0)  {   print "no duplicate dc found"  } }"为了进一步比较,重复了10次实验。
 use python (second)use bash (second)
 1.741.548
 1.6981.423
 1.6741.408
 1.7181.286
 1.7571.292
 1.6001.285
 1.6471.335
 1.6611.316
 1.6541.288
 1.6471.288
average1.6701.347
可读性上看,python更简洁优雅一些。不过执行效率略有出乎意料。shell貌似更快一些……《Python核心编程 第二版》.(Wesley J. Chun ).[高清PDF中文版] http://www.linuxidc.com/Linux/2013-06/85425.htm《Python开发技术详解》.( 周伟,宗杰).[高清PDF扫描版+随书视频+代码] http://www.linuxidc.com/Linux/2013-11/92693.htmPython脚本获取Linux系统信息 http://www.linuxidc.com/Linux/2013-08/88531.htm在Ubuntu下用Python搭建桌面算法交易研究环境 http://www.linuxidc.com/Linux/2013-11/92534.htmPython 的详细介绍:请点这里
Python 的下载地址:请点这里本文永久更新链接地址:http://www.linuxidc.com/Linux/2014-09/106219.htm