AWK用__表示心情的词语当前记录？ A.$0 B.$1 C$CUR D.END

点击联系发帖人 时间：2012-06-10 15:07

表示心情的词语

Linux里awk中split函数的用法小结
字体：[ ] 类型：转载时间：
The awk function split(s,a,sep) splits a string s into an awk array a using the delimiter sep
The awk function split(s,a,sep) splits a string s into an awk array a using the delimiter sep.
set time = 12:34:56set hr = `echo $time | awk '{split($0,a,":" ); print a[1]}'` # = 12set sec = `echo $time | awk '{split($0,a,":" ); print a[3]}'` # = 56# = 12 34 56set hms = `echo $time | awk '{split($0,a,":" ); print a[1], a[2], a[3]}'`
——————————————————————————————————————————Q:name="&435&21"awk 'BEGIN {print split("$name", filearray, "&")}'为什么是1而awk 'BEGIN {print split("&435&21", filearray, "&")}'则返回正确的结果，应该是7，有没有人解答一下？
A:变量引用错误，这样做试试awk 'BEGIN {print split('"\"$name\""', filearray, "&")}'
awk规定引用系统变量必须使用单引号加双引号，即'"$sysvar"'这样的格式，但是split函数也需要双引号来定界，但这个双引号又不能让sh解释，而应留给awk来解释，所以使用了\"和\"组成的双引号
split函数的用法
he awk function split(s,a,sep) splits a string s into an awk array a using the delimiter sep.set time = 12:34:56set hr = `echo $time | awk '{split($0,a,":" ); print a[1]}'` # = 12set sec = `echo $time | awk '{split($0,a,":" ); print a[3]}'` # = 56
# = 12 34 56set hms = `echo $time | awk '{split($0,a,":" ); print a[1], a[2], a[3]}'`set hms = `echo $time | awk '{split($0,a,":" ); for (i=1; i&=3; i++) print a[i]}'`
cat aa:b:c:d:e:f:g:h:i使用awk将该字符串冒号两边的段输出cat a |awk -F':' '{split($0,arr,":")}END{for(i=1;i&=NF;i++)printf("%s\n",arr[i])}'输出结果如下acdefghi
您可能感兴趣的文章:
大家感兴趣的内容
12345678910
最近更新的内容
常用在线小工具运维必会-Awk使用案例总结
数组是用来存储一系列值的变量，可通过索引来访问数组的值。
Awk中数组称为关联数组，因为它的下标（索引）可以是数字也可以是字符串。
下标通常称为键，数组元素的键和值存储在Awk程序内部的一个表中，该表采用散列算法，因此数组元素是随机排序。
数组是用来存储一系列值的变量，可通过索引来访问数组的值。
Awk中数组称为关联数组，因为它的下标（索引）可以是数字也可以是字符串。
下标通常称为键，数组元素的键和值存储在Awk程序内部的一个表中，该表采用散列算法，因此数组元素是随机排序。
数组格式：array[index]=value
1、Nginx日志分析
日志格式：'$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"'
日志记录：27.189.231.39 - - [09/Apr/:23 +0800] "GET /Public/index/images/icon_pre.png HTTP/1.1" 200 44668 "/Public/index/css/global.css" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0. Safari/537.36" "-"
1）统计日志中访问最多的10个IP
思路：对第一列进行去重，并输出出现的次数
方法1：$ awk '{a[$1]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log
方法2：$ awk '{print $1}' access.log |sort |uniq -c |sort -k1 -nr |head -n10
说明：a[$1]++ 创建数组a，以第一列作为下标，使用运算符++作为数组元素，元素初始值为0。处理一个IP时，下标是IP，元素加1，处理第二个IP时，下标是IP，元素加1，如果这个IP已经存在，则元素再加1，也就是这个IP出现了两次，元素结果是2，以此类推。因此可以实现去重，统计出现次数。
2）统计日志中访问大于100次的IP
方法1：$ awk '{a[$1]++}END{for(i in a){if(a[i]&100)print i,a[i]}}' access.log
方法2：$ awk '{a[$1]++;if(a[$1]&100){b[$1]++}}END{for(i in b){print i,a[i]}}' access.log
说明：方法1是将结果保存a数组后，输出时判断符合要求的IP。方法2是将结果保存a数组时，并判断符合要求的IP放到b数组，最后打印b数组的IP。
3）统计日一天内访问最多的10个IP
思路：先过滤出这个时间段的日志，然后去重，统计出现次数
方法1：$ awk '$4&="[9/Apr/:01" && $4&="[9/Apr/:59" {a[$1]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log
方法2：$ sed -n '/\[9\/Apr\/:01/,/\[9\/Apr\/:59/p' access.log |sort |uniq -c |sort -k1 -nr |head -n10
#前提开始时间与结束时间日志中必须存在
4）统计当前时间前一分钟的访问数
思路：先获取当前时间前一分钟对应日志格式的时间，再匹配统计
$ date=$(date -d '-1 minute' +%d/%b/%Y:%H:%M);awk -vdate=$date '$0~date{c++}END{print c}' access.log
$ date=$(date -d '-1 minute' +%d/%b/%Y:%H:%M);awk -vdate=$date '$4&="["date":00" && $4&="["date":59"{c++}END{print c}' access.log
$ grep -c $(date -d '-1 minute' +%d/%b/%Y:%H:%M) access.log
说明：date +%d/%b/%Y:%H:%M --& 09/Apr/
5）统计访问最多的前10个页面（$request）
$ awk '{a[$7]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log
6）统计每个URL访问内容的总大小（$body_bytes_sent）
$ awk '{a[$7]++;size[$7]+=$10}END{for(i in a)print a[i],size[i],i}' access.log
7）统计每个IP访问状态码数量（$status）
$ awk '{a[$1" "$9]++}END{for(i in a)print i,a[i]}' access.log
8）统计访问状态码为404的IP及出现次数
$ awk '{if($9~/404/)a[$1" "$9]++}END{for(i in a)print i,a[i]}' access.log
2、两个文件对比
文件内容如下：
1）找出相同记录
方法1：$ awk 'FNR==NR{a[$0];next}($0 in a)' a b
解释前，先看下FNR和NR区别：
$ awk '{print NR,$0}' a b
$ awk '{print FNR,$0}' a b
可以看出NR是处理一行记录，编号就会加1，同时也可以看到awk将两个文件当成一个合并后的文件处理。
而FNR则是处理一行记录，编号也会加1，但是，处理到第二个文件时，编号重新计数。
说明：FNR和NR是内置变量。FNR==NR常用于对两个文件处理，这个例子可以理解为awk将两个文件当成一个文件处理。
处理a文件时，FNR是等于NR的，条件为真，执行a[$0],next表达式，意思是将每条记录存放到a数组作为下标（无元素），next是跳出，类似于continue，不执行后面表达式。
执行过程以此类推，直到处理b件时，FNR不等于NR（FNR重新计数是1，NR继续加1是7），条件为假，不执行后面a[$0],next表达式，直接执行($0 in a)表达式，这句意思是处理b文件第一条继续判断是否在a数组中，如果在则打印这条记录，以此类推。
这样可能更好理解些：
$ awk 'FNR==NR{a[$0]}NR&FNR{if($0 in a)print $0}' a b
$ awk 'FNR==NR{a[$0]=1;next}(a[$0])' a b
#小括号可以不加
$ awk 'FNR==NR{a[$0]=1;next}(a[$0]==1)' a b
$ awk 'FNR==NR{a[$0]=1;next}{if(a[$0]==1)print}' a b
$ awk 'FNR==NR{a[$0]=1}FNR!=NR&&a[$0]==1' a b
说明：先要知道后面的a[$0]不是一个数组，而是通过下标（b文件每条记录）来访问a数组元素。如果a[b的一行记录]获取的a数组元素是1，则为真，也就是等于1，打印这条记录，否则获取不到元素，则为假。
$ awk 'ARGIND==1{a[$0]=1}ARGIND==2&&a[$0]==1' a b
$ awk 'FILENAME=="a"{a[$0]=1}FILENAME=="b"&&a[$0]==1' a b
说明：ARGIND内置变量，处理文件标识符，第一个文件为1，第二个文件为2。FILENAME也是内置变量，表示输入文件的名字
方法4：$ sort a b |uniq -d
方法5：$ grep -f a b
2）找不同记录（同上，取反）
$ awk 'FNR==NR{a[$0];next}!($0 in a)' a b
$ awk 'FNR==NR{a[$0]=1;next}!a[$0]' a b
$ awk 'ARGIND==1{a[$0]=1}ARGIND==2&&a[$0]!=1' a b
$ awk 'FILENAME=="a"{a[$0]=1}FILENAME=="b"&&a[$0]!=1' a b
方法2：$ sort a b |uniq -d
方法3：$ grep -vf a b
3、合并两个文件
1）将d文件性别合并到c文件
zhangsan 100
wangwu 300
zhangsan man
lisi woman
方法1：$ awk
'FNR==NR{a[$1]=$0;next}{print a[$1],$2}' c d
zhangsan 100
lisi 200 woman
wangwu 300 man
方法2：$ awk
'FNR==NR{a[$1]=$0}NR&FNR{print a[$1],$2}' c d
说明：NR==FNR匹配第一个文件，NR&FNR匹配第二个文件，将$1为数组下标
方法3：$ awk 'ARGIND==1{a[$1]=$0}ARGIND==2{print a[$1],$2}' c d
2）将a.txt文件中服务名称合并到一个IP中
$ cat a.txt
192.168.2.100 : httpd
192.168.2.100 : tomcat
192.168.2.101 : httpd
192.168.2.101 : postfix
192.168.2.102 : mysqld
192.168.2.102 : httpd
$ awk -F: -vOFS=":" '{a[$1]=a[$1] $2}END{for(i in a)print i,a[i]}' a.txt
$ awk -F: -vOFS=":" '{a[$1]=$2 a[$1]}END{for(i in a)print i,a[i]}' a.txt
192.168.2.100 : httpd
192.168.2.101 : httpd
192.168.2.102 : mysqld
说明：a[$1]=$2 第一列为下标，第二个列是元素，后面跟的a[$1]是通过第一列取a数组元素（服务名），结果是$1=$2 $2，并作为a数组元素。
3）将第一行附加给下面每行开头
$ cat a.txt
$ awk 'NF==1{a=$0;next}{print a,$0}' a.txt
$ awk 'NF==1{a=$0}NF!=1{print a,$0}' a.txt
4、倒叙列打印文本
$ cat a.txt
$ awk '{for(i=NF;i&=1;i--){printf "%s ",$i}print s}' a.txt
100 a xiaoli
110 b xiaoli
120 c xiaoli
$ awk '{for(i=NF;i&=1;i--)if(i==1)printf $i"\n";else printf $i" "}' a.txt
说明：利用NF降序输出，把最后一个域作为第一个输出，然后自减，print s或print ""打印一个换行符
5、从第二列打印到最后
方法1：$ awk '{for(i=2;i&=NF;i++)if(i==NF)printf $i"\n";else printf $i" "}' a.txt
方法2：$ awk '{$1=""}{print $0}' a.txt
6、将c文件中第一列放到到d文件中的第三列
方法1：$ awk 'FNR==NR{a[NR]=$0;next}{$3=a[FNR]}1' c d
说明：以NR编号为下标，元素是每行，当处理d文件时第三列等于获取a数据FNR（重新计数1-3）编号作为下标。
方法2：$ awk '{getline f&"c";print $0,f}' d
1）替换第二列
$ awk '{getline f&"c";gsub($2,f,$2)}1' d
2）替换第二列的two
$ awk '{getline f&"c";gsub("two",f,$2)}1' d
7、数字求和
方法1：$ seq 1 100 |awk '{sum+=$0}END{print sum}'
方法2：$ awk 'BEGIN{sum=0;i=1;while(i&=100){sum+=i;i++}print sum}'
方法3：$ awk 'BEGIN{for(i=1;i&=100;i++)sum+=i}END{print sum}' /dev/null
方法4：$ seq -s + 1 100 |bc
8、每隔三行添加一个换行符或内容
方法1：$ awk '$0;NR%3==0{printf "\n"}' a
方法2：$ awk '{print NR%3?$0:$0"\n"}' a
方法3：$ sed '4~3s/^/\n/' a
9、字符串拆分
$ echo "hello" |awk -F '' '{for(i=1;i&=NF;i++)print $i}'
$ echo "hello" |awk -F '' '{i=1;while(i&=NF){print $i;i++}}'
$ echo "hello" |awk '{split($0,a,"''");for(i in a)print a[i]}'
10、统计字符串中每个字母出现的次数
$ echo a,b.c.a,b.a |tr "[,. ]" "\n" |awk -F '' '{for(i=1;i&=NF;i++)a[$i]++}END{for(i in a)print i,a[i]|"sort -k2 -rn"}'
11、第一列排序
$ awk '{a[NR]=$1}END{s=asort(a,b);for(i=1;i&=s;i++){print i,b[i]}}' a.txt
说明：以每行编号作为下标值为$1，并将a数组值放到数组b，a下标丢弃，并将asort默认返回值（原a数组长度）赋值给s，使用for循环小于s的行号，从1开始到数组长度打印排序好的数组。
12、删除重复行，顺序不变
$ awk '!a[$0]++' file
博客地址：
13、删除指定行
删除第一行：
$ awk 'NR==1{next}{print $0}' file #$0可省略
$ awk 'NR!=1{print}' file
$ sed '1d' file
$ sed -n '1!p' file
14、在指定行前后加一行
在第二行前一行加txt：
$ awk 'NR==2{sub('/.*/',"txt\n&")}{print}' a.txt
$ sed'2s/.*/txt\n&/' a.txt
在第二行后一行加txt：
$ awk 'NR==2{sub('/.*/',"&\ntxt")}{print}' a.txt
$ sed'2s/.*/&\ntxt/' a.txt
15、通过IP获取网卡名
$ ifconfig |awk -F'[: ]' '/^eth/{nic=$1}/192.168.18.15/{print nic}'
16、浮点数运算（数字46保留小数点）
$ awk 'BEGIN{print 46/100}'
$ awk 'BEGIN{printf "%.2f\n",46/100}'
$ echo 46|awk '{print $0/100}'
$ echo 'scale=2;46/100' |bc|sed 's/^/0/'
$ printf "%.2f\n" $(echo "scale=2;46/100" |bc)
结果：0.46
17、替换换行符为逗号
$ cat a.txt
替换后：1,2,3
$ awk '{s=(s?s","$0:$0)}END{print s}' a.txt
说明：三目运算符(a?b:c)，第一个s是变量，s?s","$0:$0,第一次处理1时，s变量没有赋值初值是0，0为假，结果打印1，第二次处理2时，s值是1，为真，结果1,2。以此类推，小括号可以不写。
$ tr '\n' ',' & a.txt
$ sed ':a;N;s/\n/,/;$!b a' a.txt
说明：第一个标签a，先读取第一行记录1追加到模式空间，此时模式空间内容是1$，执行$!b（$!最后一行不跳转，b是控制流跳转命令）跳转到a标签，继续读取第二行记录2追加到模式空间，因为使用N命令，每个记录以换行符（\n）分割，此时模式空间内容是1\n2$，执行将换行符替换逗号命令，继续跳转到a标签...
$ sed ':a;$!N;s/\n/,/;t a' a.txt
说明：与上面类似，其中t是测试命令，当上一个命令（替换）执行成功才跳转。
$ awk '{if($0!=3)printf "%s,",$0;else print $0}' a.txt
说明：3是文本最后一个数
a+=($line)
done & a.txt
echo ${a[*]} |sed 's/ /,/g'
说明：将每行放到数组，然后替换
18、把奇数换行符去掉
$ cat b.txt
$ awk 'ORS=NR%2?"\t":"\n"' b.txt
#把奇数行换行符去掉
$ xargs -n2 & a.txt
#将两个字段作为一行
string number
19、费用统计
$ cat a.txt
统计每人总费用、总数量：
$ awk '{name[$1]++;number[$1]+=$3;money[$1]+=$2}END{for(i in name)print i,number[i],money[i]}' a.txt
zhaoliu 3 11000
zhangsan 2 13000
wangwu 1 1500
lisi 2 3000
20、打印乘法口诀
$ awk 'BEGIN{for(n=0;n++&9;){for(i=0;i++&n;)printf i"x"n"="i*n" ";print ""}}'
1x2=2 2x2=4
1x3=3 2x3=6 3x3=9
1x4=4 2x4=8 3x4=12 4x4=16
1x5=5 2x5=10 3x5=15 4x5=20 5x5=25
1x6=6 2x6=12 3x6=18 4x6=24 5x6=30 6x6=36
1x7=7 2x7=14 3x7=21 4x7=28 5x7=35 6x7=42 7x7=49
1x8=8 2x8=16 3x8=24 4x8=32 5x8=40 6x8=48 7x8=56 8x8=64
1x9=9 2x9=18 3x9=27 4x9=36 5x9=45 6x9=54 7x9=63 8x9=72 9x9=81
#!/bin/bash
for ((i=1;i&=9;i++)); do
for ((j=1;j&=i;j++)); do
result=$(($i*$j))
#let "result=i*j"
echo -n "$i*$j=$result "
21、只打印奇数或偶数行
打印奇数行：
$ seq 1 5 |awk 'i=!i'
说明：先知道对于数值运算，未定义变量初值为0，对于字符运算，未定义变量初值为空字符串。
读取第一行记录，然后进行模式匹配，i是未定义变量，也就是i=!0，!取反意思。感叹号右边是个布尔值，0或空字符串为假，非0或非空字符串为真，!0就是真，因此i=1，条件为真打印第一条记录。
没有print为什么会打印呢？因为模式后面没有动作，默认会打印整条记录。
读取第二行记录，进行模式匹配，因为上次i的值由0变成了1，此时就是i=!1，条件为假不打印。
读取第三行记录，因为上次条件为假，i恢复初值为0，继续打印。以此类推...
可以看出，运算时并没有判断记录，而是利用布尔值真假判断。
$ seq 1 5 |awk 'NR%2!=0'
$ seq 1 5 |sed -n '1~2p'
说明：步长，每隔一行打印一次
$ seq 1 5 |sed -n 'p;n'
说明：先打印第一行，执行n命令读取当前行的下一行2，放到模式空间，后面再没有打印模式空间行操作，所以只保存不打印，同等方式继续打印第三行。
打印偶数行：
$ seq 1 5 |awk '!(i=!i)'
$ seq 1 5 |awk 'NR%2==0'
$ seq 1 5 |sed -n '0~2p'
$ seq 1 5 |sed -n 'n;p'
说明：读取当前行的下一行2，放到模式空间，使用p命令打印模式空间的行，输出2。
本文为云栖社区原创内容，未经允许不得转载，如需转载请发送邮件至yqeditor@list.；如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件至：yqgroup@ 进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容。
用云栖社区APP，舒服~
【云栖快讯】红轴机械键盘、无线鼠标等753个大奖，先到先得，云栖社区首届博主招募大赛9月21日-11月20日限时开启，为你再添一个高端技术交流场所&&
针对日志类数据的一站式服务，用户无需开发就能快捷完成数据采集、消费、投递以及查询分析等功能，帮助提升运维、运营效...
基于全网公开发布数据、传播路径和受众群体画像，利用语义分析、情感算法和机器学习，分析公众对品牌形象、热点事件和公...
大数据商业智能套件提供海量数据实时在线分析，拖拽式操作、丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据...
为您提供简单高效、处理能力可弹性伸缩的计算服务，帮助您快速构建更稳定、安全的应用，提升运维效率，降低 IT 成本...
MaxCompute75折抢购
Loading...用户名：sndapk
文章数：245
评论数：27
访问量：171032
注册日期：
阅读量：1297
阅读量：3317
阅读量：460903
阅读量：1145435
51CTO推荐博文
http://www./default/tsnc_wgrj/doc/awk.htm1.&awk简介awk 是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk的处理文本和数据的方式是这样的，它逐行扫描文件，从第一行到最后一行，寻找匹配的特定模式的行，并在这些行上进行你想要的操作。如果没有指定处理动作，则把匹配的行显示到标准输出 (屏幕)，如果没有指定模式，则所有被操作所指定的行都被处理。awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人，分别是 Alfred&Aho、Brian&Kernighan、Peter&Weinberger。gawk是awk的GNU版本，它提供了Bell实验室和 GNU的一些扩展。下面介绍的awk是以GUN的gawk为例的，在linux系统中已把awk链接到gawk，所以下面全部以awk进行介绍。2.&awk命令格式和选项2.1.&awk的语法有两种形式awk&[options]&'script'&var=value&file(s)awk&[options]&-f&scriptfile&var=value&file(s)2.2.&命令选项-F&fs&or&--field-separator&fs指定输入文件折分隔符，fs是一个字符串或者是一个正则表达式，如-F:。-v&var=value&or&--asign&var=value赋值一个用户定义变量。-f&scripfile&or&--file&scriptfile从脚本文件中读取awk命令。-mf&nnn&and&&-mr&nnn对nnn值设置内在限制，-mf选项限制分配给nnn的最大块数目；-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能，在标准awk中不适用。-W&compact&or&--compat,&-W&traditional&or&--traditional在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样，所有的awk扩展都被忽略。-W&copyleft&or&--copyleft,&-W&copyright&or&--copyright打印简短的版权信息。-W&help&or&--help,&-W&usage&or&--usage打印全部awk选项和每个选项的简短说明。-W&lint&or&--lint打印不能向传统unix平台移植的结构的警告。-W&lint-old&or&--lint-old打印关于不能向传统unix平台移植的结构的警告。-W&posix打开兼容模式。但有以下限制，不识别：\x、函数关键字、func、换码序列以及当fs是一个空格时，将新行作为一个域分隔符；操作符**和**=不能代替^和^=；fflush无效。-W&re-interval&or&--re-inerval允许间隔正则表达式的使用，参考(grep中的Posix字符类)，如括号表达式[[:alpha:]]。-W&source&program-text&or&--source&program-text使用program-text作为源代码，可与-f命令混用。-W&version&&or&--version打印bug报告信息的版本。3.&模式和操作awk脚本是由模式和操作组成的：pattern&{action}&如$&awk&'/root/'&test，或$&awk&'$3&&&100'&test。两者是可选的，如果没有模式，则action应用到全部记录，如果没有action，则输出匹配全部记录。默认情况下，每一个输入行都是一条记录，但用户可通过RS变量指定不同的分隔符进行分隔。3.1.&模式模式可以是以下任意一个：/正则表达式/：使用通配符的扩展集。关系表达式：可以用下面运算符表中的关系运算符进行操作，可以是字符串或数字的比较，如$2&$1选择第二个字段比第一个字段大的行。模式匹配表达式：用运算符~(匹配)和!~(不匹配)。模式，模式：指定一个行的范围。该语法不能包括BEGIN和END模式。BEGIN：让用户指定在第一条输入记录被处理之前所发生的动作，通常可在这里设置全局变量。END：让用户在最后一条输入记录被读取之后发生的动作。3.2.&操作操作由一个或多个命令、函数、表达式组成，之间由换行符或分号隔开，并位于大括号内。主要有四部份：变量或数组赋值输出命令内置函数控制流命令4.&awk的环境变量Table&1.&awk的环境变量变量描述$n当前记录的第n个字段，字段间由FS分隔。$0完整的输入记录。ARGC命令行参数的数目。ARGIND命令行中当前文件的位置(从0开始算)。ARGV包含命令行参数的数组。CONVFMT数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组。ERRNO最后一个系统错误的描述。FIELDWIDTHS字段宽度列表(用空格键分隔)。FILENAME当前文件名。FNR同NR，但相对于当前文件。FS字段分隔符(默认是任何空格)。IGNORECASE如果为真，则进行忽略大小写的匹配。NF当前记录中的字段数。NR当前记录数。OFMT数字的输出格式(默认值是%.6g)。 OFS输出字段分隔符(默认值是一个空格)。ORS输出记录分隔符(默认值是一个换行符)。RLENGTH由match函数所匹配的字符串的长度。RS记录分隔符(默认是一个换行符)。RSTART由match函数所匹配的字符串的第一个位置。SUBSEP数组下标分隔符(默认值是\034)。5.&awk运算符Table&2.&运算符运算符描述=&&+=&&-=&&*=&&/=&&%=&&^=&&**=赋值?:C条件表达式||逻辑或&&逻辑与~&&~!匹配正则表达式和不匹配正则表达式&&&&=&&&&&&=&&!=&&==关系运算符空格连接+&&-加，减*&&/&&&乘，除与求余+&&-&&!一元加，减和逻辑非^&&***求幂++&&--增加或减少，作为前缀或后缀$字段引用in数组成员6.&记录和域6.1.&记录awk把每一个以换行符结束的行称为一个记录。记录分隔符：默认的输入和输出的分隔符都是回车，保存在内建变量ORS和RS中。$0变量：它指的是整条记录。如$&awk&'{print&$0}'&test将输出test文件中的所有记录。变量NR：一个计数器，每处理完一条记录，NR的值就增加1。如$&awk&'{print&NR,$0}'&test将输出test文件中所有记录，并在记录前显示记录号。6.2.&域记录中每个单词称做&域&，默认情况下以空格或tab分隔。awk可跟踪域的个数，并在内建变量NF中保存该值。如$&awk&'{print&$1,$3}'&test将打印test文件中第一和第三个以空格分开的列(域)。6.3.&域分隔符内建变量FS保存输入域分隔符的值，默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$&awk&-F:&'{print&$1,$5}'&test将打印以冒号为分隔符的第一，第五列的内容。可以同时使用多个域分隔符，这时应该把分隔符写成放到方括号中，如$awk&-F'[:\t]'&'{print&$1,$3}'&test，表示以空格、冒号和tab作为分隔符。输出域的分隔符默认是一个空格，保存在OFS中。如$&awk&-F:&'{print&$1,$5}'&test，$1和$5间的逗号就是OFS的值。7.&gawk专用正则表达式元字符一般通用的元字符集就不讲了，可参考我的和学习笔记。以下几个是gawk专用的，不适合unix版本的awk。\Y匹配一个单词开头或者末尾的空字符串。\B匹配单词内的空字符串。\&匹配一个单词的开头的空字符串，锚定开始。\&匹配一个单词的末尾的空字符串，锚定末尾。\w匹配一个字母数字组成的单词。\W匹配一个非字母数字组成的单词。\&匹配字符串开头的一个空字符串。\'匹配字符串末尾的一个空字符串。8.&POSIX字符集可参考我的9.&匹配操作符(~)用来在记录或者域内匹配正则表达式。如$&awk&'$1&~/^root/'&test将显示test文件第一列中以root开头的行。10.&比较表达式conditional&expression1&?&expression2:&expression3，例如：$&awk&'{max&=&{$1&&&$3}&?&$1:&$3:&print&max}'&test。如果第一个域大于第三个域，$1 就赋值给max，否则$3就赋值给max。$&awk&'$1&+&$2&&&100'&test。如果第一和第二个域相加大于100，则打印这些行。$&awk&'$1&&&5&&&&$2&&&10'&test,如果第一个域大于5，并且第二个域小于10，则打印这些行。11.&范围模板范围模板匹配从第一个模板的第一次出现到第二个模板的第一次出现之间所有行。如果有一个模板没出现，则匹配到开头或末尾。如$&awk&'/root/,/mysql/'&test将显示root第一次出现到mysql第一次出现之间的所有行。12.&一个验证passwd文件有效性的例子（略&&）&13.&几个实例$&awk&'{print&$3}'&test-----截取第三域(列)的内容。$&awk&'/^(no|so)/'&test-----打印所有以模式no或so开头的行。$&awk&'/^[ns]/{print&$1}'&test-----如果记录以n或s开头，就打印这个记录。$&awk&'$1&~/[0-9][0-9]$/(print&$1}'&test-----如果第一个域以两个数字结束就打印这个记录。$&awk&'$1&==&100&||&$2&&&50'&test-----如果第一个或等于100或者第二个域小于50，则打印该行。$&awk&'$1&!=&10'&test-----如果第一个域不等于10就打印该行。$&awk&'/test/{print&$1&+&10}'&test-----如果记录包含正则表达式test，则第一个域加10并打印出来。$&awk&'{print&($1&&&5&?&"ok&"$1:&"error"$1)}'&test-----如果第一个域大于5则打印问号后面的表达式值，否则打印冒号后面的表达式值。$&awk&'/^root /,/^mysql/'&test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录，则继续打印直到下一个以正则表达式mysql开头的记录为止，或到文件末尾。14.&awk编程14.1.&变量在awk中，变量不需要定义就可以直接使用，变量类型可以是数字或字符串。赋值格式：Variable&=&expression，如$&awk&'$1&~/test /{count&=&$2&+&$3;&print&count}'&test,上式的作用是,awk先扫描第一个域，一旦test匹配，就把第二个域的值加上第三个域的值，并把结果赋值给变量count，最后打印出来。awk可以在命令行中给变量赋值，然后将这个变量传输给awk脚本。如$&awk&-F:&-f&awkscript&month=4&year=2004&test，上式的month和year都是自定义变量，分别被赋值为4和2004。在awk脚本中，这些变量使用起来就象是在脚本中建立的一样。注意，如果参数前面出现test，那么在BEGIN语句中的变量就不能被使用。域变量也可被赋值和修改，如$&awk&'{$2&=&100&+&$1;&print&}'&test,上式表示，如果第二个域不存在，awk将计算表达式100加$1的值，并将其赋值给$2，如果第二个域存在，则用表达式的值覆盖$2原来的值。再例如：$&awk&'$1&==&"root"{$1&="test";print}'&test，如果第一个域的值是&root&，则把它赋值为 &test&，注意，字符串一定要用双引号。内建变量的使用。变量列表在前面已列出，现在举个例子说明一下。$&awk&-F:&'{IGNORECASE=1;&$1&==&"MARY"{print&NR,$1,$2,$NF}'test，把 IGNORECASE设为1代表忽略大小写，打印第一个域是mary的记录数、第一个域、第二个域和最后一个域。14.2.&BEGIN模块BEGIN 模块后紧跟着动作块，这个动作块在awk处理任何输入文件之前执行。所以它可以在没有任何输入的情况下进行测试。它通常用来改变内建变量的值，如 OFS,RS和FS等，以及打印标题。如：$&awk&'BEGIN{FS=":";&OFS="\t";&ORS="\n\n"} {print&$1,$2,$3}&test。上式表示，在处理输入文件以前，域分隔符(FS)被设为冒号，输出文件分隔符(OFS)被设置为制表符，输出记录分隔符(ORS)被设置为两个换行符。$&awk&'BEGIN{print&&&"TITLE&TEST"}只打印标题。14.3.&END模块END不匹配任何的输入文件，但是执行动作块中的所有动作，它在整个输入文件处理完成后被执行。如$&awk&'END{print&"The&number&of&records&is"&NR}'&test，上式将打印所有被处理的记录数。14.4.&重定向和管道awk 可使用shell的重定向符进行重定向输出，如：$&awk&'$1&=&100&{print&$1 & "output_file"&}'&test。上式表示如果第一个域的值等于100，则把它输出到output_file中。也可以用&&来重定向输出，但不清空文件，只做追加操作。输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得输入。它负责从输入获得下一行的内容，并给NF,NR和FNR等内建变量赋值。如果得到一条记录，getline函数返回1，如果到达文件的末尾就返回0，如果出现错误，例如打开文件失败，就返回-1。如：$&awk&'BEGIN{&"date"&|&getline&d;&print&d}'&test。执行linux的date命令，并通过管道输出给getline，然后再把输出赋值给自定义变量d，并打印它。$&awk&'BEGIN{"date"&|&getline&d;&split(d,mon);&print&mon[2]}'&test。执行shell的date命令，并通过管道输出给getline，然后getline从管道中读取并将输入赋值给d，split函数把变量d转化成数组 mon，然后打印数组mon的第二个元素。$&awk&'BEGIN{while(&"ls"&|&getline)&print}'，命令ls的输出传递给geline作为输入，循环使getline从ls的输出中读取一行，并把它打印到屏幕。这里没有输入文件，因为BEGIN块在打开输入文件前执行，所以可以忽略输入文件。$&awk&'BEGIN{printf&"What&is&your&name?";&getline&name&&&"/dev /tty"&}&$1&~name&{print&"Found"&name&on&line&",&NR&"."}&END{print&"See&you,"&name&"."}&test。在屏幕上打印&What&is&your&name?",并等待用户应答。当一行输入完毕后，getline函数从终端接收该行输入，并把它储存在自定义变量name中。如果第一个域匹配变量name的值，print函数就被执行，END块打印See&you和name的值。$&awk&'BEGIN{while&(getline&&&"/etc /passwd"&&&0)&lc++;&print&lc}'。awk将逐行读取文件/etc/passwd的内容，在到达文件末尾前，计数器 lc一直增加，当到末尾时，打印lc的值。注意，如果文件不存在，getline返回-1，如果到达文件的末尾就返回0，如果读到一行，就返回1，所以命令&while&(getline&&&"/etc/passwd")在文件不存在的情况下将陷入无限循环，因为返回-1表示逻辑真。可以在awk中打开一个管道，且同一时刻只能有一个管道存在。通过close()可关闭管道。如：$&awk&'{print&$1,&$2&|&"sort"&}'&test&END&{close("sort")}。awd把print语句的输出通过管道作为linux命令sort的输入,END块执行关闭管道操作。system函数可以在awk中执行linux的命令。如：$&awk&'BEGIN{system("clear")'。fflush函数用以刷新输出缓冲区，如果没有参数，就刷新标准输出的缓冲区，如果以空字符串为参数，如fflush(""),则刷新所有文件和管道的输出缓冲区。14.5.&条件语句awk中的条件语句是从C语言中借鉴过来的，可控制程序的流程。14.5.1.&if语句格式：&&&&&&&&{if&(expression){&&&&&&&&&&&&&&&&&&&&&...&&&&&&&&&&&&&&&&&&&&&}&&&&&&&&}$&awk&'{if&($1&&$2)&print&$2&"too&high"}'&test。如果第一个域小于第二个域则打印。$&awk&'{if&($1&&&$2)&{count++;&print&"ok"}}'&test.如果第一个域小于第二个域，则count加一，并打印ok。14.5.2.&if/else语句，用于双重判断。格式：&&&&&&&&{if&(expression) {&&&&&&&&&&&&&&&&&&&&&...&&&&&&&&&&&&&&&&&&&&&&&}&&&&&&&&else{&&&&&&&&&&&&&&&&&&&&&...&&&&&&&&&&&&&&&&&&&&&&&}&&&&&&&&}$&awk&'{if&($1&&&100)&print&$1&"bad"&;&else&print&"ok"}'&test。如果$1大于100则打印$1&bad,否则打印ok。$&awk&'{if&($1&&&100){&count++;&print&$1}&else&{count--;&print&$2}'&test。如果$1大于100，则count加一，并打印$1，否则count减一，并打印$1。14.5.3.&if/else&else&if语句，用于多重判断。格式：&&&&&&&&{if&(expression) {&&&&&&&&&&&&&&&&&&&&&&...&&&&&&&&&&&&&&&&&&&}&&&&&&&&else&if&(expression){&&&&&&&&&&&&&&&&&&&&&&...&&&&&&&&&&&&&&&&&&&}&&&&&&&&else&if&(expression){&&&&&&&&&&&&&&&&&&&&&&...&&&&&&&&&&&&&&&&&&&}&&&&&&&&else&{&&&&&&&&&&&&&&&&&&&&&...&&&&&&&&&&&&&}&&&&&&&&}14.6.&循环awk有三种循环:while循环；for循环；special&for循环。$&awk&'{&i&=&1;&while&(&i&&=&NF&)&{&print&NF,$i;&i++}}'&test。变量的初始值为1，若i小于可等于NF(记录中域的个数),则执行打印语句，且i增加1。直到i的值大于NF.$&awk&'{for&(i&=&1;&i&NF;&i++)&print&NF,$i}'&test。作用同上。breadkcontinue语句。break用于在满足条件的情况下跳出循环；continue用于在满足条件的情况下忽略后面的语句，直接返回循环的顶端。如：{for&(&x=3;&x&=NF;&x++)&&&&&&&&&&&&&if&($x&0){print&"Bottomed&out!";&break}}{for&(&x=3;&x&=NF;&x++)&&&&&&&&&&&&if&($x==0){print&"Get&next&item";&continue}}&&&&&&next语句从输入文件中读取一行，然后从头开始执行awk脚本。如：{if&($1&~/test/){next}&&&&else&{print}}&&&&&exit语句用于结束awk程序，但不会略过END块。退出状态为0代表成功，非零值表示出错。14.7.&数组awk中的数组的下标可以是数字和字母，称为关联数组。14.7.1.&下标与关联数组用变量作为数组下标。如：$&awk&{name[x++]=$2};END{for(i=0;i&NR; i++)&print&i,name[i]}'&test。数组name中的下标是一个自定义变量x，awk初始化x的值为0，在每次使用后增加1。第二个域的值被赋给name数组的各个元素。在END模块中，for循环被用于循环整个数组，从下标为0的元素开始，打印那些存储在数组中的值。因为下标是关健字，所以它不一定从0开始，可以从任何值开始。special&for循环用于读取关联数组中的元素。格式如下：{for&(item&in&arrayname) {&&&&&&&&&print&arrayname[item]&&&&&&&&&}}$&awk&'/^tom /{name[NR]=$1};&END{for(i&in&name){print&name[i]}}'&test。打印有值的数组元素。打印的顺序是随机的。 &&用字符串作为下标。如：count["test"]用域值作为数组的下标。一种新的for循环方式，for&(index_value&in&array)&statement。如:$&awk&'{count[$1]++}&END{for(name&in&count)&print&name,count[name]}'&test。该语句将打印$1中字符串出现的次数。它首先以第一个域作数组count的下标，第一个域变化，索引就变化。delete函数用于删除数组元素。如：$&awk&'{line[x++]=$1}&END{for(x&in&line)&delete(line[x])}'&test。分配给数组line的是第一个域的值，所有记录处理完成后，special&for循环将删除每一个元素。14.8.&awk的内建函数14.8.1.&字符串函数sub函数匹配记录中最大、最靠左边的子字符串的正则表达式，并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的时候。格式如下：sub&(regular&expression,&substitution&string):&&&&&&&&&&&&sub&(regular&expression,&substitution&string,&target&string)实例：$&awk&'{&sub(/test/,&"mytest");&print&}'&testfile&&&&&&&&&&&&$&awk&'{&sub(/test/,&"mytest");&$1};&print&}'&testfile第一个例子在整个记录中匹配，替换只发生在第一次匹配发生的时候。如要在整个文件中进行匹配需要用到gsub第二个例子在整个记录的第一个域中进行匹配，替换只发生在第一次匹配发生的时候。gsub函数作用如sub，但它在整个文档中进行匹配。格式如下：gsub&(regular&expression,&substitution&string)&&&&&&&&&&&&gsub&(regular&expression,&substitution&string,&target&string)实例：$&awk&'{&gsub(/test/,&"mytest");&print&}'&testfile&&&&&&&&&&&&$&awk&'{&gsub(/test/,&"mytest"),&$1&};&print&}'&testfile第一个例子在整个文档中匹配test，匹配的都被替换成mytest。第二个例子在整个文档的第一个域中匹配，所有匹配的都被替换成mytest。index函数返回子字符串第一次被匹配的位置，偏移量从位置1开始。格式如下：index(string,&substring)实例：$&awk&'{&print&index("test",&"mytest")&}'&testfile实例返回test在mytest的位置，结果应该是3。length函数返回记录的字符数。格式如下：length(&string&)&&&&&&&&&&&&length实例：$&awk&'{&print&length(&"test"&)&}'&&&&&&&&&&&&&$&awk&'{&print&length&}'&testfile第一个实例返回test字符串的长度。第二个实例返回testfile文件中第条记录的字符数。substr函数返回从位置1开始的子字符串，如果指定长度超过实际长度，就返回整个字符串。格式如下：substr(&string,&starting&position&)&&&&&&&&&&&&substr(&string,&starting&position,&length&of&string&)实例：$&awk&'{&print&substr(&"hello&world",&7,11&)&}'&上例截取了world子字符串。match函数返回在字符串中正则表达式位置的索引，如果找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位置，RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串。函数格式如下：match(&string,&regular&expression&)实例：$&awk&'{start=match("this&is&a&test",/[a-z]+$/);&print&start}'&&&&&&&&&&&&$&awk&'{start=match("this&is&a&test",/[a-z]+$/);&print&start,&RSTART,&RLENGTH&}'第一个实例打印以连续小写字符结尾的开始位置，这里是11。第二个实例还打印RSTART和RLENGTH变量，这里是11(start)，11(RSTART)，4(RLENGTH)。toupper和tolower函数可用于字符串大小间的转换，该功能只在gawk中有效。格式如下：toupper(&string&)&&&&&&&&&&&&tolower(&string&)实例：$&awk&'{&print&toupper("test"),&tolower("TEST")&}'split函数可按给定的分隔符把字符串分割为一个数组。如果分隔符没提供，则按当前FS值进行分割。格式如下：split(&string,&array,&field&separator&)&&&&&&&&&&&&split(&string,&array&)实例：$&awk&'{&split(&"20:18:00",&time,&":"&);&print&time[2]&}'上例把时间按冒号分割到time数组内，并显示第二个数组元素18。14.8.2.&时间函数systime函数返回从日开始到当前时间(不计闰年)的整秒数。格式如下：systime()实例：$&awk&'{&now&=&systime();&print&now&}'strftime函数使用C库中的strftime函数格式化时间。格式如下：systime(&[format&specification][,timestamp]&)Table&3.&日期和时间格式说明符格式描述%a星期几的缩写(Sun)%A星期几的完整写法(Sunday)%b月名的缩写(Oct)%B月名的完整写法(October)%c本地日期和时间%d十进制日期%D日期&08/20/99%e日期，如果只有一位会补上一个空格%H用十进制表示24小时格式的小时%I用十进制表示12小时格式的小时%j从1月1日起一年中的第几天%m十进制表示的月份%M十进制表示的分钟%p12小时表示法(AM/PM)%S十进制表示的秒%U十进制表示的一年中的第几个星期(星期天作为一个星期的开始)%w十进制表示的星期几(星期天是0)%W十进制表示的一年中的第几个星期(星期一作为一个星期的开始)%x重新设置本地日期(08/20/99)%X重新设置本地时间(12：00：00)%y两位数字表示的年(99)%Y当前月份%Z时区(PDT)%%百分号 (%)实例：$&awk&'{&now=strftime(&"%D",&systime()&);&print&now&}'&&&&&&&&&&&&$&awk&'{&now=strftime("%m/%d/%y");&print&now&}'14.8.3.&内建数学函数Table&4.&函数名称返回值atan2(x,y)y,x范围内的余切cos(x)余弦函数exp(x)求幂int(x)取整log(x)自然对数rand()随机数 sin(x)正弦sqrt(x)平方根srand(x)x是rand()函数的种子int(x)取整，过程没有舍入rand()产生一个大于等于0而小于 1的随机数14.8.4.&自定义函数在awk中还可自定义函数，格式如下：function&name&(&parameter,&parameter,&parameter,&...&)&{&&&&&&&&&&&&&&&&&&&&&&&&statements&&&&&&&&&&&&&&&&&&&&&&&&return&expression&&&&&&&&&&&&&&&&&&#&the&return&statement&and&expression&are&optional&&&&&&&&}15.&How-to如何把一行竖排的数据转换成横排？awk&'{printf("%s,",$1)}'&filename&&========================================================实例：以下两种语法，输出结果相同[root@localhost&~]#&awk&-F":"&'$2==&"*"&{printf&$0"\n"}'&/etc/shadow&bin:*:99:7:::&daemon:*:99:7:::&adm:*:99:7:::&lp:*:99:7:::&sync:*:99:7:::&[root@localhost&~]#&awk&-F":"&'$2==&"*"&{print&$0}'&/etc/shadow&bin:*:99:7:::&daemon:*:99:7:::&adm:*:99:7:::&lp:*:99:7:::&sync:*:99:7:::
了这篇文章
类别：┆阅读(0)┆评论(0)}

叫阿莫西中心