使用awk的二维数组解决一个日志统计的实际问题-白红宇

使用awk的二维数组解决一个日志统计的实际问题

阅读量：7091 次

发布时间：2019-06-28

本文共 1868 字，大约阅读时间需要 6 分钟。

项目中遇到的一个实际问题，日志如下

2013-09-13 00:06:09:adid:100002542013-09-13 00:06:14:adid:100002542013-09-13 00:06:43:adid:100002532013-09-13 00:06:48:adid:100002542013-09-13 00:07:07:adid:100002542013-09-13 00:07:12:adid:100002542013-09-13 00:07:19:adid:100002542013-09-13 00:07:32:adid:100002542013-09-13 00:08:05:adid:100002542013-09-13 00:08:20:adid:100002402013-09-13 00:08:28:adid:100002532013-09-13 00:08:32:adid:100002532013-09-13 00:08:41:adid:100002542013-09-13 00:09:02:adid:100002532013-09-13 00:09:10:adid:100002542013-09-13 00:09:11:adid:100002402013-09-13 00:09:18:adid:100002542013-09-13 00:09:19:adid:100002542013-09-13 00:09:27:adid:100002542013-09-13 00:09:28:adid:100002402013-09-13 00:09:32:adid:100002532013-09-13 00:09:34:adid:100002402013-09-13 00:09:59:adid:100002532013-09-13 00:10:05:adid:100002542013-09-13 00:10:07:adid:10000253

我想要按照小时去统计adid的个数，awk的多维数组在本质上是一维数组，更确切一点，awk在存储上并不支持多维数组。awk提供了逻辑上模拟二维数组的访问方式。例如，array[2,4] = 1这样的访问是允许的。awk使用一个特殊的字符串SUBSEP (\034)作为分割字段，在上面的例子中，关联数组array存储的键值实际上是2\0344。

类似一维数组的成员测试，多维数组可以使用 if ( (i,j) in array)这样的语法，但是下标必须放置在圆括号中。类似一维数组的循环访问，多维数组使用 for ( item in array )这样的语法遍历数组。与一维数组不同的是，多维数组必须使用split()函数来访问单独的下标分量。split ( item, subscr, SUBSEP)。

代码如下：

awk 'BEGIN{ay[1,10]=5;ay[10,2]=12;}END{for (k in ay) {   split(k,idx,SUBSEP);   print idx[1],idx[2],ay[idx[1],idx[2]];   }}'或者awk 'BEGIN{ay[1,10]=5;ay[10,2]=12;}END{for (k in ay) {   print k,ay[k];   }}'

得到结果如下：

2013-09-13 00 10000239 762013-09-13 00 10000240 1552013-09-13 00 10000253 892013-09-13 00 10000254 1482013-09-13 01 10000180 1212013-09-13 01 10000181 832013-09-13 01 10000239 422013-09-13 01 10000240 1392013-09-13 01 10000253 562013-09-13 01 10000254 802013-09-13 02 10000180 462013-09-13 02 10000181 562013-09-13 02 10000239 162013-09-13 02 10000240 862013-09-13 02 10000253 262013-09-13 02 10000254 45

转载于:https://my.oschina.net/wojibuzhu/blog/162490

你可能感兴趣的文章