本帖最后由 aubonj 于 2009-9-14 02:36 编辑
第六周
日本精神
各项工作继续,依然涉及面很广,从专利,科学刊物,贸易流,到经济集中和分散度,铺天盖地的事务,办公桌上的草稿纸一摞一摞的乱七八糟。有时不小心打开窗户一刮风,就像电影里面一样纸片飞满天。此时我也开始考虑到最后该如何为这些工作收尾。我打算要开始构思最后的报告了,可是一直没有时间。
这是,之前提到的贸易报告不一致性问题被提到日程上来,并且打算送香港的再转口贸易数据起进行订正。 N 先生找到了香港统计局提交的 99 至 08 年代再转口贸易详尽数据。
应要求,我先进行了一个初步测验,发现香港进口的货物量无论是除以其 GDP 总量还是除以其人口总量都远高于世界任何一个发达国家水平。这就是说,香港人是无论如何都不可能消耗掉这些报告上来的全部入口产品的。也就是说,这些入口的货物中有很大一部分是用于再转口到其他国家和地区。其中占超过百分之九十到九十五的都是来自中国大陆的再转口,另外就是台湾,日本,韩国等。而香港的再转口也仅仅占中国全部的再转口的百分之四十左右。
接着就要将这些再转口数据按照行业归总。可是这些数据的行业代码是 HS 码,我们这里使用的是 ISIC 码,二者之间没有直接转换,或者说,专门负责代码转换的工作人员还未能完全制成其转换矩阵。
N先生要求我来将之转换了并将数据更正到之前的双边数据库中去。我当时简单的凭着一个工程师的直觉感到很惊讶,这,这要多少工作日啊~这是日本精神吗?
事实上,这不是第一次,上一次是 N 先生要我人工去校对所有中国专利的可疑申请名,我立刻就告知他,这应该要超过四到六个月的时间,我不可能完成。(我不是那种能对着美军喷火器冲锋的日本士兵,因为我知道那样没有意义)
其实还
有一次, N 先生要求对检索不到行业领域的公司挨个上网去搜索,人工填写其详细信息(出于提高生产率的角度,我觉得这样很不可行)。意大利人 Gr 说,这要太多时间了,我以前试过,我知道这样不行,然后 Gr 很自豪地,以一种有经验人士的心情说,我自己已经订正了 1000 个了,但是这用了我两三个月时间,我知道这样不行。
N先生接着带着一点轻淡的笑意说,我订正了 5000 个了。
Gr万分惊讶,不,这不可能,你订正了 5000 个?!
N说,是的。
Gr带着一种不相信的眼光看着他,问,你用了多久?
一年。 N 很平静的说。
Gr不说话了,遇到这样的工作狂,还能说什么。
其实要我说,这种工作,出于提高生产效率的角度,就应该去找个像什么 Sopra Group 啊,甚至是 Google 的开发部门啊,和他们合作或者外包给他们,让他们这些专业团队制作出一个可靠,高效的专业软件,很好的处理这个问题,这样相信长期成本回归后,应该更加省钱也更加可靠。不然的话,始终都有着一定的错误率。当然,完善全球的统一统计体制和标准才是最妥善解决这个问题的关键。
不过事实上我们还是用着 Gr 自己开发的,始终没法卖出去的一个 Java 程序来进行名字配对。例如中国的数据,这个程序要跑超过一个星期,而且这个程序很脆弱,跑的时候最好不要去动电脑,万一咋了就会当机。日本的数据跑了两个星期还没有过半,后来不知道为什么电脑自动关闭了,只好重来。
虽然这样的工作精神是十分可嘉的,可是我不认为这样的工作方式是可取的。
回到刚刚的场景, N 先生要我去完成两种行业代码的转换,我看了看,一个代码系有近十万个代码,另外一个有近一万个代码,而且里面没有一个已有的转换矩阵,只有一份粗略统计的间接代码转换表,还不全,每年都有很多新的代码加入。更加麻烦的是,这里面的转换不是一对一的,而是 1 对 n , n 对 1 ,甚至是 n 对 n 的,有时是没有明确答案的,有时是要去网上具体查的。
这个又是一个需要明确分工才能妥善完成的事情,因为这么一个工作是需要有人专门花很多人家去,一心一意的专门把代码转换做好,另外一些人才能接着把另外的分工做好。如果不是专门花时间,并且看很多和这方面有关的书籍,查阅很多细致的资料,这个工作是做不到位的。这不是一个推卸责任的话,这是一个负责任和理性的估计。不然,肯定会有很多的错误。而事实上,这里面牵涉到三种代码,而有一种代码还在期间升了级,导致了很多统计上的转换问题。这个问题现在司里面有超过两三个人在长期专门做,可是一个细致具体的完善解决方案还是没有。
事实上,我提出,如果对于总体货物的修正,这个是可以立刻做的,可是如果要是细致到每个 code ,这个是现在做不出来的,并且粗略一些细致到一些大的产业分类也是无法保证绝对可靠的,有时候就是一个 code 的问题,而如果这个国家的这种产品又是大量产出的,那么错误率就特别大了。但是也许花足够时间,可以对一些更加归总的如农业,矿业,制造业大类进行修正,这个还是可以的。
不过暂时, N 先生还是要我开始转换 code 。
我想了想,这个东西只能用自动化的办法,不然是看不到终点的。
我就开始找了一份已有的不完全转换表,写了一份检索程序,再输出到 Excel 底下(我还没有用过 Perl ),然后让其自动检索。这个过程用了超过一个小时,居然 N 就过来问做完没有!
我很惊讶,让他看我做到哪里,他看到我在用自动检索的电脑方式来做,似乎不太满意(事实上我发现他有时非常喜欢看到别人和自己去手动勤奋地解决一些复杂问题)。但是他似乎有一时说不出怎么做。
他说,不是,不是这样,很难说怎么做,我来做,我一个小时就能做完。
于是他就搬上东西,做到我旁边空着的桌子前,开始自己做转换。我就开心的去做我自己的事情了,因为我的事情也很多。
而我很惊讶地发现,他真的是用半自动的手动方式去对着一份表格进行半自动手动填充的!勤奋的日本人啊!
头晕眼花
虽然我觉得这样的方法很不好,但是既然有人能替你这样做,也乐意这样做,就由他吧。就像在国际贸易中一样,如果中国的企业主愿意去压榨自己的劳工,用过于低回报的方式来取悦国际市场,国际买家没有什么可以抱怨的,因为那是他们自己乐意的。只要一天他们还自己乐意,能为世界服务,就让他们自己继续,这至少对于买家来说是件好事。
于是我们就各自做各自的事情。我好像是在进行另外一项统计和计算,并且正在写其中的初步分析。他用电脑的键盘用得特别好,各种快捷键的配合下,他的操作效率是很高,当然,是相比于普通人手来说,这个效率比较高。
一个小时过去了。我们还在各自做自己的事情。
两个小时过去了。他开始在一边叹气,一边继续不停地做。
又过去了的几十分钟,他说,他基本做完了,还有一些找不到 code 的地方,让我去 UN 的网站上通过间接的方式,先转换成另外一种 code ,再转换到最终的 code 。
鉴于这个不是很多,我就答应了,并且在半个小时内做完了。这都是给 99 年数据的。
可怕的是,他收到我最后整理的结果后,说,很好,这里是 00 年到 08 年的,你同样都做了吧。
Merde!他一定没有学过成本核算!
那天,我加班到 9 点,最后我已经头晕眼花了。 Z 老师看到我还没有走,就进来问候我。我说正在做 N 给的东西,很繁杂。 Z 老师看了,说这样做,会不会有错误。我说错误肯定有,统计性的。由于我已经昏掉了,还说出了一句很震动人的话,如果一千个里面错一个,而这一个不会影响到另外九百九十九个,总体错误应该不大。看来我已经预备了一千个里面错一个了。
看样子 Z 老师觉得这样很不可取,可是他也没有直接说什么。然而按照 N 的要求,我是要像他那样用眼睛去一个个的处理了。也许他认为那样可靠,可是事实上我认为这样最不可靠。统计的东西一定要用自动的没有错误的方式,人一千个里面总有几个错误。
我实在看不到终点,我还是在 9 点钟回家了。
红牛的日子
晚上睡了一觉,第二天我一大早 8 点就来到办公室,喝了瓶红牛,我说不行,我不是日本人,我不能那样搞。我晚上已经构思了一份配合着 SQL 和 Excel 一起的间接自动检索方式,来回倒来倒去的,不过还应该能行。于是我就用这种方式在三个小时内将包括 99 年在内到 08 年的数据都处理了。之后我碰到 Z 老师,还跟他说起,我今天没有用 N 的方式,还是开发了一个自动的方式,这样不会有人工的错误,虽然应该结构上的固有错误(例如两个 code 的转换或者 code 本身定义方面的问题)还是存在的。 Z 老师觉得这样还挺好,毕竟,毕竟,我们不是日本人。
下午,我发现即便做了相应的修正,这个最终出来的数据,对于总体货物是好的,可是细致到每个产业分类就开始随着不同的国家开始出偏差,尤其是对于像日本,韩国,中国的偏差特别大,因为这些国家每年新增的新产品特别多,加上 code 的本身编制和定义上的不统一性,有的产品被定义的方式一直在变,而如果这种产品的产量有很大的话,这个修正就是彻底不可取的。
我于是决定去和司里面专门搞这个的工作的 C 先生谈谈。其实昨天中午的时候,我已经看到 N 和 C 在办公室里面谈了,应该 N 是对于这些问题是了解的。
C虽然不是完全具体做这个 code 的标准的,但是他是一只专门做各种 code 的标准的。他在这方面有很多很全面和具体的见解和知识。他跟我一讲就是四十五分钟,其实我只是想要知道,究竟有没有一份可靠的转换方式。当然,大意上他是说有很多的转换已经做好了,可是总还有一些没有最终解决,例如有一个 code 似乎由于定义而无法解决,并且导致了换用新 code 的两年之间的巨大的统计问题。
我将这些问题提交给 N 并且提出先对其所关注的 ICT 和总体货物进行修正,如果有时间可以对比较大的类别进行修正尝试,而对于细致的分类,这个应该不是暂时可以解决的问题。
最后解决完这个问题,我松了一口气,回到我的办公室,坐在椅子上喝着红牛放松。
2009-9-14 01:18:23