对于大数据统计工作,在人对结果不能准确校验的时候就容易造成这样一个现象:统计结果是错误的,或者存在较大的误差,但是人可能感知不到,并将这个结果作为它用,造成一定的错误影响。
那么如何确保统计结果的正确呢?
比如,对于同一个统计结果,通过不同的途径进行统计。就类似于一道题 采用不同的解法,如果得到相同的结果,那就说明大概率是正确的;
另一种方式是如果可以理论上说明两个统计量A B 之间有一定的关系,那么在统计一个统计量A的时候,将B也统计出来,如果有这种关系那么说明大概率是正确的。
最重要的,写代码是认真,仔细,最好找人review。尽可能从代码上保证统计的正确性