数据造假现状及应对措施

时间: 2023-11-16 12:58:33 |   作者: 雷电竞入口

  2020年7月14日,教育部发布通知,严查高校毕业生就业数据造假,若按照通知要求进行治理,则能预见此类统计数据的真实性将增加,国家相关部门以此作为部分政策方针等文件制定准则,最终受益的是高校毕业生。

  数据造假存在于各行各业,特别是很多公司的销售报表,据有关估计,数据造假的发生率超过95%,当然有各种各样的原因和理由,其中有些数据造假会致命,且引发严重后果。

  数据造假是非常普遍、十分普遍的现象,本文以部分能查到具体数据的行业和套路等作为基本讨论要点,浅谈数据造假的层次和影响,也给出部分数据造假应对建议。

  上学时候,如果老师催得急,作业量又大,那么非常有可能会出现这样的情况:全班的作业对与错的地方是相同的;当然,作者自己也曾经抄过作业,但是没有与同学错在同一个地方,因为边抄就边把老实做作业的人写错的地方给改正了,据我观察,99%的人抄作业就只会抄作业,面对1+1=3这种最基本的错误也不会去改正。

  总体来说,能让人一眼看出问题的数据,基本属于虚假数据,归为数据作假一级。

  当然,可能也不会那么明显,也许在一段报告里面,前后提到的同一内容的数据不同,但要仔细注意才能发现是虚假数据,写报告的人也许知道,也许不知道,念报告的人也不会去辨别,照本宣科,最后就是贻笑大方。此类数据作假,成本低、影响小,不会产生较大的影响,一般来说,事后改正就解决问题。

  比如:电商刷单、刷好评,到之后的微信公众号买粉、刷阅读量,再到网络直播平台买流量、App机器人用户充数据。

  此前,在国内首起因视频网站“刷量”而引发的不正当竞争案件中,被告杭州飞益信息科技有限公司针对爱奇艺 、优酷土豆、qq视频等主流视频网站上的视频内容“刷量”,对某个视频节目“刷量”1 万次,仅收费 15 元。

  国家统计局公布的 2004 年上半年我国 GDP达到5.877万亿元, 比去年同期增长9 .7%。 从理论上来说, 这些数字必须涵盖中国内地各省, 自治区和直辖市的全部情况。然而, 如果把所有这一些地方政府公布的这期间国内生产总值的数字加起来, 得出的结果是7.027万亿元, 比去年同期增长了13.4 %。两者相差甚大。

  此类数据造假,有隐性的,也有需要进行简单运算得出结果作比较的,对于看到数据的人来说,不会去做验证,也没有必要去做验证,但是基于此产生的影响却是较大的。

  电商刷单、刷好评,最终影响的是其他消费者,假如因此购买了劣质产品,所受损失只能消费者自行承担;再比如,某博、某信买粉丝、买阅读量、买流量,最终的结果是,羊毛出在羊身上猪买单;国家统计数据的造假,会在很大程度上影响政策制定等问题,但此类问题可大可小且无法叙述。

  互联网的发展,科学技术的发展,使得数据造假成本更低,造假方式也更隐蔽和高超,更难被发现和更难被定义。

  2015年,有业内技术人员在知名社区“知乎”上曝料,通过反向编译蜻蜓 FM 安卓版本软件,他发现蜻蜓 FM 软件中隐藏有名为“普罗米修斯”和“宙斯”的强行自启代码。

  前者可以在用户不知情的情况下,在手机后台启动无窗口透明界面;后者则可以自主触发广告商的广告,并回传给第三方数据公司,从而完成“用户自主点击广告”的操作。

  此类作假还包括:某些新兴公司利用大量数据造假,在短期内获得资本青睐,快速上市圈钱跑路,典型的“庞氏骗局”的大大小小平台、公司,数不胜数,倒下一家还有千万家。

  部分数据作假是为了市场和运行宣传推广的需要,如果在可控情况下,那么此类作假虽然性质恶劣,但对市场和消费的人来说,影响不大,影响最大的是股市及部分投机者,因此此类作假,产生的后果也是可大可小,但产生的严重影响可能毁掉某些人的一生、一家。

  相信前段时间的英国脱欧背后的科技公司的高级操作大家都还有印象吧,人工智能大数据公司利用精准的用户画像,给其推送精准信息以此引导人们做出政治倾向的投票。

  这大概算是数据作假的高深层次了,因为本身这一些数据不是假的,都是真的,但是这一些数据又是假的,因为其通过科技影响产生数据的个体做出了有倾向性的选择,使得产生的数据也是有政治倾向性的。

  此类作假产生的影响是划时代的,是有深刻意义的,但无法根据其结果来判定是好是坏,也无法对其采取任何的应对措施,因为其不是针对数据本身作假,而是通过影响数据产生者来影响数据的产生,以达到其希望达到的目的。

  此等级别的数据作假,目前来说可能是已发生了,但我们不知道,也没办法想象,也许隐藏在暗网之下,也许隐藏在普通人无法触及的角落。

  总的来说,本文分类的级别可能是错误的,可能是不准确的,但是能作为一个参考,并且每一级别的例子都是真实存在且发生的,可以查证,也许本文的某些数据也是作假的,但是又有啥关系呢?我们说的事实是真实存在的,下面给出部分数据作假治理措施和方式,仅供读者参考。

  中国首席数据官联盟专家成员鲍忠铁表示,许多面向用户端的互联网公司都希望讲述一个迅速增加的“独角兽”的故事,而市场占有率、客户数量、日活用户等数据就成了体现企业估值快速提高的重要指标。

  鲍忠铁在移动网络界工作多年,他对一些App 宣称的用户数量嗤之以鼻。据他的观察,很多App的下载量和用户量都能够最终靠技术方法造假。

  因为安卓系统的开放性,破解系统权限后,一台平板电脑设备上还可以装 10 多个同样的 App,配合不需实名制的虚拟运营商电话卡,能形成十多个看似真实、独立,实则批量化的虚假用户。而且,由于虚拟运营商的手机号可以包月使用,这样的造假手法成本得以进一步降低。

  重庆大学网络与大数据法治战略研究院院长齐爱民分析,公司运营数据和融资数据“好看”了,既方便部分投资机构退出,也能让“刷量”的水军商家从中牟利;内容方能够最终靠大量刷取点击量,炮制市场火爆的假象,进而吸引真实用户的目光 ;平台方也一定要通过这种假象来营造优质平台的形象,从而进一步吸引广告投放。

  远瞻资本合伙人秦岗表示,由于许多公司数据“注水”,大多数投资机构不再将企业自己公布的数据作为评判一个勇于探索商业模式的公司或产品的主要指标,可能会聘请第三方数据机构来开展尽职调查,以验证各项数据指标的真实性。

  前海梧桐合伙人王蔚分析,互联网公司很常见的是在运营数据上造假,包括用户数据、产品数据、财务数据等,因为这类数据能够在一定程度上帮助企业获得激烈竞争中的优势地位,提升业务合作报价。

  统计执法检查发现,领导干扰统计数据占全部案件的90%以上。数据作假基于事实需要等诉求,使用各种方式各种手段进行数据造假,更直白且直观的是,偷税漏税,全部行业没有一个是无辜的。

  因此我们要坚持科学发展观,并别一味追求数据指标,改变相应的考核标准及硬性条件依赖等,使部分简单数据作假消失,当没有需求的时候,那么自然就不会存在作假了。

  该策略适合各大自媒体、新闻机构等发布时事消息或者热点事件等的数据标准,注明数据引用来源和出处,就算错误了,那么接收信息、接收数据的人,也会对该数据保持一个清醒的认识,毕竟很多数据对于人们来说只是个数据参考而已,不会真正用来做什么事。

  另外,这也是科学数据库的一个标准,而且是必须的,有了引用,有了来源和出处,那么当出现错误数据的时候,就能很好地去论证与修正了。

  利用大数据和人工智能、区块链、机器学习等技术进行数据的交叉验证比对,同一个类型的数据,总是具备一定的规则,具备一定的判断准则,出现某个数据存疑时,可选择其关联的其他数据作为依据,横向纵向论证对比,找到确定依据和质疑依据,这样的形式在快捷、方便、准确性等方面具备独特优势。

  如果某些数据本身的价值被降低或者舍弃了,那么数据造假就没有存在的意义了,比如:明星都不看流量了,那么流量数据本身就不会存在了,但这类问题和现状不是一时能改变的,只能说存在于理想中。

  其他更多更好的办法,就需要各行各业的自身约束,需要八仙过海各显神通了。如果您有更好的建议,欢迎提出来,大家一起学习。

  [1].我国统计数据造假的成因及治理对策探讨[J].雷宏,雷春.经济理论与实践.求实Ⅱ.2005

  [2].数据造假成“套路” 最终受伤的是谁[J].王林,张均斌.智慧中国返回搜狐,查看更加多



上一篇:解决“统计数据造假”老问题要有新方法 下一篇:官员称统计造假原因复杂 造假情况局部有加重现象

    关于我们

    雷竞技安卓下载