关于数据仓库、数据挖掘、商业智能等技术和业务讨论的数据分析专业社区网站。我们的目标是把各应用领域的业务专家、数据分析专家、IT专家以及这些领域的从业人员,学习者等等通过网站关联起来高效率沟通交流知识,打破相互间的鸿沟,使企业和用户能在海量数据中寻找出价值。
近年来,由于存储设备的单位成本以惊人的速度下降(1G硬盘空间的成本现在只需要几美分,这在过去难以想象),我们可以轻而易举地积累起大量的数据。电信运营商,可以记录用户通话、短消息、无线上网产生的每一条信令,省级运营商一小时写入存储设备的数据量可以达到几百G。电子商务网站,可以记录用户的每一次交易,甚至每一次点击,可以复原用户的完整访问路径找出用户的兴趣点。城市监控体系,在各个重要路口,高速公路上的摄像头,每秒钟都在产生海量的视频数据。在生命科学领域,对人体的DNA分析,一个个体就能产生几个G数据,可以想象如果一个生物信息数据库里包含了成千万的个体数据,信息量将会是怎样一个规模,如此等等,不胜枚举。我们毫无疑问,正处于一个信息爆炸的时代。
很不幸的是,我们得到了大量的数据,而这些数据中的绝大部分,在它的生命周期里基本上都被闲置着,从来没有考虑过产生任何的价值,唯一的用途就是“保存备查”。尽管“啤酒与尿布”的故事,已经写入教科书有10多年了,几乎每一个接受过专业教育的同仁都知道数据挖掘能产生的价值,但是直到今天,我们对数据的处理依然停留在按预定指标进行统计这种很低的水平上。造成这种情况的原因有很多