如何进行大数据的采集(数据采集和分析)
虽然大数据不再是一个新词,每个人都可以说出两个关于大数据的话,一旦你仔细观察,什么是大数据,大数据来自哪里,如何应用它,我相信很多人目前尚不清楚。
由东北大学,沉阳市政府和战略投资者共同投资的东北大学东网科技有限公司拥有一个计算中心和云计算中心,每秒计算能力为1170 teraflops,云存储空间为30 PB。目前,东旺科技正与沉阳市环境保护局合作,通过大数据技术开展大气环境监测预报。随着对大数据的好奇,记者走访了公司。
得到10%的信息,预测剩余的90%,这是小数据;并掌握90%的信息,预测其余的,这是大数据
在尚未平整的荒野中,矗立着一座具有现代科技感的建筑:深蓝色圆形玻璃幕墙和航空级安全。这种场景类似于美国科幻大片中的场景。
经过一系列的安全检查,记者能够进入东旺科技的超级计算中心和云计算中心。机房内密集布置了一个高度超过2米的黑色橱柜。 “在左侧是超级计算机,右侧是云存储,”东旺科技的员工董伟说。
这与大数据有什么关系? “超级计算能力和云存储相当于大数据的大脑,这是大数据的必要硬件条件。”东网科技总经理杨宝伟作了个比喻。对于东圃科技每秒1170万亿次浮点运算的计算能力,杨宝伟表示,这是中国目前超级计算机中最好的,而30PB是一个存储容量,相当于64GB智能手机存储的约50万容量。能力之和。
什么是大数据?从互联网上,答案是多种多样的。 “对于某些事情,如果您了解10%的信息,预测剩余的90%,这是小数据,您需要进行抽样然后进行概率分析;并掌握80% - 90%的信息,预测剩下的10个% - 20%,是大数据。也就是说,大数据是通过智能分析,预测和预测事物来覆盖某个事物的样本空间。“杨宝伟试图解释他所理解的大数据。最简单的话。
对于大数据,杨宝维被称为“经验主义的复活”。在过去,我们通过观察和经验,在大脑分析之后引导人类活动,例如观察一些天文现象。后来,人类发展到一定阶段后,人脑计算的信息越来越多,却发明了一台计算机来帮助处理信息。当前的超级计算有助于处理更多信息,大数据下的超级计算是通过大量可靠样本提供的经验计算和预测复杂事件。
天气预报是一个直观的例子。人类能够进行天气预报,因为可以在数字世界中使用足够的数据虚拟化事物。因此,对于天气预报,我们将今天的天气数据放入计算机并模拟虚拟世界中的天气变化。也许超级计算机只需10分钟即可预测某个地方3天后的天气状况。
大数据技术包括数据采集 - 传输 - 集中存储 - 再处理 - 重新应用等,其中采集是关键
大数据来自哪里,我们可以通过什么方式获得它?很多人直观地认为数据主要来自互联网。
目前有三种获取数据的渠道:
第一,来自互联网的数据。例如,阿里巴巴的交易数据,百度的查询数据,腾讯的通讯数据,“这些都是外围设备”。
第二,来自政府的数据。这是真正的核心数据。例如经济运行数据,人口数据,地理数据,政府服务数据和公共服务数据。
第三,重新获得原始世界的数据收集。这是因为越来越多的先进技术被用于收集更多数据。这是物联网。我们希望每个对象都是一个传感器,并始终返回数据,而物联网的发展将极大地丰富数据。
然而,大数据的真实核心数据,即政府持有的数据,大多处于“死亡”状态。如何激活它还有待探索。该行业的许多专家都呼吁政府开放一些不敏感的数据和影响
我认为数据的采集有两种方式。
第一种就是我们日常上网产生的大量的流量数据。这些数据都是公司进行管理的,我们一般是见不着的。
第二个方式就是经过有目的的去爬取网站上的数据。在这个方面,我建议您可以在网上学习一下网站爬虫的知识。
这就是我对这个问题的看法。回答了不多,技术还得去学习,希望能帮助到您。
有帮助的话,关注支持一下哟
感谢坚持关注的朋友~
世界很大,幸好有你~
欢迎在评论区留下你的问题或困惑,我将每天与你分享我的观点和心得。
聚焦最新科技咨讯,探寻未来智能领域,我是Mario女陶。
留言与评论(共有 0 条评论) |