大数据的含义和作用是什么
先解释大数据。
大数据是指大数据集,以前由于储存介质的限制,无法储存大量数据,每一个数据都是经过尽挑细选的,在保留了重要数据的同时也会丢失一些次要数据。
随着网速的增加,储存介质的低成本化,通过获取、存储,随着数据数量越来越多,我们能分析的数据也就越来越多。
我简单做个模型来解释大数据搜集和应用的过程。
如我要分析疫情期间世界人民对于韩国疫情的看法和态度,怎么办?
以前的方法就是问卷调查,选择几个人发几张问卷,然后分析,时间慢,样本量不足,都有很强的局限性,那么有了大数据呢?
首先用爬虫技术(搜集阶段)对社交媒体,如今日头条、微博等进行大规模的数据下载,仅仅这一下我就可以搜集到几百万条数据。
但因为搜集到的数据他没有逻辑性,他不是结构化数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。
然后进行整理(数据清洗),如对发评论的人的地理位置,性别,年龄以及发的话的关键词进行清洗。转变为结构化数据
经过上面的步骤,我们就有可用的大规模的数据,然后利用简单的编程,提取出某些关键词,比如:“控制”,“口罩”,“完蛋”等。
就可以做情感分析,根据原本有的语言情感库,就可以知道大家对韩国疫情的看法,持有这些看法的人的年龄,地区和性别等。在进行更深一步的了解,为心理相关部门,政府部门提供决策参考。同时作为今后发生流行病我们应该怎么处理提供可行性方案。
对个人企业来说,你可以通过大数据分析,知道你的产品是否受欢迎,应该怎么改,你的同行是怎么做的,买家对他的评论是什么样子的。应用方向很多。
0