融媒-logo

什么是大数据 大数据有什么意义,只是仅仅负责采集和收集数据吗

发布时间:2019-09-17

“大数据”是指数据量大、类别大的数据集,传统的数据库工具无法捕捉、管理和处理这些数据集。“大数据”首先指的是数据量(卷)?大,是指大数据集,一般为10TB?在实际应用中,许多企业用户将多个数据集合在一起,形成了PB级的数据;其次,数据类别(多样性)大,数据来源多样,数据类型和格式越来越丰富,突破了以前的结构化数据类别,包括半结构化数据和非结构化数据。其次是数据处理速度(Velocity),它也可以

数据采集:ETL工具负责从分布式和异构数据源(如关系数据、平面数据文件等)中提取数据到临时中间层,然后进行清理、转换和集成。最后,将ETL工具加载到数据仓库或数据集市中,成为在线分析、处理和数据挖掘的基础。

数据访问:关系数据库、NOSQL、SQL等。

基础设施:云存储、分布式文件存储等。

数据处理:自然语言处理(NLP,自然语言处理)是人类与计算机交互的语言问题的一个研究课题。自然语言处理的关键是使计算机“理解”自然语言,因此自然语言处理也称为自然语言理解,也称为计算语言学。它一方面是语言信息处理的一个分支,另一方面又是人工智能(AI)的核心学科之一。

统计分析:假设检验、显著性检验、差异分析、相关分析、t检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测及残差分析、岭回归分析、逻辑回归分析、曲线估计、因子分析、聚类分析、主成分分析因子分析、快速聚类分析、判别分析、对应分析、多元对应分析(最优尺度分析)、自举技术等。

数据挖掘:分类(分类)、估计(估计)、预测(预测)、关联分组或关联规则(相关性分组或关联规则)、聚类(聚类)、描述和视觉、描述和可视化)、复杂数据类型挖掘(文本、Web、图形、图像、视频、音频等。)。

模型预测:预测模型、机器学习、建模与仿真。

结果:云计算、标签云、图表等。

要理解大数据的概念,我们应该从“大”开始,“大”是指数据的规模。大数据通常指大于10 TB(1 TB=1024 GB)的数据量。大数据与过去的海量数据不同。其基本特性可以概括为四伏(体积、种类、值和Velocc-ity),即,大体积、多样性、低值密度和快速速度。

模型预测:预测模型、机器学习、建模与仿真。

结果:云计算、标签云、图表等。

要理解大数据的概念,我们应该从“大”开始,“大”是指数据的规模。大数据通常指大于10 TB(1 TB=1024 GB)的数据量。大数据与过去的海量数据不同。其基本特性可以概括为四伏(体积、种类、值和Velocc-ity),即,大体积、多样性、低值密度和快速速度。

 

转载自:https://baijiahao.baidu.com/s?id=1638117074417025714&wfr=spider&for=pc