大数据综述-大数据综述(全文)
位置: 首页 >专题范文 > 公文范文 > 文章内容

大数据综述-大数据综述(全文)

2022-08-10 16:18:02 投稿作者:网友投稿 点击:

下面是小编为大家整理的大数据综述-大数据综述(全文),供大家参考。

大数据综述-大数据综述(全文)

 

 大数据综述 大数据:

 下一个创新、 竞争和生产力的前言 麦肯锡认为, “大数据” 是指大小超出了典型数据库软件的采集、 存储、 管理和分析等能力的数据集。

 该定义有两方面内涵:

 一是符合大数据标准的数据集大小是变化的, 会随着时间推移、 技术进步而增长; 二是不同部门符合大数据标准的数据集大小会存在差别。

 目前, 大数据的一般范围是从几个 TB 到数个 PB(数千 TB)。

 大数据可以发挥重要的经济作用, 不但有利于私人商业活动, 也有利于国民经济和公民。

 数据可以为世界经济创造重要价值, 提高企业和公共部门的生产率和竞争力, 并为消费者创造大量的经济剩余。

 麦肯锡认为, 随着人们存储、 汇聚和组合数据然后利用其结果进行深入分析的能力超过以往, 随着越来越尖端技术的软件与不断提高的计算能力相结合, 从数据中提取洞见的能力也在显著提高。

 麦肯锡对大数据的具体研究成果可以归纳为 5个方面。

 一、 全球数据现状及发展趋势 1、 数据量呈现指数级增长 2、 不同行业的大数据强度和内容各有不同 3、 现有趋势将继续推动数据增长 4、 大数据是继传统 IT 之后下一个提高生产率的技术前沿 二、 大数据的关键技术 从大数据中挖掘更多的价值, 需要运用灵活的、 多学科的方法。

 目前, 源于统计学、 计算机科学、 应用数学和经济学等领域的技术已经开发并应用于整合、 处理、分析和形象化大数据。

 一些面向规模较小、 种类较少的数据开发的技术, 也被成功应用于更多元的大规模的数据集。

 依靠分析大数据来预测在线业务的企业已经并持续自主开发相关技术和工具。

 随着大数据的不断发展, 新的方法和工具不断被开发。

 1、 可用于大数据分析的关键技术 可用于大数据分析的关键技术源于统计学和计算机科学等多个领域, 其中关于分析新数据集方法的研究仍在继续。

 需要注意的是, A/B 测试、 回归分析等技术也可应用于小数据集分析。

 麦肯锡认为, 可用于大数据分析的关键技术主要包括 A/B 测试、 关联规则挖掘、分类、 数据聚类、 众包、 数据融合和集成、 数据挖掘、 集成学习、 遗传算法、机器学习、 自然语言处理、 神经网络、 神经分析、 优化、 模式识别、 预测模型、回归、 情绪分析、 信号处理、 空间分析、 统计、 监督式学习、 无监督式学习、模拟、 时间序列分析、 时间序列预测模型、 可视化技术等。

 P7 有详细定义。

 数据融合和集成:

 集成和分析多个来源数据的技术, 比分析单一来源数据更能获得高效、 可能更精确的结果。

 例如:

 从网络采集的数据经过整合对复杂的分发系统的表现, 比如炼油。

 数据挖掘:

 结合数据库管理的统计和机器学习方法从大数据提取模式的技术。

 包括关联规则学习、 聚类分析、 分类和回归。

 集成学习:

 通过多个预测模型(均通过使用统计数据或机器学习开发), 以取得比任何成分模型更好的预测效果。

 机器学习:

 有关设计和开发算法的计算机科学(曾被称为“人工智能”), 允许电

 脑基于经验数据进化。

 自然语言处理:

 使用计算机算法来分析自然语言的一组技术。

 模式识别:

 依照一种特定的算法给某种产值(或标签)

 分配给定的输入值(或实例)

 的及其学习技术。

 预测模型:

 通过建立或选择一个数学模型得出最好预测结果的模型。

 回归:

 确定当一个或多个自变量变化时因变量变化的程度的统计技术。

 空间分析:

 源于分析拓扑、 几何、 地理数据的统计技术。

 监督式学习:

 从一组训练数据集推断一个函数或关系的机器学习技术。

 无监督式学习:

 用于找到未标记数据中的隐形结构的机器学习技术。

 模拟:

 为复杂系统的行为建模, 常用于预测和情境规划。

 时间序列分析:

 组源于统计数据和信号处理的技术, 从一组连续的时间值代表的数据点提取有用的信息。

 时间序列预测模型:

 利用过去相同或其他系列的时间序列值来预测未来的模型。

 2、 专用于处理大数据的关键技术 麦肯锡认为, 可专门用于整合、 处理、 管理和分析大数据的关键技术主要包括Big Table、 商业智能、 云计算、 Cassandra、 数据仓库、 数据集市、 分布式系统、Dynamo、 GFS、 Hadoop、 HBase、 MapReduce、 Mashup、 元数据、 非关系型数据库、 关系型数据库、 R 语言、 结构化数据、 非结构化数据、 SQL、 流处理、可视化技术等。

 3、 可视化技术 麦肯锡认为, 可视化技术是大数据应用的重点之一, 目前主要包括标签云、Clustergram、 历史流、 空间信息流等技术和应用。

 三、 大数据应用于各行业的关键发现 大数据的有效利用可以创造巨大的潜在价值。

 许多行业和承担业务职能的组织可以利用大数据提高人力、 物力资源的分配和协调能力, 减少浪费, 增加透明度,并促进新想法和新见解的产生。

 大数据可以通过多种方式创造价值:

 1、 创建透明度 仅仅让利益相关方能够更加容易地及时获取信息, 就可以创造巨大价值。

 例如,在公共部门, 让原本相互分离的部门之间更加容易地获取相关数据, 就可大大降低搜索和处理时间。

 在制造业, 整合来自研发、 工程和制造部门的数据以便实现并行工程, 可以显著缩短产品上市时间并提高质量。

 2、 通过试验来发现需求、 暴露可变因素并提高业绩 3、 根据客户需求细分人群 利用大数据使组织能够对人群进行非常具体的细分, 以便精确地制定产品和服务以满足用户需求。

 例如, 在公共部门, 例如公共劳动力机构, 利用大数据, 为不同的求职者提供工作培训服务, 确保采用最有效和最高效的干预措施使不同的人重返工作岗位。

 4、 通过自动化算法替换或支持人为决策 成熟的分析方法能够显著改善决策过程、 实现风险最小化。

 以及揭示本来隐藏着的洞见。

 大数据可以提供算法研究或者算法执行所需要的原始材料。

 5、 创新商业模式、 产品和服务 大数据让企业能够创造新产品和服务, 改善现有产品和服务, 以及创造全新的商业模式。

 医疗保健领域, 通过分析病人的临床和行为数据已经创造了瞄准最适当

 群体的预防保健项目。

 制造企业通过内嵌在产品中的传感器获取数据创新售后服务并改进下一代产品。

 实时位置数据的出现已经创造了一套全新的从导航应用到跟踪的服务体系。

 大数据的运用对各个行业都具有重要意义, 在某些行业将产生更大收益 基于一个融合了多种量化指标的潜在价值指标, 比较美国各个行业生产率的历史和利用大数据获取价值的潜力, 可以观察到行业间的模式迥异。

 大数据在全球范围内提供了非常巨大的潜在价值, 有些地区可能会最快获得 麦肯锡研究的案例覆盖了发达经济体和新兴经济体, 研究结果表明, 利用大数据可以跨地域获取显著价值。

 通过大数据实现价值的重要制约是人才短缺 通过大数据实现实现价值的一个重要制约因素是人才短缺, 尤其是缺少拥有统计学和机器学习方面专长的人, 以及知道如何通过运用从大数据获得的洞见来运营企业的管理者和分析师。

 麦肯锡预计, 截止 2018 年, 美国大数据领域中深度分析人才职位的需求会超过供给, 缺口为 14 万到 19 万个职位。

 这类人才不仅需要具备固有的数学能力, 还需要数年的培训。

 为充分获取大数据潜力必须解决的主要问题 1、 数据政策 由于大规模的数据是数字化的和横跨组织边界的, 因此一些政策问题将变得越来越重要, 其中包括但不限于隐私、 安全、 知识产权和责任。

 随着大数据的价值愈加明显, 隐私是个语法重要的问题(尤其是对消费者来说)。

 另一个更紧迫的问题是数据安全。

 2、 技术和技能 要通过大数据获取价值, 组织将不得不部署新的技术(例如存储、 计算和分析软件)

 和技能(新的分析类型)。

 3、 组织变革和人才 组织领导往往对大数据蕴含的价值以及如何释放这一价值缺乏了解。

 4、 数据访问权 越来越多的公司需要访问第三方数据来源并将自身信息与外部信息进行集成以充分获取大数据的潜力。

 在许多情况下, 市场尚未建立交易或共享数据机制。

 为了充分获得大数据带来的价值, 需要克服数据获取的阻碍。

 5、 行业结构 从大数据中获取价值的难易有时会取决于个别产业或行业的结构。

 麦肯锡研究表明, 大数据可以在很大的范围内创造价值, 但为获取最大效益将需要所有参与者来克服一系列的障碍和解决公众深切关注的关键问题, 特别是隐私和安全。

 四、 企业应用大数据的建议 随着大数据称为越来越有价值的资产, 有效运用大数据成为企业竞争的关键, 企业管理者有必要开始将大数据纳入企业规划, 并从 5 方面利用大数据创造价值。

 1、 盘存数据资产:

 私有、 公共和购买 2、 明确创造潜在价值所面临的机遇和挑战 充分利用大数据的最有效途径是采取目标明确的实验 (大数据元应用程序实验),而不是在执行前制定完善的企业计划。

 麦肯锡认为, 创造客观的新价值不一定需要直接跳到复杂的大数据分析中, 很多情况下, 获取数据或基本数据分析就能创造巨大的价值。

 数据规模和 IT 基础设施需求需求可能成为大数据发展的一个关

 键驱动力, 这对很多的行业规模以下的企业既是机遇又是挑战。

 3、 增强自身实力以创造数据驱动的组织 企业需要有合适的人和方法获取大数据的价值。

 在人员方面, 越来越紧缺的关键人才包括数据深度分析人才以及指导如何利用大数据获得的洞见来运营企业的管理者和分析师。

 4、 制定企业信息战略 企业应该制定一个综合考虑数据模型、 数据架构和数据属性的完整的大数据战略。

 有效的大数据战略必须包括能共同使用的数据模型; 可交易、 一体化、 可分析的数据架构; 安全合规以及前端服务。

 5、 解决数据政策问题 企业制定数据政策要遵守隐私法, 并全面考虑采取哪中法定协议, 与股东建立怎样的信任预期, 并需要清楚地将数据政策告诉股东和客户。

 五、 政策制定者应对大数据的策略 1、 加强大数据人才培育 2、 制定奖励措施促进数据共享 3、 制定平衡数据使用与数据安全保护的政策 4、 建立有效的促进创新的知识产权框架 5、 克服技术障碍并加速关键技术研发 6、 确保信息通信技术基础设施投资 大数据服务若干关键技术研究

  博士论文 韩晶 在大数据时代, 对大数据进行统一表示, 实现大数据处理、 查询、 分析和可视化是亟需解决的关键问题。

 IBM 提出 3V, 认为大数据具备规模性(Volume)、 多样性(Variety)

 和高速性(Velocity)

 三个特征:

 规模性指数据量巨大, 量级达到 TB 级及 PB 级; 多样性指数据类型繁多, 包括结构化数据和非结构化数据; 高速性是指数据创建、 处理和分析的速度持续在加快。

 大数据指难以用常用的软件工具在可容忍时间内抓取、 管理以及处理的数据集。

 在大数据存储方面, 已有研究主要集中在各类 NoSQL 和分布式文件系统。

 随着互联网和云计算的不断发展, 各种类型的应用层出不穷, 对数据库技术提出了更多要求, 主要体现在:

 ①、 高并发读写需求②、 海量数据的高效存储和访问需求③、 高可扩展性和高可用性需求。

 非关系型数据库 NoSQL 就是为了满足以上几个需求而出现的。

 典型的 NoSQL 数据库有 Redis、 Memcached、 Cassandra、MongoDB、 Neo4j 等。

 NoSQL 虽然具有多方面优势, 但是其最大的弱点就是不支持 SQL 查询, 这为开发人员带来诸多不便。

 为了同时满足高性能和支持 SQL两方面需求, 一种全新的关系数据库产品 NewSQL 被设计出来, 它或者通过将关系模型的优势与分布式体系结构结合, 或者将关系数据库的性能提升到不必进行横向扩展的程度。

 在大数据处理技术方面, 最主流的平台是 Hadoop。

 Hadoop 由分布式文件系统HDFS、 并行计算框架 MapReduce 和非结构化数据库 Hbase 组成, 他们分别是 Google GFS 和 Google MapReduce 和 Google BigTable 的开源实现。

 HDFS 具有高容错性, 因此适合部署在价格低廉的硬件上, 同时它还适合用于具有超大数据集的应用程序; 在大数据分析方面, 代表性研究有 Hive、 Pig 等, Facebook 等公司在实时分析方面也进行了相关研究。

 伴随着服务经济的快速发展, 在大数据的存储、 处理、 分析、 可视化领域会逐渐

 出现了专业化的第三方服务提供商, 为数据服务消费者提供动态、 随需、 自动化的存储、 处理、 分析、 可视化等服务。

 大数据服务(Big Data-as-a-Service, BDaaS)

 是一种数据使用模式, 是在对大数据统一建模基础上, 将各类数据操作进行封装, 对外提供无处不在的、 标准化的、随需的检索、 分析或可视化服务交付。

 大数据服务不仅是一种新技术, 也是一种新的数据资源使用模式和一种新的服务经济模式。

 在大数据服务产生之前, 学术界和工业界在数据服务方面已经进行了很多研究。数据服务是传统 web 服务和数据管理技术的结合物。

 与传统 Web 服务不同, 数据服务以统一的方式将各个异构数据源进行封装和描述, 实现了跨域数据的集成。

 大数据服务面临难题:

 1、 面向差异化的服务场景和用户需求, 如何设计一种能够屏蔽数据资源复杂性,实现检索、 分析和可视化服务提供的规范化大数据服务架构, 是大数据服务首先需要解决的问题。

 2、 大数据环境下的数据源不仅有结构化数据, 更多的是非结构化数据。

 为了使大数据服务能够支持非结构化数据, 需要设计一种通用的、 能够表达非结构化基本西你选、 背景信息等特征的数据模型, 从而为面向非结构化数据的大数据服务的建立奠定基础。

 3、 已有的数据服务模型沿用了 Web 服务模型(如 WSDL), 而由...


推荐访问:大数据综述-大数据综述 综述 数据 全文

猜你喜欢