大数据

  • 关于数仓基础知识的超全概括

    作者 汪仔4623 面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术,其分别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统的数据源,则采用…

    2021年3月12日 0
  • 大数据研究报告,华为数据治理经验报告!

    大数据研究报告,华为数据治理经验报告! 企业只有建立了完整的数据治理体系,保证数据内容的质量,才能够真正有效地挖掘企业内部的数据价值,对外提高竞争力。 高质量数据是业务创新的基础 …

    2021年1月31日 0
  • 用于大数据的存储层 Delta Lake

    Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic…

    2020年9月1日 0
  • pySpark DataFrame入门

    DataFrame是一种不可变的分布式数据集,这种数据被组织成指定的列,类似于关系数据库中的表。Spark DataFrame与Python pandas 中的DataFrame类…

    2020年6月21日 0
  • 用户画像的流程

    用户画像将产品设计的焦点放在目标用户的动机和行为上,从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表,根据自己的需求设计产品,导致无法抓住实际用户的需…

    2020年5月10日 0
  • 20 分钟自动搭建大数据平台

    下载镜像 docker pull cloudera/quickstart // 或者在 cloudera 官网下载文件后使用 `docker import` 命令导入 // htt…

    2020年5月5日 0
  • 数据仓库实践杂谈-(五)-ETL

    [目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…

    2019年12月12日 0
  • 数据仓库实践杂谈(六)-数据校验

    [目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…

    2019年12月12日 0
  • 数据仓库实践杂谈-(四)-元数据

    [目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…

    2019年11月11日 0
  • 数据仓库实践杂谈-(三)-整体实现框架

    [目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…

    2019年11月3日 0
  • 数据仓库实践杂谈-(二)-数据分层

    [目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…

    2019年10月31日 0
  • 数据仓库实践杂谈-(一)-概述

    [目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…

    2019年10月30日 0
  • pyspark的使用和操作(基础整理)

    from https://blog.csdn.net/cymy001/article/details/78483723 Spark提供了一个Python_Shell,即pyspar…

    2018年11月7日 0
  • 大数据分析界的“神兽”Apache Kylin有多牛?

    本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。…

    2017年7月14日 0
  • SQL for ElasticSearch—Crate.io简介

    from http://lxw1234.com/archives/2017/01/828.htm 再次调研这个东西,是为了满足下面的需求: 一张拥有50+字段的表,记录数大概5亿-…

    2017年7月1日 0
  • 采用ubuntu系统来安装tensorflow

    from http://www.cnblogs.com/ljy2013/p/5491680.html   最近在学习google新开源的深度学习框架tensorflow。…

    2017年3月15日 0
  • 大规模机器学习:将数据科学引入生产系统架构的典型模式

    from 网络 文作者 Mikio Braun 是 Zalando 的推荐和搜索系统的交付带头人,Mikio拥有机器学习的博士学位。本文概述了一个能把数据科学引入生产系统的架构的典…

    2017年2月17日 0
  • 关于机器学习的领悟与反思

     作者介绍  张志华 北京大学数学学院教授,北京大数据研究院高级研究员。曾在浙江大学和上海交通大学计算机系任教。主要从事机器学习与应用统计等领域的教学与科研工作。 ◆ ◆ ◆ ◆ …

    2017年2月17日 0
  • 大数据时代的 9 大Key-Value存储数据库

    from http://www.iteye.com/news/27628 在过去的十年中,计算世界已经改变。现在不仅在大公司,甚至一些小公司也积累了TB量级的数据。各种规模的组织开…

    2017年2月15日 0
  • 15个开源的顶级人工智能工具

    from 51cto 人工智能artificial intelligence,AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投…

    2017年2月14日 0

联系我们

在线咨询:点击这里给我发消息

邮件:23683716@qq.com

跳至工具栏