大数据
-
关于数仓基础知识的超全概括
作者 汪仔4623 面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术,其分别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统的数据源,则采用…
-
大数据研究报告,华为数据治理经验报告!
大数据研究报告,华为数据治理经验报告! 企业只有建立了完整的数据治理体系,保证数据内容的质量,才能够真正有效地挖掘企业内部的数据价值,对外提高竞争力。 高质量数据是业务创新的基础 …
-
用于大数据的存储层 Delta Lake
Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic…
-
pySpark DataFrame入门
DataFrame是一种不可变的分布式数据集,这种数据被组织成指定的列,类似于关系数据库中的表。Spark DataFrame与Python pandas 中的DataFrame类…
-
用户画像的流程
用户画像将产品设计的焦点放在目标用户的动机和行为上,从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表,根据自己的需求设计产品,导致无法抓住实际用户的需…
-
20 分钟自动搭建大数据平台
下载镜像 docker pull cloudera/quickstart // 或者在 cloudera 官网下载文件后使用 `docker import` 命令导入 // htt…
-
数据仓库实践杂谈-(五)-ETL
[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…
-
数据仓库实践杂谈(六)-数据校验
[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…
-
数据仓库实践杂谈-(四)-元数据
[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…
-
数据仓库实践杂谈-(三)-整体实现框架
[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…
-
数据仓库实践杂谈-(二)-数据分层
[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…
-
数据仓库实践杂谈-(一)-概述
[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:…
-
pyspark的使用和操作(基础整理)
from https://blog.csdn.net/cymy001/article/details/78483723 Spark提供了一个Python_Shell,即pyspar…
-
大数据分析界的“神兽”Apache Kylin有多牛?
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。…
-
SQL for ElasticSearch—Crate.io简介
from http://lxw1234.com/archives/2017/01/828.htm 再次调研这个东西,是为了满足下面的需求: 一张拥有50+字段的表,记录数大概5亿-…
-
采用ubuntu系统来安装tensorflow
from http://www.cnblogs.com/ljy2013/p/5491680.html 最近在学习google新开源的深度学习框架tensorflow。…
-
大规模机器学习:将数据科学引入生产系统架构的典型模式
from 网络 文作者 Mikio Braun 是 Zalando 的推荐和搜索系统的交付带头人,Mikio拥有机器学习的博士学位。本文概述了一个能把数据科学引入生产系统的架构的典…
-
关于机器学习的领悟与反思
作者介绍 张志华 北京大学数学学院教授,北京大数据研究院高级研究员。曾在浙江大学和上海交通大学计算机系任教。主要从事机器学习与应用统计等领域的教学与科研工作。 ◆ ◆ ◆ ◆ …
-
大数据时代的 9 大Key-Value存储数据库
from http://www.iteye.com/news/27628 在过去的十年中,计算世界已经改变。现在不仅在大公司,甚至一些小公司也积累了TB量级的数据。各种规模的组织开…
-
15个开源的顶级人工智能工具
from 51cto 人工智能artificial intelligence,AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投…