理论

数据仓库实践杂谈-(四)-元数据

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...

数据仓库实践杂谈-(三)-整体实现框架

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...

数据仓库实践杂谈-(二)-数据分层

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...

数据仓库实践杂谈-(一)-概述

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...

Tableau集成Python机器学习实践(下)

from https://zhuanlan.zhihu.com/p/30221630 Tableau报表创建 数据准备 我们还是引用iris数据集的csv数据格式作为tableau的数据源,里面包含了class这个维度字段和sepal_le...

Tableau集成Python机器学习实践(中)

from https://zhuanlan.zhihu.com/p/30221526 基于Iris数据集的机器学习实践 Iris数据集简介 iris数据集由Fisher, 1936收集整理,Iris也称安德森鸢尾花卉数据集,英文全称是And...

Tableau集成Python机器学习实践(上)

from https://zhuanlan.zhihu.com/p/30221355 导言 机器学习是目前炙手可热的一门交叉学科,致力于研究通过计算的手段,利用经验来改善系统自身的性能,目前已经有相当成熟的应用场景。Tableau是致力于帮...

机器学习实战——SVD(奇异值分解)

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/qq_36523839/article/details/82347332 与PC...

GBDT+LR算法进行特征扩增

转自 http://blog.csdn.net/TwT520Ly https://blog.csdn.net/TwT520Ly/article/details/79769705 参考文献: https://blog.csdn.net/lil...

玩转会员数据分析系列之统计学

from http://www.woshipm.com/data-analysis/917862.html 玩转会员数据分析系列文章主要针对数据分析给大家普及一些基础知识以及在工作中经常会用到的数据分析方法和概念,帮助大家一起成长。 因为我...

使用Python进行描述性统计

from https://www.cnblogs.com/jasonfreak/p/5441512.html 目录 1 描述性统计是什么? 2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值、中位数、众数)...

蒙特卡洛方法到底有什么用

作者:saltriver 原文:https://blog.csdn.net/saltriver/article/details/52194918 蒙特卡洛方法(Monte Carlo method,也有翻译成“蒙特卡罗方法”)是以概率和统计...

中心极限定理通俗介绍

作者:朱曦炽 链接:https://www.jianshu.com/p/cb7145e4c4bd 中心极限定理是统计学中比较重要的一个定理。 本文将通过实际模拟数据的形式,形象地展示中心极限定理是什么,是如何发挥作用的。 什么是中心极限定理...

Python 数据分析基础小结

from https://www.cnblogs.com/WoLykos/p/9582920.html 一、数据读取 1、读写数据库数据 读取函数: pandas.read_sql_table(table_name, con, schema...

sklearn入门教程:分类、聚类、回归和降维

作者 zhouchen sklearn中的sk代表着scikit,就可以知道这是一个用于科研的工具包了,那么这个科研工具包种都包含了哪些内容呢? 下面这个图描述了sk-learn所覆盖的领域。 分类、聚类、回归和降维,基本的数据算法需求均有...

odds、OR和RR的计算公式和实际意义

from http://www.sohu.com/a/210568171_799723 1. Odds Odds 的意思为机率、可能性,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。假如某药物有疗效的比例为p1,则无效的比为1...

逻辑回归的通俗解释

1 逻辑回归的定位 首先,逻辑回归是一种分类(Classification)算法。比如说: 给定一封邮件,判断是不是垃圾邮件 给出一个交易明细数据,判断这个交易是否是欺诈交易 给出一个肿瘤检查的结果数据,判断这个肿瘤是否为恶性肿瘤 逻辑回归...

谈谈 Bias-Variance Tradeoff

准确是两个概念。准是 bias 小,确是 variance 小。准确是相对概念,因为 bias-variance tradeoff。 ——Liam Huang 在机器学习领域,人们总是希望使自己的模型尽可能准确地描述数据背后的真实规律。通俗...