一起大数据

最新发布

Python

Pandas透视表(pivot_table)详解

from https://www.cnblogs.com/onemorepoint/p/8425300.html 介绍 也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为pivot_table。...

Excel

excel优秀图表模板汇总(超级经典值得学习)

来自 https://wenku.baidu.com/view/dbad8775daef5ef7bb0d3c41.html 模板包含以下图表: 多折线图:该图表适用于当有多个系列随着时间,需要比较大小及走势,需要绘制折线图时,但若堆积在一起...

SPSS

SPSS—非线性回归(模型表达式)案例解析

from https://www.cnblogs.com/qiernonstop/p/3720486.html 非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何...

Python

词云图 – WorldCloud – Python代码实现

第一步:安装必要的包WorldCloud(安装好并且没有出错的可跳过这一步) pip install wordcloud 如果出现错误,那么看看是什么错误: 提示pip“不是内部命令”,那就先安装pip吧; 提示其他“某某某 is requ...

Python

聚类分析 – K-means – Python代码实现

算法简介 K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 算法过程如下: 1)从N个文档随...

大数据

数据仓库实践杂谈-(五)-ETL

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...

大数据

数据仓库实践杂谈(六)-数据校验

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...

数据分析

交互式数据分析工具 Scriptis

Scriptis是一款支持在线写SQL、Pyspark、HiveQL等脚本,提交给Linkis执行的数据分析Web工具,且支持UDF、函数、资源管控和智能诊断等企业级特性。 核心特点: 脚本编辑:多语言、自动补全、语法高亮、SQL语法纠错;...

大数据

数据仓库实践杂谈-(四)-元数据

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...

大数据

数据仓库实践杂谈-(三)-整体实现框架

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...

大数据

数据仓库实践杂谈-(二)-数据分层

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...

Python

向Excel说再见,神级编辑器统一表格与Python

很多开发者说自从有了 Python/Pandas,Excel 都不怎么用了,用它来处理与可视化表格非常快速。但是这样还是有一大缺陷,操作不是可视化的表格,因此对技能要求更高一点。近日,开发者构建了名为 Grid studio 的开源项目,它...

大数据

数据仓库实践杂谈-(一)-概述

[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十...