经管之家 WEB 3.0 社区，学术博客

Hive高级分组grouping\rollup\cube

Hive高级分组grouping\rollup\cube 背景介绍注：以下代码均在Apache Hive2.3.7版本测试在数据仓库中进行各种ETL任务时，经常需要对数据进行各种维度的分组来计算各种指标、标签数据。分组使用group by语句这个大家应该都了解，但是我们有时候需要多种维度的组合进行不同粒度的汇总，这时候有些高级的用法就比较有用了。我们举个栗子：现有如下商场销售数据（自行编

CDA老师1

2022-12-20

0.8283 8 0

Hive的Lateral View lateral view 简介 hive中的 lateral view 主要功能是将原本汇总在一条（行）上的数据根据表函数拆分成多条（行）成为虚拟表，然后再与原表进行拼接，从而得到粒度更细的表。lateral view配合UDTF函数使用，一般情况下经常与explode函数搭配，explode的操作对象（列值）是 ARRAY 或者 MAP ,有时候使用array

CDA老师1

2022-12-20

0.8288 8 0

时间复杂度

# 时间复杂度 ## 算法的好与坏 **时间复杂度和空间复杂度究竟是什么呢？首先，让我们来想象一个场景。** **某一天，A和B同时加入了同一家公司。一天后，A和B交付了各自的代码，两人的代码实现的功能差不多。** **A的代码运行一次要花100ms，占用内存5MB。** **B的代码运行一次要花100s，占用内存500MB。** **1.运行时间长运行别人的代码只要100ms，而运行

CDA老师1

2022-12-20

0.3639 8 0

空间复杂度

空间复杂度什么是空间复杂度在运行一段程序时，我们不仅要执行各种运算指令，同时也会根据需要，存储一些临时的中间数据，以便后续指令可以更方便地继续执行。在什么情况下需要这些中间数据呢？让我们来看看下面的例子。给出下图所示的n个整数，其中有两个整数是重复的，要求找出这两个重复的整数。对于这个简单的需求，可以用很多种思路来解决，其中最朴素的方法就是双重循环，具体如下：遍历整个数列，每遍历到一

CDA老师1

2022-12-20

0.3650 8 1

Hive的Transform应用

什么是Transform ** 会使用Python做数据处理的小伙伴一定使用过自己定义的函数去加工处理数据。在hive中的自定义函数支持Transform和UDF。UDF是将java代码打包上传，如果你不想或不会写java代码也可以，那就用到了Transform，写一个脚本，通过脚本（Python、shell）来处理数据。** ** transform的原理可以追溯到H

CDA老师1

2022-12-20

0.7905 5 0

计算各类别产品销售额的三种占比

计算各类别产品销售额的三种占比 ----------- 每篇一个pandas小技巧之三，分组数据计算各种占比需求背景公司销售多种品牌的多种产品，现需要计算每个品牌下每种产品销售额的组内占比，组内累计占比和每组销售额占总销售的比例。以下列数据为例，简单解释这三种需求 df .dataframe

CDA老师1

2022-12-20

0.0320 6 0

序列模式

序列模式在购物篮分析数据中，常常会包含顾客购买商品的时间信息，基于时间的顺序可以形成某种序列关系，而Apriori算法只强调商品同时出现，并不关系数据中的序列信息，但是序列信息却对于预测特定事件未来的发生起着重要作用。首先从处理的数据对象上区分Apriori算法和序列模式。Apriori算法和序列模式处理的数据对象如下： Apriori算法处理的数据对象序列模式处理的数据对象 Aprio

CDA老师1

2022-12-20

0.0319 6 0

针对甜瓜早期采摘预测的集成学习算法

针对甜瓜早期采摘预测的集成学习算法痛点：对影响甜瓜产量和质量的特征进行相关分析和预测可以促进农民或植物育种者的早期决策，或使生产者能够在作物收获前预测融资。本研究还比较了模型在使用所有特征变量和仅使用缩减特征变量时的预测效果。本文提出的GBDT预测模型以约简特征为输入对甜瓜产量、含糖量、硬度进行预测，模型R2可达90%以上。应用场景：在甜瓜的采收过程中，果实的重量和成熟度被认为是销售过程中的综

CDA老师1

2022-12-20

0.0523 7 0

新冠疫情可视化-Pyecharts全球地图

新冠疫情可视化-Pyecharts全球地图一、案例背景本案例就新冠疫情历史数据，利用Matplotlib、Pyecharts绘图工具展现疫情数据在全国以及全球范围内的统计信息，供大家学习参考。二、数据来源本案例的数据来源于https://github.com/canghailan/Wuhan-2019-nCoV中的Wuhan-2019-nCoV.csv文件。由新冠病毒爆发初期截止至2020

CDA老师1

2022-12-19

0.0528 7 0

计算每个销售小组每个成员销售业绩占比及组内排名

计算每个销售小组每个成员销售业绩占比及组内排名 ----------- 每篇一个pandas小技巧之二，分组数据计算组内占比及排序文中代码使用的pandas版本1.3.2 需求背景：某公司有若干销售小组，现有所有销售人员某月的销售额，现需要计算每位成员的销售额占本组总销售额的比例，并且计算每位成员在本组内

CDA老师1

2022-12-19

0.0270 3 0

Power BI数据建模分析

Power BI数据建模分析在进行数据分析时，如果需要利用多个表中的数据及其关系来执行一些复杂的数据分析任务时，需要在数据建模时创建数据表之间的关系。创建表关系目前Power BI Desktop提供两种创建表关系的方法：自动创建和手动创建。自动创建当在Power BI Desktop选项菜单中勾选了“加载数据后自动检测新关系”复选框后，Power BI会在加载数据时自动尝试在各个表之间

CDA老师1

2022-12-19

1.0805 4 0

Power BI数据查询编辑

Power BI数据查询编辑数据导入使用Power BI Desktop进行数据分析，需要先获取数据，Power BI Desktop支持从文件、数据库、Power Platform等多种数据源获取数据。为了方便练习，我们选择从文件导入Excel工作簿的数据。步骤1：获取数据。启动Power BI Desktop，在“主页”选项卡下的“数据”组中单击“获取数据”按钮。在弹出的获取“获取数

CDA老师1

2022-12-19

1.2948 4 0

基于机器学习算法的足月妊娠引产结局预测模型的建立

基于机器学习算法的足月妊娠引产结局预测模型的建立痛点：本篇文章引用于scientific reports的论文，该研究的建立基于Logistic回归算法的OT引产预测模型，具有响应速度快、准确率高、外推性强特点，对于产科临床护理具有重要意义。场景：机器学习在产科临床护理上的具体应用随着人工智能和医疗信息技术的发展，大量的机器学习算法被应用到预测模型的疾病风险评估中。例如，一些研究将机器学习技

CDA老师1

2022-12-19

0.2458 5 0

关联规则算法

关联规则算法关联规则算法的核心就是在海量数据中发现事务之间的关联，典型的例子就是购物篮分析，目的在于发现顾客在一次购物过程中购买的商品之间的联系，比如发现购买尿不湿的顾客通常会购买啤酒，如下表。 TID Items 1 面包，牛奶 2 面包，尿布，啤酒，鸡蛋 3 牛奶，尿布，啤酒，可乐 4 面包，牛奶，尿布，啤酒 5 面包，牛奶，尿布，可乐在了解算法的基本思

CDA老师1

2022-12-19

3.5269 5 0

Tempo：一种用于单细胞转录组学中昼夜节律推断的无监督贝叶斯算法

Tempo：一种用于单细胞转录组学中昼夜节律推断的无监督贝叶斯算法痛点：生物时钟是一种调节人体生理机能的24小时细胞计时机制。回答昼夜节律是生物学中的几个基本问题，需要联合测量单细胞昼夜节律阶段和转录组。然而，这种目的的实现之前不存在广泛通用的实验方法。虽然可以通过计算算法可以直接从单细胞RNA测序数据推断细胞相位，但是现有方法产生较差的昼夜节律相位估计，为了满足这种需求，本杰明.J.奥尔巴

CDA老师1

2022-12-19

0.0258 4 0

新冠疫情可视化-Pyecharts地图

新冠疫情可视化-Pyecharts地图一、案例背景本案例就新冠疫情历史数据，利用Matplotlib、Pyecharts绘图工具展现疫情数据在全国以及全球范围内的统计信息，供大家学习参考。二、数据来源本案例的数据来源于https://github.com/canghailan/Wuhan-2019-nCoV中的Wuhan-2019-nCoV.csv文件。由新冠病毒爆发初期截止至2020年9

CDA老师1

2022-12-16

6.0586 4 0

同步查看各组员工销售能力分布

同步查看各组员工销售能力分布 --------每篇一个pandas小知识之一，分组数据绘制箱线图文中代码使用的pandas版本1.3.2 假设某公司有多个销售小组同时销售A、B、C三种产品，现在想要查看各小组对这三种产品的销售情况，作为判断每个组销售能力的参考和测评产品受欢迎程度的依据。原始数据如下：如果只是单独分组后看每个组对每

CDA老师1

2022-12-16

0.2367 4 0

算法可视化之CatBoost

算法可视化之CatBoost 本系列为算法可视化的技术汇总，若需要了解算法本身的技术细节请移步算法拆解系列文章。 CatBoost简介 CatBoost是由俄罗斯算法巨头Yandex开发的开源机器学习库。它是梯度提升决策树（GBDT）机器学习集成技术家族的重要成员，是在GBDT算法框架下的一种改进实现。我们知道，GBDT是大数据分析中分类和回归任务的强大工具。作为GBDT成员之一的CatBoost

CDA老师1

2022-12-16

0.2224 4 0

R语言与Tableau集成之可视化应用

R语言与Tableau集成之可视化应用 Tableau是一款非常棒的数据可视化商业软件，通过拖拉拽的方式迅速的实现数据可视化。而且该软件可以连接任何一种数据库，在处理大型数据时一点都不逊色。缺点是其无法从事数据分析和挖掘工作，幸运的是，从Tableau的8.0开始，Tableau与R语言打通，可以在Tableau中运行R脚本，从而将R语言的分析或挖掘结果在Tableau中展示。如何实现Tabl

CDA老师1

2022-12-16

5.6850 6 0

使用新图卷积网络算法推断药物目标

使用新图卷积网络算法推断药物目标场景：新药物研发痛点：该模型实现了更高的药物目标推测，加快新药研发效率生物医学中出现的一个基本挑战是需要在相关细胞环境中表征化合物，以揭示潜在的靶向或脱靶效应。笔者介绍一篇来自中国科学院上海药物研究所药物研究国家重点实验药物发现与设计中心发表在Nature Communications上的一篇论文。最近，基因转录谱数据的快速积累为医学制药从细胞转录组学和 R

CDA老师1

2022-12-16

0.2557 5 0