本文摘要：本文介绍了如何使用Scala编写Spark SQL代码，根据数据仓库层表统计每个国家、地区以及每个月的订单数量和总金额，并将结果存入MySQL数据库shtd_store中的nationeverymonth表。通过Spark SQL进行复杂查询与聚合操作后，进一步将处理后的数据导入MySQL中。同时，文章还涉及到了计算某年各国平均消费额并与其他所有国家平均消费额进行比较的过程，结果存储在MySQL的nationavgcmp表中。整个过程涵盖了从数据统计、维度分析到跨系统数据迁移的关键技术环节。

转载文章

本篇文章为转载内容。原文链接：https://blog.csdn.net/guo_0423/article/details/126352162。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

1. 编写Scala工程代码，根据dwd层表统计每个地区、每个国家、每个月下单的数量和下单的总金额，存入MySQL数据库shtd_store的nationeverymonth表（表结构如下）中，然后在Linux的MySQL命令行中根据订单总数、消费总额、国家表主键三列均逆序排序的方式，查询出前5条，将SQL语句与执行结果截图粘贴至对应报告中;

spark.sql("select  nationkey,regexp_replace(nationname,'\'','') as nationname,regionkey,regexp_replace(regionname,'\'','') as regionname,sum(totalnum) as totalorder,sum(totalprice) as totalconsumption,year,month from nationeverymonth group by nationkey,regionkey,month,nationname,year,regionname;")

我为了方便查询和之后的操作,将上面的查询结果导入到新表nationeverymonths

查表

接下来将hive中的数据导入mysql中

package com.atguigu.spark.sql
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSessionimport java.util.Properties
object DataHiveToMySQL {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("sparkSQL")val spark = SparkSession.builder().enableHiveSupport().config(sparkConf).getOrCreate()val result=spark.sql("select * from ods.nationeverymonths")val props=new Properties()props.setProperty("user","root")props.setProperty("password","123456")props.setProperty("driver","com.mysql.jdbc.Driver")result.write.mode("overwrite").jdbc("jdbc:mysql://192.168.230.132:3306/user?serverTimezone=UTC&characterEncoding=UTF-8&useSSL=false", "nationeverymonth", props)println("导入成功")spark.stop()} }

运行可见导入成功

进入MySQL中查看结果

可见数据成功导入

接下来按照要求查询:

2.请根据dwd层表计算出某年每个国家的平均消费额和所有国家平均消费额相比较结果（“高/低/相同”）,存入MySQL数据库shtd_store的nationavgcmp表（表结构如下）中，然后在Linux的MySQL命令行中根据订单总数、消费总额、国家表主键三列均逆序排序的方式，查询出前5条，将SQL语句与执行结果截图粘贴至对应报告中;

在解这道题的时候遇见一个问题,在求所有国家平均消费额的时候一直报错,由于没有数据这道题的题意还是有点没看明白,于是我就用了最简单的办法先新增一列,再单独将所有国家平均消费额求出来然后再插入,如果各位大佬有解决这个问题的办法希望能指导一下

先将每个国家的平均消费额求出来

spark.sql("select nationkey,nationname,avg(totalconsumption) as nationavgconsumption from nationeverymonths group by nationkey,nationname")

再新增一列所有国家平均消费额

spark.sql("alter table nationeverymonths add columns(avg_allstring)")

再将查询到的所有国家平均消费额导入进去

spark.sql("insert overwrite table nationeverymonths1 select nationkey,nationname,avg_totalconsumpt,1500 from nationeverymonths1")

再次查表

按照题意添加比较结果字段

spark.sql("select *,case when avg_totalconsumpt>avg_all then '高' when avg_totalconsumpt<avg_all then '低' when avg_totalconsumpt=avg_all then '相同' else 'null' end as comparison from nationeverymonths1").show

最后的排序语句和题一一样

本篇文章为转载内容。原文链接：https://blog.csdn.net/guo_0423/article/details/126352162。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

名词解释

作为当前文章的名词解释，仅对当前文章有效。

数据仓库dwd层表：在大数据领域，数据仓库（Data Warehouse）是一种用于报告和数据分析的系统，其中的数据是从不同源系统收集并经过集成、清理后的历史数据。dwd层是数据仓库的一种分层设计中的明细层（Detail Layer），全称为“明细宽表层”。它通常存储原始业务数据的明细记录，为后续的数据分析提供基础支撑，特点是保持原始数据的粒度，不做任何聚合处理，以便于进行多维度的统计分析。

Spark SQL：Spark SQL是Apache Spark项目中的一部分，它将SQL查询能力与Spark的分布式计算框架相结合，使得用户能够通过标准的SQL语句或者DataFrame API对大规模数据集进行操作。Spark SQL不仅可以处理结构化数据，还能无缝对接Hive表和其他外部数据源，实现复杂的数据处理任务，如过滤、排序、聚合等，并支持将结果写入多种数据库系统，包括MySQL。

MySQL数据库shtd_store：MySQL是一个开源的关系型数据库管理系统，广泛应用于Web应用开发。在本文的上下文中，“MySQL数据库shtd_store”指的是作者在MySQL服务器上创建的一个特定的数据库实例，名为“shtd_store”，用于存储从数据仓库中导出的统计结果数据，如国家地区每月下单数量及总金额等信息。MySQL因其稳定、高效、易于管理的特点，常被选为数据仓库下游存储系统的组成部分之一，以支持OLAP在线分析处理场景的需求。