查看某张表的数据结构或所有列和列变量数据类型 DESCRIBE 2022_apmcm_c_data; desc 2022_apmcm_c_data; 这两个函数用哪个都行 无所谓的 结果都是一样的 查看指定字段的表数据 select dt,AverageTemperature,Country from 2022_apmcm_c_data; 常用聚合计算函数教学 计算某一列(这里选用的是温度)数值变量之和 select sum(AverageTemperature) from 2022_apmcm_c_data; 请得出所给表中数据所有城市名称汇总 distinct用于返回不同的值(即去重功能)。在表中,一列通常包含许多重复值,该函数可以去重,得出去重后的结果。 select distinct City from 2022_apmcm_c_data; 计算不同国家下的数据条数 Group by是SQL语句中的一个重要操作,它可以将数据按照指定的列进行分组,并对每个分组进行聚合操作,如求和、计数、平均值等。 select Country,count(1) from 2022_apmcm_c_data group by Country; 计算不同国家不同时间下的数据条数 select dt,Country,count(1) from 2022_apmcm_c_data group by dt,Country; 计算不同国家不同时间下的温度之和 select dt,Country,sum(AverageTemperature) from 2022_apmcm_c_data group by dt,Country; 计算不同国家不同时间下的温度之和并按照时间顺序进行排序 在SQL中,ORDER BY是一种用于对结果集进行排序的子句。它通常紧跟在SELECT语句之后,可以根据一个或多个列对结果集进行排序。ORDER BY子句可以使用升序(默认)或降序来排序数据。 select dt,Country,sum(AverageTemperature) from 2022_apmcm_c_data group by dt,Country ORDER BY dt; 请给出2000年以来不同地区国家的最高气温数据透视表 where和having都可以实现字段条件的限制 在SQL语句中,WHERE子句用于筛选出符合特定条件的数据。 在SQL语句中,HAVING子句通常与GROUP BY子句一起使用来限制对分组后的结果集进行过滤。它和WHERE子句的区别在于: 1. HAVING子句用于过滤分组后的结果集,而WHERE子句用于过滤原始数据集。 2. HAVING子句只能在SELECT语句中使用,而WHERE子句可以在SELECT、UPDATE和DELETE语句中使用。 3. HAVING子句中可以使用聚合函数,而WHERE子句不可以使用聚合函数。 方法一 使用where和日期转化函数中的截取年功能YEAR函数 select dt,max(AverageTemperature) from 2022_apmcm_c_data where YEAR(dt) >=2000 GROUP BY dt ORDER BY dt; 此方法虽然得到2000年以来不同地区国家的最高气温数据透视表,但是并未按照正确的时间顺序给出结果 因此我们稍作改动 使用日期转化函数from_unixtime 由于数据库中dt字段为char类型,因此需转换成日期类型 select dt,max(AverageTemperature) from 2022_apmcm_c_data where from_unixtime(dt,'%Y-%m-%d') GROUP BY dt having YEAR(dt) >=2000 ORDER BY dt; select dt,max(AverageTemperature) from 2022_apmcm_c_data where from_unixtime(CONVERT(dt,date),'%Y%m%d') GROUP BY dt ORDER BY dt; select dt,max(AverageTemperature) from 2022_apmcm_c_data where from_unixtime(cast(dt as date),'%Y%m%d') GROUP BY dt ORDER BY dt; select dt,max(AverageTemperature) from 2022_apmcm_c_data where DATE_FORMAT(CONVERT(dt,date),'%Y%m%d') GROUP BY dt ORDER BY dt; select dt,max(AverageTemperature) from 2022_apmcm_c_data where DATE_FORMAT(STR_TO_DATE(dt,'%Y-%m-%d'),'%Y%m%d') GROUP BY dt ORDER BY dt; 数据格式检验 select DATE_FORMAT(STR_TO_DATE(dt,'%Y-%m-%d'),'%Y%m%d') from 2022_apmcm_c_data where dt is not null ORDER BY dt; 我虽然列出了这么多方法 但是结果不正确 为什么?因为导入数据时,数据格式不统一,这就造成了后续数据分析中较大的数据偏差 进行数据处理之后 我们再次导入数据 新导入的数据表为2022_apmcm_c_data_copy1 select dt,max(AverageTemperature) from 2022_apmcm_c_data_copy1 where from_unixtime(CONVERT(dt,date),'%Y%m%d') GROUP BY dt ORDER BY dt; 查完之后还是不正确,为什么呢?因为你导入数据的类型不对 温度这是数值数据 我们使用限定条件检查一下 select max(AverageTemperature) from 2022_apmcm_c_data_copy1 where dt='2013-01-01'; 接着我们修改一下数据类型 因为varchar类型无法进行数值比较 这里可直接修改表结构或使用sql语言来改变表结构 注意 不能使用int类型,因为原温度数据带有小数点,应使用double类型 之后下一节我们会专门讲解alter的用法 ALTER TABLE 2022_apmcm_c_data_copy1 MODIFY AverageTemperature double; 接着我们再次检查一下 select max(AverageTemperature) from 2022_apmcm_c_data_copy1 where dt='2013-01-01'; 数据正常之后我们现在再来实现一下2000年以来不同地区国家的最高气温数据透视表功能 方法一 select dt,max(AverageTemperature) from 2022_apmcm_c_data_copy1 where from_unixtime(dt,'%Y-%m-%d') GROUP BY dt having YEAR(dt) >=2000 ORDER BY dt; 方法二 select dt,max(AverageTemperature) from 2022_apmcm_c_data_copy1 where DATE_FORMAT(STR_TO_DATE(dt,'%Y-%m-%d'),'%Y%m%d') >='20000101' GROUP BY dt ORDER BY dt; 这里方法太多了 我上述给出我最常用的两种 上述我们使用了日期函数,现在我这边教学一下字符串函数和聚合函数的简单综合运用 请计算2010年以来不同国家的平均地理位置(平均经纬度) 在mysql中,replace函数与SELECT语句配合使用时,可以用于进行字符串替换操作,同时也支持多个字符串同时被替换,语法为“SELECT REPLACE(数据库表的列名,需要替换的字符串,替换成的字符串)”。 在MySQL中,AVG函数用于计算某个字段的平均值。平均值是通过将数值求和然后除以总数得到的。 我们循序渐进的来教学 这里不使用update的原因就是不要改变原数据,因为改变之后或许还会用到经纬度的字符。 但是如果你有备份不嫌麻烦可以使用update,但更新有风险,检验需谨慎 sql嵌套子查询和函数的综合运用 1.先替换掉字段数据中的N和E字符 select dt as 日期,Country as 国家,replace(Latitude,'N','') as 纬度, replace(Longitude,'E','') as 经度 from 2022_apmcm_c_data_copy1 where from_unixtime(dt,'%Y-%m-%d') GROUP BY dt,Country,Latitude,Longitude having YEAR(dt) >=2000 ORDER BY dt; 2.然后再替换掉数据中的S和W字符 select a.日期,a.国家,replace(a.纬度,'S','') as 纬度,replace(a.经度,'W','') as 经度 from( select dt as 日期,Country as 国家,replace(Latitude,'N','') as 纬 度,replace(Longitude,'E','') as 经度 from 2022_apmcm_c_data_copy1 where from_unixtime(dt,'%Y-%m-%d') GROUP BY dt,Country,Latitude,Longitude having YEAR(dt) >=2000 ORDER BY dt)a; 3.1使用convert函数类型转化及均值函数计算 注意 这里转不了double类型 数据类型不懂的 看一下float double 和decimal的区别 float类型表示单精度浮点数值,double类型表示双精度浮点数值,float和double都是浮点型,而decimal是定点型; MySQL 浮点型和定点型可以用类型名称后加(M,D)来表示,M表示该值的总共长度,D表示小数点后面的长度,M和D又称为精度和标度,如float(5,2)的 可显示为999.99,MySQL保存值时会进行四舍五入,如果插入999.009,则结果为999.01。 select b.日期,b.国家,AVG(CONVERT(b.纬度,DECIMAL(10,2))), AVG(CONVERT(b.经度,DECIMAL(10,2))) from( select a.日期,a.国家,replace(a.纬度,'S','') as 纬度, replace(a.经度,'W','') as 经度 from( select dt as 日期,Country as 国家,replace(Latitude,'N','') as 纬度,replace(Longitude,'E','') as 经度 from 2022_apmcm_c_data_copy1 where from_unixtime(dt,'%Y-%m-%d') GROUP BY dt,Country,Latitude,Longitude having YEAR(dt) >=2000 ORDER BY dt)a)b group by b.日期,b.国家; 3.2也可以使用cast函数类型转化及均值函数计算 cast功能测试 select CAST(AverageTemperature as decimal(8,2)) from 2022_apmcm_c_data_copy1; select b.日期,b.国家,AVG(CAST(b.纬度 as decimal(9,2))) ,AVG(CAST(b.经度 as decimal(9,2))) from( select a.日期,a.国家,replace(a.纬度,'S','') as 纬度,replace(a.经度,'W','') as 经度 from( select dt as 日期,Country as 国家,replace(Latitude,'N','') as 纬度,replace(Longitude,'E','') as 经度 from 2022_apmcm_c_data_copy1 where from_unixtime(dt,'%Y-%m-%d') GROUP BY dt,Country,Latitude,Longitude having YEAR(dt) >=2000 ORDER BY dt)a)b group by b.日期,b.国家; 下节课我们详细讲,MySQL中的where用法