background-image: url("../pic/slide-front-page.jpg") class: center,middle # 统计学原理(Statistic) <!--- chakra: libs/remark-latest.min.js ---> ### 胡华平 ### 西北农林科技大学 ### 经济管理学院数量经济教研室 ### huhuaping01@hotmail.com ### 2021-05-08
--- class: center, middle, duke-orange,hide_logo # 第三章 数据的图表展示 ### [3.1 数据的预处理](#prepare) ### [3.2 品质数据的整理与显示](#quality) ### [3.3 数值型数据的整理与显示](#quantity) ### [3.4 合理使用图表](#nice) --- layout: false class: center, middle, duke-softblue,hide_logo name: prepare # 3.1 数据的预处理 ### 数据清洗(data cleaning ) ### 数据变换(data transformation) ### 数据子集(data subset) --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@    <a href="#chapter02"> 第03章 数据的图表展示 </a>                       <a href="#prepare"> 3.1 数据的预处理 </a> </span></div> --- ## 数据预处理的主要内容 - 数据审核:检查数据中的错误 - 数据筛选:找出符合条件的数据 - 数据排序:升序和降序;寻找数据的基本特征 - 数据透视:按需要汇总 --- ## 数据预处理:数据审核 对于**原始数据(raw data)**需要进行: **完整性审核**: - 应调查的单位或个体是否有遗漏 - 所有的调查项目或变量是否填写齐全 **准确性审核**: - 数据是否真实反映实际情况,内容是否符合实际 - 数据是否有错误,计算是否正确等 --- ## 数据预处理:数据审核 对于**二手数据(second hand data)**需要进行: **适用性审核**: - 弄清楚数据的来源、数据的口径以及有关的背景材料 - 确定数据是否符合自己分析研究的需要 **时效性审核**: - 尽可能使用最新的数据 - 确认是否有必要做进一步的加工整理 --- ## 数据预处理:数据筛选 **数据预处理**:当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选。 数据筛选的内容: - 将某些不符合要求的数据或有明显错误的数据予以剔除 - 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除 --- ## 数据预处理:数据排序 数据排序的**作用**: - 按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索 - 排序有助于对数据检查纠错,以及为重新归类或分组等提供依据 - 在某些场合,排序本身就是分析的目的之一 - 排序可借助于计算机完成 --- ## 数据预处理:数据透视表 数据透视表(pivot table)的作用: - 可以从复杂的数据中提取有用的信息 - 可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图 - 形成一个符合需要的交叉表(列联表) - 在利用数据透视表时,数据源表中的首行必须有列标题 --- ## 数据预处理:Excel中的数据透视表 利用`Excel`软件创建数据透视表的主要步骤: - 第1步:在Excel工作表中建立数据清单 - 第2步:选中数据清单中的任意单元格,并选择【数据】菜单中的【数据透视表和数据透视图】 - 第3步:确定数据源区域 - 第4步:在【向导—3步骤之3】中选择数据透视表的输出位置。然后选择【布局】 - 第5步:在【向导—布局】对话框中,依次将”分类变量“拖至左边的“行”区域,上边的“列”区域,将需要汇总的“变量” 拖至“数据区域” - 第6步:然后单击【确定】,自动返回【向导—3步骤之3】对话框。然后单击【完成】,即可输出数据透视表 --- ### (演示)Excel数据预处理:数据准备 利用Excel进行数据准备,主要工作包括: - 读取或导入其他数据格式(例如`.txt`或`.csv`格式) - 删除说明性内容 - 数据表形式(long data VS wide data) - 数值表达方式(labels VS values) - 备注重要信息 --- ### (演示)导入其他数据格式:Excel操作 .panelset[ .panel[.panel-name[a.数据菜单] <img src="../pic/chpt03-excel-prepare-import-csv1.png" width="551" style="display: block; margin: auto;" /> ] .panel[.panel-name[b.选择文件] <img src="../pic/chpt03-excel-prepare-import-csv2.png" width="80%" style="display: block; margin: auto;" /> ] .panel[.panel-name[c.数据引导] <img src="../pic/chpt03-excel-prepare-import-csv3.png" width="60%" style="display: block; margin: auto;" /> ] ] --- ### (演示)删除说明性内容:Excel操作 .left-column[ #### a.删除前 ] .right-column[ <img src="../pic/chpt03-excel-prepare-remove-notation1.png" width="661" height="450px" style="display: block; margin: auto;" /> ] --- ### (演示)删除说明性内容:Excel操作 .left-column[ #### a.删除前 #### b.删除后 ] .right-column[ <img src="../pic/chpt03-excel-prepare-remove-notation2.png" width="728" height="450px" style="display: block; margin: auto;" /> ] --- exclude: true ### (演示)删除说明性内容:Excel操作 .panelset[ .panel[.panel-name[a.删除前] <img src="../pic/chpt03-excel-prepare-remove-notation1.png" width="661" height="400px" style="display: block; margin: auto;" /> ] .panel[.panel-name[b.删除后] <img src="../pic/chpt03-excel-prepare-remove-notation2.png" width="728" height="400px" style="display: block; margin: auto;" /> ] ] --- ### (演示)数据表现形式:Excel操作 .left-column[ ### 1)扁平形式 ] .right-column[ <img src="../pic/chpt03-excel-prepare-format1-wide.png" width="1415" height="420px" style="display: block; margin: auto;" /> - 一个病人的数据,由一行就能够完全进行表达。 ] --- ### (演示)数据表现形式:Excel操作 .left-column[ ### 1)扁平形式 ### 2)窄长形式 ] .pt0[ .right-column[ <img src="../pic/chpt03-excel-prepare-format2-long.png" width="912" height="420px" style="display: block; margin: auto;" /> - 一个病人的数据,需要多行才能进行完整表达。 ] ] --- exclude: true ### (演示)数据表现形式:Excel操作 .panelset[ .panel[.panel-name[a.扁平形式] <img src="../pic/chpt03-excel-prepare-format1-wide.png" width="1415" height="40%" style="display: block; margin: auto;" /> > 一个病人的数据,由一行就能够完全进行表达。 ] .panel[.panel-name[b.窄长形式] <img src="../pic/chpt03-excel-prepare-format2-long.png" width="912" height="40%" style="display: block; margin: auto;" /> > 一个病人的数据,需要多行才能进行完整表达。 ] ] --- ## 数据清洗:Excel常用操作1 - **查找/替换**: - **提取文本字符**: - 从左侧:`=LEFT(text, [num_chars])` - 从右侧:`=RIGHT(text, [num_chars])` - 从指定位置:`=MID(text,start_num,num_chars)` - **正确大小写**: - 全部小写:`=LOWER(text)` - 全部大写:`=UPPER(text)` - 首字母大写:`=PROPER(text)` - 自定义大小写:`=UPPER(LEFT(A2,1)&LOWER(MID(A2,2,60)` --- ## 数据清洗:Excel常用操作2 - **删除重复值**: - **合并文本内容**:`=[Cell 1]&[Cell 2]` - **清除空格**:`=TRIM( text )` - **清除非打印字符**:`=CLEAN( text )` --- ### (演示)Excel数据清洗:查找/替换 <img src="../pic/chpt03-excel-prepare-find-1.png" width="1155" height="100%" style="display: block; margin: auto;" /> --- ### (演示)Excel数据清洗:提取文本字符 <img src="../pic/chpt03-excel-prepare-extract-1.png" width="1303" height="200px" style="display: block; margin: auto;" /> <img src="../pic/chpt03-excel-prepare-extract-2.png" width="1303" height="200px" style="display: block; margin: auto;" /> --- ## (演示)Excel数据清洗:自定义大小写 <img src="../pic/chpt03-excel-prepare-cap.png" width="1151" height="100%" style="display: block; margin: auto;" /> --- ### (演示)Excel数据清洗:删除重复值 <img src="../pic/chpt03-excel-prepare-duplicate.png" width="1159" height="100%" style="display: block; margin: auto;" /> --- ### (演示)Excel数据审核: .panelset[ .panel[.panel-name[a.选择区域] <img src="../pic/chpt03-excel-prepare-check-1.png" width="1575" height="450px" style="display: block; margin: auto;" /> ] .panel[.panel-name[b.设定类型] <img src="../pic/chpt03-excel-prepare-check-2.png" width="1573" height="450px" style="display: block; margin: auto;" /> ] .panel[.panel-name[c.设置范围] <img src="../pic/chpt03-excel-prepare-check-3.png" width="1575" height="450px" style="display: block; margin: auto;" /> ] .panel[.panel-name[d.设置提示] <img src="../pic/chpt03-excel-prepare-check-4.png" width="1573" height="450px" style="display: block; margin: auto;" /> ] ] --- exclude: true ### 数据清洗:清单 以**调查问卷数据**的清洗为例: - 真实性的清洗:要确认数据来自于受访者。 - 完整性的清洗:主要看样本无应答,也就是一整份问卷没有应答。以及选项无应答,也就是应该应答的访题没有应答。 - 可用性的清洗:主要是看编码是否完成,权数是否可行,以及缺失值如何标记和处理。 - 错误性的清洗:主要是清洗调查环节的错误,比如样本错误、应答人错误、应答方式错误。 --- exclude: true ### 案例:家庭税收情况 --- ### 案例:家庭税收情况 **案例说明**:一项家庭税收情况调查,一共收集了样本数 `\(n=73262\)`个家庭在13个变量上的基本情况。 .scroll-box-18[ ``` Rows: 73,262 Columns: 13 $ id <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,... $ custid <chr> "000006646_03", "000007827_01", "000008359... $ sex <fct> Male, Female, Female, Female, Male, Male, ... $ is_employed <lgl> TRUE, NA, TRUE, NA, TRUE, NA, TRUE, NA, TR... $ income <dbl> 22000, 23200, 21000, 37770, 39000, 11100, ... $ marital_status <fct> Never married, Divorced/Separated, Never m... $ health_ins <lgl> TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, FALSE,... $ housing_type <fct> Homeowner free and clear, Rented, Homeowne... $ recent_move <lgl> FALSE, TRUE, FALSE, FALSE, FALSE, FALSE, F... $ num_vehicles <dbl> 0, 0, 2, 1, 2, 2, 2, 2, 5, 3, 2, 2, 5, 1, ... $ age <dbl> 24, 82, 31, 93, 67, 76, 26, 73, 27, 54, 61... $ state_of_res <fct> Alabama, Alabama, Alabama, Alabama, Alabam... $ gas_usage <dbl> 210, 3, 40, 120, 3, 200, 3, 50, 3, 20, 3, ... ``` ] --- ### (税收案例)变量视图
--- ### (税收案例)数据视图 数据包含的样本数 `\(n=73262\)`,下表展示了前500行。
--- ### (税收案例)数据清洗问题——存在混合编码 .panelset[ .panel[.panel-name[a.变量取值] `gas_usage`变量表示用油支出,样本数据中的分布情况如下: ``` 1 2 3 4 10 20 30 40 50 60 70 2389 6609 24984 455 1376 4163 5149 4242 4118 2585 1909 80 90 100 110 120 130 140 150 160 170 180 2330 1331 2651 636 836 700 446 1049 299 238 331 190 200 210 220 230 240 250 260 270 280 290 175 823 113 88 111 89 256 54 40 61 33 300 310 320 330 340 350 360 370 380 390 400 255 13 26 20 36 53 5 39 19 9 79 410 420 430 440 450 460 470 480 490 510 520 37 15 1 3 48 43 39 72 35 3 3 540 570 <NA> 9 11 1720 ``` ] .panel[.panel-name[b.编码问题] 根据“数据集说明”,我们容易发现`gas_usage`变量数据存在混合编码问题: - 混合了数值(number)和字符(string): - 1表示包含在电子支付中;2表示包含在出租或分户中;3表示没有用油; - 004-999表示用油支出数(美元)。 - 有缺失值: - `NA`表示缺失。 ] .panel[.panel-name[c.处理办法] 我们需要把原来的变量`gass_usage`提取构建为4个新变量:`gas_usage_new`、`gas_with_rent`、 `gas_with_electricity`、`no_gas_bill`。
] ] --- ### (税收案例)数据清洗问题——数据范围失常 .panelset[ .panel[.panel-name[a.年龄范围] 我们容易发现,年龄变量`age`存在取值为0,或大于100的情形。 ``` 0 21 22 23 24 25 26 27 28 29 30 31 32 33 77 1365 1312 1348 1302 1424 1489 1407 1364 1284 1444 1303 1351 1327 34 35 36 37 38 39 40 41 42 43 44 45 46 47 1285 1367 1284 1216 1226 1190 1327 1202 1215 1203 1262 1449 1392 1217 48 49 50 51 52 53 54 55 56 57 58 59 60 61 1244 1197 1355 1352 1349 1397 1429 1292 1392 1326 1290 1307 1333 1281 62 63 64 65 66 67 68 69 70 71 72 73 74 75 1220 1175 1124 1113 1082 1062 999 1026 792 696 800 757 645 549 76 77 78 79 80 81 82 83 84 85 86 87 88 89 519 530 517 431 419 424 358 314 301 317 267 251 202 162 90 91 92 93 94 95 96 100 110 114 120 <NA> 130 57 83 124 277 91 6 72 66 62 66 0 ``` ] .panel[.panel-name[b.收入范围] 此外,我们还发现收入变量`income`存在取值小于0的情形。 .scroll-box-14[ ``` -6900 -6800 -6700 -6600 -6100 -6000 -5900 -5800 1 2 2 1 1 5 1 1 -5700 -5500 -5400 -5300 -5200 -5000 -4900 -4700 1 2 2 1 2 2 1 2 -4520 -4500 -4200 -3500 -3100 -2800 -2700 -2400 1 2 1 1 1 1 1 1 -1800 -1700 -1500 -800 -700 -630 -400 -160 1 1 2 1 1 1 1 1 0 1 4 10 20 30 40 50 6811 18 18 8 10 16 4 10 60 70 80 90 100 110 120 130 10 6 7 3 39 4 9 6 140 150 160 170 180 190 200 210 7 8 4 5 3 5 56 3 220 230 240 250 260 270 280 300 5 2 10 14 1 3 1 49 310 320 330 340 350 360 370 380 1 5 2 1 10 11 3 5 400 410 420 430 440 450 460 470 33 1 3 3 1 9 4 2 480 500 510 520 530 540 550 560 6 66 8 4 4 7 2 3 570 580 590 600 610 620 630 640 4 3 3 55 5 2 8 2 650 660 670 700 710 720 730 740 7 5 10 22 6 3 5 3 750 760 770 780 790 800 810 820 12 2 2 4 2 42 3 2 830 840 850 860 870 880 890 900 10 5 5 4 3 4 7 33 910 920 930 940 950 960 970 980 1 5 2 4 6 8 3 3 990 1000 1001 1050 1060 1100 1104 1150 3 161 1 1 1 29 1 2 1180 1190 1200 1250 1280 1300 1310 1320 1 1 127 2 3 83 1 1 1400 1450 1500 1504 1520 1570 1580 1600 82 1 118 1 2 1 1 73 1601 1620 1630 1680 1700 1710 1720 1750 1 1 1 1 43 1 1 1 1780 1800 1820 1830 1840 1850 1880 1900 1 78 1 1 2 1 1 36 1904 1980 2000 2020 2030 2040 2100 2110 1 1 244 1 2 3 39 1 2150 2160 2170 2180 2200 2220 2230 2240 1 1 1 1 66 1 2 2 2300 2350 2360 2390 2400 2404 2410 2430 56 1 1 1 93 1 1 1 2450 2460 2480 2500 2530 2550 2560 2590 2 1 2 101 1 1 1 1 2600 2690 2700 2730 2740 2750 2770 2790 38 1 45 1 1 1 1 1 2800 2840 2850 2890 2900 2910 2980 3000 36 1 1 1 24 1 1 259 3010 3060 3090 3100 3170 3180 3200 3201 1 2 1 27 1 2 54 2 3210 3230 3280 3300 3310 3320 3330 3400 1 1 1 45 1 1 1 37 3430 3500 3501 3520 3530 3540 3560 3600 2 88 2 1 1 1 1 111 3601 3604 3630 3650 3700 3730 3800 3804 1 1 3 1 20 1 47 1 3850 3880 3900 3950 3980 4000 4010 4050 2 1 28 1 1 252 1 1 4100 4180 4190 4200 4280 4300 4320 4350 23 1 1 55 1 45 1 1 4400 4420 4430 4500 4550 4580 4600 4620 27 1 1 74 1 1 33 1 4690 4700 4710 4750 4780 4800 4801 4810 1 40 1 1 1 134 1 1 4820 4840 4890 4900 4960 5000 5001 5010 1 1 1 32 2 430 3 1 5030 5050 5070 5080 5100 5130 5150 5190 1 4 1 1 33 1 2 1 5200 5210 5300 5340 5400 5500 5510 5540 58 2 38 2 62 76 4 1 5560 5570 5600 5640 5670 5690 5700 5720 1 1 47 2 1 1 37 2 5740 5760 5780 5800 5810 5830 5880 5900 1 2 1 56 2 1 1 33 5970 6000 6004 6010 6020 6050 6070 6100 1 436 1 2 1 3 1 33 6120 6130 6140 6150 6190 6200 6210 6230 2 1 1 1 1 36 1 1 6240 6250 6300 6360 6400 6410 6440 6500 1 1 42 1 45 1 1 89 6520 6550 6560 6580 6600 6640 6650 6660 1 1 1 1 74 1 1 1 6680 6700 6704 6750 6760 6790 6800 6880 1 63 1 2 1 1 41 1 6900 6950 6960 7000 7004 7010 7020 7030 45 1 1 301 1 2 1 3 7040 7060 7080 7100 7110 7140 7150 7190 1 1 1 32 1 2 1 1 7200 7220 7230 7240 7250 7260 7270 7300 226 1 2 2 1 1 1 49 7320 7340 7400 7420 7440 7450 7460 7470 1 1 48 1 1 1 1 1 7480 7500 7504 7550 7560 7600 7650 7660 1 126 1 1 2 58 2 1 7680 7700 7710 7740 7750 7760 7800 7801 1 45 1 1 1 3 100 1 7850 7860 7880 7900 7901 7920 7940 7980 1 1 1 51 1 1 1 1 8000 8001 8004 8030 8040 8050 8070 8100 476 2 1 1 2 3 1 52 8110 8120 8130 8140 8200 8230 8250 8280 1 1 2 1 51 1 1 2 8300 8304 8310 8350 8360 8400 8404 8450 64 1 1 1 2 273 2 2 8460 8470 8500 8510 8520 8540 8550 8560 3 1 106 1 2 1 1 2 8590 8600 8630 8640 8650 8680 8690 8700 1 92 1 1 2 3 2 78 8710 8750 8760 8800 8820 8860 8880 8900 3 1 1 353 2 1 1 89 8904 8940 8950 8970 8980 8990 8994 9000 1 2 1 3 1 2 1 453 9004 9010 9020 9030 9040 9050 9060 9070 1 2 2 3 3 2 2 1 9080 9100 9110 9150 9160 9180 9190 9200 1 81 3 1 2 1 1 66 9220 9240 9250 9270 9280 9290 9300 9310 2 2 2 1 1 4 64 2 9340 9350 9370 9390 9400 9420 9450 9460 2 3 1 2 74 1 1 3 9500 9520 9530 9550 9570 9600 9601 9604 108 1 1 2 1 271 2 1 9610 9620 9630 9640 9650 9660 9670 9680 1 1 1 2 1 1 1 1 9690 9700 9701 9710 9750 9760 9770 9780 3 62 1 1 3 1 1 2 9790 9800 9810 9840 9860 9870 9880 9900 2 99 2 1 1 1 1 58 9904 9910 9940 9950 9980 10000 10001 10004 1 1 1 1 2 855 1 2 10010 10011 10020 10030 10050 10060 10070 10100 2 1 2 3 1 1 1 64 10110 10130 10150 10190 10200 10201 10210 10220 1 1 3 1 87 1 2 1 10240 10250 10280 10290 10300 10304 10310 10380 3 5 1 1 67 1 1 1 10390 10400 10404 10410 10420 10430 10440 10450 1 90 1 1 1 3 2 3 10490 10500 10510 10530 10540 10550 10570 10590 1 99 1 1 1 2 1 1 10600 10601 10610 10650 10670 10690 10700 10710 53 2 1 1 1 1 82 2 10720 10730 10740 10750 10760 10800 10810 10820 1 1 2 1 1 182 1 2 10830 10850 10860 10900 10910 10940 10950 10990 1 2 1 66 1 1 1 1 11000 11004 11020 11040 11060 11070 11090 11100 291 1 1 3 1 1 1 58 11120 11150 11160 11170 11200 11204 11210 11240 1 1 2 2 77 1 1 1 11280 11300 11330 11350 11370 11390 11400 11430 1 67 1 1 1 1 79 1 11440 11450 11500 11501 11510 11530 11560 11600 1 2 90 1 1 1 1 55 11601 11620 11650 11690 11700 11730 11790 11800 1 1 2 1 56 2 3 62 11820 11900 11904 11920 11940 11950 12000 12001 1 56 1 1 1 2 1140 3 12004 12010 12020 12040 12050 12080 12100 12150 2 4 4 2 2 1 58 2 12160 12200 12210 12220 12240 12250 12280 12290 1 63 1 3 1 1 1 1 12300 12330 12350 12400 12401 12450 12460 12480 57 2 1 57 1 1 1 2 12500 12501 12504 12520 12530 12540 12550 12590 127 1 1 1 2 1 2 1 12600 12620 12630 12690 12700 12730 12760 12780 82 1 1 1 35 1 1 2 12800 12830 12850 12900 12910 12930 12940 12950 59 1 1 40 1 1 1 2 12960 12980 13000 13004 13020 13040 13050 13060 1 1 400 2 3 1 2 1 13100 13101 13120 13130 13140 13160 13190 13200 48 1 1 1 1 1 1 140 13204 13210 13230 13240 13250 13280 13300 13310 3 1 1 1 1 1 77 3 13340 13360 13380 13400 13420 13430 13440 13450 1 2 2 54 1 1 1 1 13500 13560 13600 13650 13670 13690 13700 13701 89 2 63 3 1 1 55 1 13720 13730 13750 13780 13790 13800 13830 13900 1 1 1 1 1 58 1 42 13901 13904 13910 13940 13950 13960 13980 14000 1 1 1 1 1 2 3 435 14004 14020 14030 14050 14070 14100 14120 14150 1 2 1 1 2 47 1 2 14160 14170 14180 14200 14201 14210 14230 14250 1 1 2 57 1 1 1 2 14280 14290 14300 14310 14350 14370 14390 14400 1 1 48 1 4 1 1 252 14410 14430 14440 14460 14490 14500 14501 14540 2 1 1 1 1 81 1 1 14580 14590 14600 14610 14620 14630 14650 14660 1 1 50 2 2 1 1 1 14670 14680 14700 14740 14800 14840 14850 14900 1 1 60 1 53 1 1 50 14910 14920 14930 14950 14960 15000 15001 15004 1 2 1 1 1 856 1 1 15010 15020 15030 15040 15050 15060 15090 15100 1 3 2 1 2 1 1 37 15120 15130 15140 15150 15200 15210 15220 15230 1 1 1 1 52 1 1 1 15260 15300 15301 15310 15320 15330 15350 15390 1 41 1 1 1 1 3 1 15400 15410 15420 15440 15450 15460 15480 15500 51 1 1 2 1 1 1 60 15501 15510 15520 15530 15540 15550 15580 15600 1 1 2 2 2 1 3 187 15601 15650 15700 15704 15750 15790 15800 15830 1 4 35 1 1 1 46 1 15840 15850 15890 15900 15920 15930 15940 15950 1 1 1 38 2 2 1 2 16000 16001 16020 16100 16120 16140 16190 16200 435 1 5 42 1 3 1 66 16240 16260 16270 16300 16304 16320 16330 16340 1 1 1 48 1 1 2 1 16350 16400 16430 16460 16500 16520 16530 16550 2 38 2 1 72 2 1 1 16560 16600 16620 16650 16670 16690 16700 16704 1 68 1 1 1 1 46 1 16720 16730 16790 16800 16810 16830 16850 16880 1 1 1 151 1 1 1 1 16900 16901 16930 16990 17000 17001 17004 17020 44 2 2 1 332 1 1 1 17040 17050 17070 17100 17150 17160 17180 17200 1 1 1 53 2 1 1 48 17230 17240 17250 17260 17300 17320 17330 17360 1 1 3 2 51 1 1 1 17400 17450 17460 17500 17501 17504 17520 17550 55 2 1 76 1 1 1 1 17590 17600 17610 17650 17700 17720 17730 17740 1 51 1 2 31 2 1 1 17760 17780 17790 17800 17830 17900 17904 17950 1 1 1 47 2 37 1 1 17980 18000 18010 18020 18040 18050 18080 18090 1 718 1 3 1 2 1 1 18100 18110 18120 18130 18140 18150 18200 18201 29 1 2 2 1 1 63 1 18230 18250 18300 18304 18310 18360 18400 18430 1 1 44 1 1 2 56 1 18480 18490 18500 18510 18520 18530 18560 18600 3 1 70 2 1 1 1 52 18610 18680 18700 18710 18780 18800 18810 18820 1 2 59 1 2 42 1 1 18830 18880 18890 18900 18920 18970 18990 19000 1 1 1 33 3 1 1 291 19010 19030 19080 19100 19104 19120 19200 19201 3 1 1 44 1 1 149 2 19210 19230 19250 19260 19290 19300 19350 19360 2 1 2 1 1 53 1 2 19400 19410 19430 19500 19504 19510 19520 19550 44 1 2 72 1 1 2 1 19560 19590 19600 19610 19620 19640 19650 19700 1 1 50 1 1 1 1 32 19720 19800 19801 19900 19920 19940 19990 20000 1 65 1 34 1 1 1 1411 20001 20004 20020 20030 20040 20050 20080 20100 1 4 1 1 1 3 1 53 20140 20150 20160 20180 20200 20230 20240 20300 2 1 2 1 41 1 1 43 20304 20310 20350 20370 20380 20390 20400 20410 1 1 1 1 2 1 79 1 20420 20440 20470 20480 20490 20500 20530 20600 2 1 1 1 1 38 1 64 20630 20640 20680 20700 20750 20800 20820 20860 1 1 1 37 1 96 1 1 20870 20880 20900 20950 21000 21001 21004 21010 1 1 33 1 327 1 1 2 21020 21030 21060 21080 21100 21110 21140 21200 3 4 1 1 31 1 1 37 21210 21230 21240 21250 21300 21320 21340 21350 2 1 1 1 45 1 1 2 21360 21400 21404 21420 21450 21460 21500 21590 1 26 1 1 3 1 56 1 21600 21604 21610 21620 21630 21640 21650 21700 91 1 2 1 2 1 1 25 21750 21800 21820 21840 21850 21860 21900 21901 1 45 1 2 1 1 35 1 21930 21940 22000 22010 22050 22090 22100 22120 1 1 484 2 2 1 38 1 22130 22150 22200 22240 22280 22300 22330 22350 1 2 55 1 2 31 1 2 22400 22430 22450 22500 22540 22550 22580 22590 43 1 1 79 1 2 1 1 22600 22610 22680 22700 22720 22730 22750 22800 28 1 1 28 1 1 2 54 22810 22830 22840 22850 22860 22880 22890 22900 1 1 3 1 1 1 1 51 22920 22950 22960 22970 22980 23000 23010 23040 1 1 1 1 1 354 1 1 23050 23100 23120 23130 23180 23190 23200 23250 2 28 1 1 1 1 51 1 23300 23301 23350 23360 23400 23480 23500 23501 36 1 2 1 56 1 46 1 23530 23600 23640 23680 23700 23740 23760 23790 2 30 1 1 32 1 2 1 23800 23820 23870 23900 23910 23950 23960 24000 54 1 1 25 2 1 1 789 24001 24004 24010 24020 24050 24070 24100 24101 5 3 1 3 4 1 27 1 24110 24130 24150 24160 24170 24200 24201 24300 1 1 2 1 1 31 1 28 24301 24304 24310 24360 24380 24390 24400 24410 1 1 1 1 1 1 38 1 24470 24500 24510 24530 24570 24580 24590 24600 1 51 1 1 1 1 1 48 24604 24700 24720 24760 24800 24810 24830 24840 1 39 2 2 29 1 1 1 24870 24880 24900 24920 24940 24950 24990 25000 1 1 25 2 1 1 1 1109 25001 25004 25010 25020 25040 25080 25100 25110 4 1 1 2 2 2 39 1 25130 25140 25150 25180 25200 25220 25230 25240 1 1 1 1 59 1 2 3 25250 25300 25330 25400 25410 25450 25460 25470 1 28 2 39 1 2 1 1 25480 25490 25500 25501 25530 25550 25590 25600 1 1 45 1 1 1 1 44 25604 25620 25700 25740 25750 25800 25810 25900 1 1 34 1 2 39 1 35 25930 25950 25960 26000 26001 26004 26010 26020 1 1 1 406 1 1 1 1 26030 26040 26060 26090 26100 26110 26120 26130 2 1 3 1 25 1 2 1 26150 26200 26220 26230 26250 26300 26310 26350 2 49 2 1 1 40 1 1 26380 26390 26400 26401 26420 26430 26450 26470 1 1 79 1 1 1 2 1 26480 26500 26530 26540 26570 26580 26600 26650 3 47 1 1 2 2 22 1 26700 26800 26850 26860 26900 26920 26930 26940 25 23 1 1 32 2 1 1 26990 27000 27004 27030 27050 27070 27100 27150 1 353 1 2 1 1 22 1 27200 27201 27250 27281 27300 27340 27360 27390 30 1 1 1 26 1 1 1 27400 27450 27480 27490 27500 27550 27600 27620 42 2 2 1 41 1 62 2 27630 27700 27720 27740 27750 27800 27860 27870 1 27 1 1 2 27 1 1 27884 27890 27900 27910 27920 27970 27980 27990 1 1 25 1 1 1 1 1 28000 28001 28004 28010 28020 28030 28040 28050 484 2 1 2 1 1 2 3 28090 28100 28120 28130 28170 28200 28300 28301 1 36 1 1 1 30 34 1 28304 28310 28350 28400 28401 28450 28470 28500 1 1 1 20 1 1 1 48 28504 28530 28540 28580 28600 28601 28660 28680 1 1 1 1 54 1 1 1 28700 28750 28800 28870 28900 28904 28930 28940 22 1 68 1 25 1 1 2 28950 29000 29040 29050 29060 29080 29100 29150 1 235 3 1 1 1 31 1 29190 29200 29210 29220 29230 29260 29280 29300 1 24 1 1 1 1 1 28 29350 29400 29430 29500 29520 29530 29550 29600 1 31 1 45 1 1 2 25 29650 29700 29701 29730 29780 29800 29810 29820 1 22 1 1 1 41 2 1 29900 29960 29970 30000 30001 30004 30010 30020 22 2 1 1672 3 3 2 5 30030 30040 30050 30060 30080 30100 30140 30150 3 3 3 1 1 27 1 2 30200 30240 30270 30280 30300 30320 30330 30350 33 1 1 1 30 1 1 1 30400 30430 30470 30500 30510 30520 30530 30540 31 2 1 39 1 1 2 1 30600 30601 30700 30710 30750 30800 30804 30850 32 1 27 1 1 28 1 1 30860 30900 30910 30940 31000 31001 31030 31050 1 26 1 1 214 1 1 1 31100 31110 31200 31210 31220 31300 31400 31430 22 2 85 1 1 18 23 1 31450 31460 31500 31520 31600 31650 31700 31720 2 1 36 2 34 1 24 1 31780 31800 31900 31904 32000 32001 32004 32010 1 34 14 1 607 1 2 1 32020 32030 32050 32090 32100 32150 32180 32200 1 1 2 1 16 2 1 39 32240 32250 32300 32320 32330 32400 32404 32420 1 1 22 1 1 61 1 2 32500 32520 32540 32570 32600 32610 32650 32700 39 1 1 1 32 2 2 14 32710 32780 32800 32830 32890 32900 33000 33001 1 1 24 1 1 17 259 2 33004 33010 33090 33100 33110 33140 33170 33200 1 1 1 23 1 1 1 24 33204 33280 33300 33400 33480 33490 33500 33510 1 1 43 29 1 1 28 1 33520 33580 33600 33640 33700 33720 33800 33810 2 1 47 1 15 1 25 1 33820 33850 33900 33950 34000 34001 34004 34010 1 1 21 2 272 1 1 3 34020 34050 34080 34100 34110 34130 34200 34204 2 1 1 16 1 1 28 1 34290 34300 34301 34310 34330 34340 34350 34400 1 30 1 1 1 1 1 19 34420 34430 34500 34520 34550 34580 34600 34700 1 1 37 1 2 1 22 13 34800 34804 34820 34900 34950 35000 35001 35010 41 1 1 29 1 953 2 3 35020 35030 35050 35060 35100 35104 35110 35120 7 2 4 1 24 1 1 1 35130 35150 35200 35201 35290 35300 35301 35310 1 1 33 1 1 21 1 1 35320 35360 35400 35470 35490 35500 35520 35530 2 2 29 2 1 31 2 1 35550 35570 35600 35670 35700 35740 35760 35780 1 1 27 1 15 1 1 1 35800 35804 35830 35860 35900 35960 36000 36001 24 1 1 1 20 2 493 1 36004 36010 36020 36030 36050 36100 36110 36200 4 1 2 2 3 19 1 24 36260 36300 36320 36350 36400 36401 36430 36440 1 20 1 1 38 1 1 1 36480 36490 36500 36520 36600 36601 36620 36650 1 1 42 1 25 1 1 1 36700 36800 36810 36850 36900 37000 37001 37010 26 30 1 1 20 237 1 1 37030 37100 37110 37120 37140 37150 37200 37260 2 20 1 2 1 2 32 1 37300 37350 37400 37430 37460 37500 37540 37590 19 1 40 1 1 48 1 1 37600 37700 37770 37800 37804 37810 37820 37840 25 16 1 30 1 1 1 1 37850 37900 37910 37920 38000 38010 38020 38030 2 14 1 1 459 2 2 1 38040 38050 38070 38080 38100 38120 38150 38180 1 2 1 1 17 1 4 2 38200 38220 38250 38260 38300 38390 38400 38401 19 1 2 1 18 1 49 1 38410 38450 38500 38600 38601 38620 38690 38700 1 1 36 23 1 1 1 13 38710 38780 38800 38810 38850 38900 38901 38930 1 1 21 1 2 22 1 1 39000 39001 39004 39010 39030 39080 39100 39104 217 1 2 1 1 1 18 1 39150 39200 39250 39270 39280 39300 39400 39450 2 30 1 1 1 16 18 1 39470 39480 39500 39510 39600 39610 39620 39650 1 1 39 1 29 1 2 3 39700 39800 39850 39900 39901 39920 39990 40000 17 14 3 10 1 1 1 1407 40004 40010 40020 40030 40040 40050 40060 40080 2 3 7 2 1 3 2 2 40090 40100 40120 40130 40150 40180 40200 40240 1 27 1 1 1 1 21 1 40250 40290 40300 40360 40380 40400 40500 40510 1 1 19 1 1 20 23 1 40530 40600 40700 40701 40704 40730 40800 40900 2 17 17 1 2 1 31 12 40904 40910 40960 41000 41020 41030 41100 41110 1 1 1 193 1 1 10 1 41120 41130 41200 41300 41350 41400 41430 41450 1 1 28 12 1 20 1 1 41500 41520 41530 41540 41570 41600 41620 41650 27 1 1 1 1 47 1 1 41700 41800 41810 41820 41900 41920 41950 41960 13 18 1 2 19 1 1 1 42000 42001 42010 42020 42040 42080 42100 42120 472 2 1 2 1 1 18 3 42130 42150 42200 42210 42220 42300 42380 42400 2 1 19 1 1 28 1 15 42450 42460 42500 42504 42510 42550 42600 42700 1 1 32 1 1 2 19 11 42750 42770 42800 42900 42920 42950 42960 43000 1 1 18 17 1 1 1 217 43001 43050 43060 43100 43110 43200 43220 43260 2 2 2 13 1 20 1 1 43300 43360 43400 43430 43480 43500 43560 43580 10 1 20 2 1 25 1 1 43600 43700 43704 43730 43800 43840 43880 43890 21 19 1 1 20 1 2 1 43900 44000 44004 44020 44060 44100 44104 44150 5 175 1 1 1 13 1 1 44180 44200 44270 44300 44320 44350 44400 44410 1 16 1 13 1 1 28 1 44440 44450 44460 44500 44600 44610 44620 44690 1 1 1 17 19 1 1 1 44700 44730 44760 44800 44810 44820 44880 44900 5 1 1 18 1 1 1 12 45000 45001 45004 45010 45020 45030 45040 45080 835 1 1 3 4 2 1 1 45100 45130 45150 45180 45200 45300 45400 45450 17 1 1 1 18 18 15 2 45490 45500 45600 45620 45630 45640 45650 45700 1 28 27 1 1 1 1 17 45790 45800 45860 45900 45960 45980 46000 46020 1 17 1 12 1 1 189 1 46050 46070 46080 46100 46130 46200 46240 46300 3 1 1 12 1 20 1 12 46340 46400 46401 46450 46500 46560 46600 46670 1 18 1 1 20 1 15 1 46700 46720 46760 46800 46804 46850 46860 46870 11 1 1 14 1 1 1 1 46880 46900 46950 47000 47004 47010 47020 47050 1 14 1 189 1 4 1 2 47100 47120 47130 47150 47160 47200 47201 47210 12 1 1 1 1 19 1 1 47250 47300 47390 47400 47500 47580 47600 47620 1 16 1 16 29 1 15 1 47690 47700 47720 47800 47850 47900 48000 48001 1 14 1 11 2 11 378 1 48010 48020 48040 48100 48110 48180 48200 48300 1 2 1 16 1 1 17 5 48320 48400 48440 48450 48500 48550 48600 48700 1 18 1 2 23 2 14 8 48720 48800 48820 48860 48880 48900 48910 48990 1 15 1 1 1 8 1 1 49000 49001 49004 49010 49030 49040 49050 49080 127 2 1 1 1 1 1 1 49100 49150 49200 49210 49300 49320 49400 49500 11 1 20 1 14 1 15 27 49530 49600 49650 49680 49700 49720 49750 49800 1 17 1 1 5 1 1 11 49830 49900 49920 49950 50000 50001 50004 50010 1 22 1 1 1375 4 3 5 50020 50030 50040 50050 50060 50100 50130 50150 2 3 1 2 1 15 1 1 50170 50180 50190 50200 50210 50300 50330 50340 1 1 1 20 2 11 1 1 50380 50400 50430 50450 50500 50530 50550 50580 1 14 2 1 15 1 1 1 50600 50650 50660 50690 50700 50800 50850 50900 13 1 1 1 8 10 1 14 51000 51020 51030 51060 51100 51120 51150 51200 174 1 1 2 8 2 1 12 51210 51250 51300 51330 51340 51360 51370 51400 1 1 11 1 1 1 1 9 51490 51500 51540 51600 51604 51650 51680 51700 1 18 1 23 1 1 1 7 51750 51780 51800 51850 51890 51900 52000 52010 1 2 9 1 1 8 422 2 52020 52040 52050 52070 52100 52150 52200 52220 2 2 1 2 11 2 16 1 52230 52300 52350 52400 52420 52500 52530 52550 1 5 1 10 1 13 1 1 52600 52650 52700 52710 52740 52750 52800 52850 13 2 7 1 1 1 25 2 52900 52930 53000 53001 53010 53040 53050 53100 8 1 187 3 3 1 2 8 53200 53250 53300 53340 53400 53500 53600 53640 10 1 4 1 12 9 4 1 53700 53760 53800 53880 53900 53904 54000 54001 5 1 8 1 5 1 253 1 54004 54010 54020 54030 54040 54050 54060 54100 2 1 1 1 2 2 1 7 54150 54200 54300 54390 54400 54500 54590 54600 2 6 8 1 8 7 1 2 54650 54680 54700 54790 54800 54830 54880 54900 1 1 9 1 10 1 1 11 55000 55004 55010 55020 55030 55050 55060 55080 565 1 4 1 3 6 1 1 55090 55100 55120 55150 55200 55250 55300 55400 1 11 1 1 19 1 5 9 55500 55600 55700 55750 55800 55850 55900 56000 7 11 11 1 9 1 7 219 56020 56030 56060 56070 56100 56130 56140 56150 1 2 1 1 4 1 1 1 56200 56210 56300 56330 56400 56420 56500 56600 10 1 9 1 8 1 10 9 56601 56604 56700 56800 56900 56940 57000 57004 1 1 5 9 5 1 176 1 57010 57020 57040 57100 57200 57300 57350 57360 1 2 1 5 8 5 1 1 57400 57450 57500 57510 57600 57700 57800 57900 9 1 14 1 18 11 7 7 58000 58001 58004 58010 58020 58030 58040 58050 201 1 3 1 1 1 1 2 58100 58110 58130 58170 58200 58300 58310 58400 7 1 1 1 13 4 1 6 58500 58570 58600 58680 58700 58800 58900 59000 13 1 5 1 5 6 3 115 59030 59100 59200 59250 59260 59280 59300 59340 1 6 2 1 1 1 6 1 59400 59500 59550 59600 59640 59700 59800 59810 3 11 1 9 1 5 5 1 59840 59900 60000 60001 60004 60020 60040 60050 1 4 1060 3 1 5 2 6 60070 60080 60100 60110 60120 60200 60210 60220 1 1 11 1 1 13 1 1 60250 60300 60350 60380 60400 60460 60500 60600 1 7 1 2 3 1 15 9 60700 60800 60820 60850 60900 60950 60980 61000 4 7 1 1 6 1 1 101 61010 61030 61050 61100 61160 61200 61300 61330 1 1 1 9 1 15 4 1 61350 61400 61500 61600 61650 61700 61750 61800 1 6 9 4 1 5 1 7 61830 61900 61940 62000 62001 62004 62010 62040 1 2 1 197 1 2 3 2 62050 62070 62100 62200 62210 62250 62300 62400 3 1 5 10 1 1 7 16 62430 62500 62510 62600 62700 62800 62900 63000 1 7 1 7 7 5 3 154 63020 63030 63050 63060 63100 63120 63200 63250 1 1 1 1 7 1 10 1 63300 63400 63420 63480 63500 63520 63530 63600 7 5 1 1 11 1 1 9 63601 63650 63700 63800 63850 63900 64000 64001 1 1 4 4 1 3 123 2 64010 64020 64040 64060 64100 64200 64300 64400 1 1 1 1 3 6 5 3 64440 64500 64600 64700 64710 64800 64900 65000 1 4 8 4 1 5 4 590 65001 65004 65010 65020 65030 65050 65080 65090 1 3 4 5 1 6 2 1 65100 65120 65140 65150 65200 65250 65280 65290 8 1 1 1 9 3 1 1 65300 65320 65350 65380 65400 65450 65500 65590 7 1 1 1 5 1 10 1 65600 65700 65800 65850 65860 65900 66000 66004 5 3 9 1 1 8 97 2 66010 66030 66050 66080 66100 66200 66280 66300 1 1 2 1 6 6 1 10 66400 66500 66600 66660 66700 66800 66900 66970 4 14 11 1 7 10 1 1 67000 67001 67010 67060 67100 67140 67150 67170 123 1 3 1 4 1 2 1 67200 67280 67300 67400 67500 67600 67700 67800 13 1 11 6 7 5 5 6 67870 67900 68000 68001 68030 68060 68100 68140 1 3 187 1 1 1 6 1 68200 68300 68400 68500 68600 68700 68800 68900 5 2 6 4 10 4 10 3 68950 69000 69010 69030 69100 69200 69300 69400 1 102 1 1 2 7 6 5 69500 69600 69700 69800 69900 70000 70001 70004 4 7 4 9 7 630 3 2 70010 70020 70030 70040 70050 70060 70090 70100 5 3 2 2 3 3 1 11 70110 70130 70150 70180 70200 70300 70310 70350 1 1 1 1 7 3 1 1 70400 70500 70520 70600 70660 70700 70800 70900 6 8 1 4 2 1 7 4 71000 71004 71020 71050 71100 71110 71150 71200 79 3 1 2 6 1 2 9 71300 71400 71460 71500 71520 71530 71560 71600 7 6 1 7 1 1 1 9 71700 71750 71800 71850 71900 72000 72004 72030 1 2 5 1 2 194 3 1 72050 72100 72180 72200 72240 72300 72320 72350 1 1 1 7 1 3 1 1 72400 72410 72500 72550 72600 72700 72800 72840 11 1 5 1 9 10 7 1 72900 73000 73001 73004 73010 73020 73030 73050 1 96 1 1 1 1 1 1 73100 73200 73220 73270 73300 73400 73440 73500 8 2 1 1 5 1 1 5 73600 73700 73750 73800 73900 74000 74030 74100 6 5 1 9 2 94 1 6 74140 74200 74250 74260 74300 74400 74500 74510 1 10 1 1 3 8 2 1 74550 74600 74660 74700 74704 74740 74800 74900 1 8 1 4 1 1 7 3 74940 75000 75001 75004 75010 75020 75030 75040 1 465 1 1 5 1 3 1 75050 75080 75100 75150 75180 75200 75204 75220 1 1 5 3 1 3 1 1 75250 75280 75300 75400 75500 75530 75600 75700 1 1 8 5 9 1 3 6 75710 75800 75900 76000 76004 76020 76040 76200 1 5 3 99 1 1 1 9 76300 76400 76500 76540 76600 76700 76800 76850 8 2 9 1 5 4 3 1 76900 77000 77100 77200 77300 77400 77500 77520 2 88 2 3 6 3 3 1 77600 77620 77650 77690 77700 77800 77840 77900 5 1 1 1 3 1 1 3 78000 78010 78020 78050 78100 78200 78300 78400 123 1 2 3 8 8 6 2 78500 78600 78650 78700 78800 78810 79000 79010 2 7 1 5 3 2 43 1 79030 79080 79100 79200 79250 79300 79304 79340 2 1 2 2 1 2 1 1 79400 79430 79500 79520 79600 79630 79700 79800 6 1 6 1 4 1 3 8 79850 79900 79920 79940 80000 80001 80010 80020 1 3 1 1 629 4 3 2 80050 80080 80100 80110 80120 80150 80170 80200 3 1 6 2 2 1 1 6 80230 80250 80300 80350 80400 80500 80510 80600 2 1 2 1 2 5 1 3 80700 80800 80900 81000 81100 81120 81200 81300 4 4 2 61 1 1 6 3 81350 81400 81450 81500 81600 81660 81700 81800 1 3 1 5 3 1 2 4 81900 82000 82004 82040 82100 82130 82200 82300 4 106 1 1 3 1 4 3 82400 82420 82500 82600 82800 82900 82970 82990 2 1 1 4 10 6 1 1 83000 83001 83004 83020 83030 83040 83060 83070 69 1 2 3 1 1 1 1 83080 83100 83200 83220 83300 83400 83500 83600 1 2 8 1 1 3 3 3 83700 83800 83900 84000 84001 84020 84100 84110 3 4 1 80 1 2 3 1 84200 84220 84300 84400 84404 84430 84440 84500 5 1 6 3 1 1 1 5 84600 84670 84700 84800 84850 84900 85000 85010 4 1 3 7 1 2 273 4 85020 85030 85050 85060 85090 85100 85200 85250 3 3 1 1 1 4 10 1 85280 85300 85400 85500 85600 85800 85810 85830 1 3 4 10 3 5 1 1 85840 85900 86000 86004 86010 86100 86150 86200 1 4 73 1 1 2 1 3 86300 86400 86470 86500 86504 86510 86600 86650 5 5 1 5 1 1 3 1 86800 86900 87000 87030 87040 87100 87150 87180 4 5 69 2 1 5 1 1 87200 87300 87470 87500 87600 87700 87800 87820 6 1 1 9 1 1 3 1 88000 88001 88020 88050 88070 88100 88200 88260 77 1 1 2 2 2 4 1 88300 88400 88420 88450 88500 88600 88800 88810 2 3 1 1 3 4 2 1 88900 89000 89020 89030 89040 89100 89190 89200 2 77 1 2 1 1 1 2 89300 89400 89480 89500 89600 89700 89800 89900 1 3 2 2 4 2 3 2 89930 90000 90001 90004 90010 90020 90030 90050 1 373 1 1 1 1 1 1 90060 90090 90100 90150 90200 90300 90350 90400 2 1 6 2 7 5 1 4 90450 90500 90600 90700 90800 90900 90920 91000 1 5 4 2 4 1 1 59 91050 91100 91120 91200 91250 91300 91400 91450 1 2 1 7 1 3 2 1 91500 91520 91600 91650 91700 91800 91900 92000 5 1 5 1 1 2 1 91 92004 92020 92040 92050 92100 92200 92220 92240 1 1 1 1 6 4 1 1 92300 92400 92440 92500 92800 93000 93020 93050 1 2 1 7 4 47 1 2 93100 93200 93300 93400 93430 93500 93550 93600 5 4 1 1 1 3 1 1 93700 93850 93900 94000 94001 94090 94100 94200 3 1 1 59 2 1 3 1 94300 94400 94500 94600 94700 94800 95000 95020 1 2 1 1 3 1 156 3 95050 95100 95150 95200 95240 95250 95300 95400 1 4 1 3 1 1 3 1 95500 95600 95650 95700 95721 95730 95800 95900 3 1 1 1 1 1 1 1 96000 96001 96010 96120 96150 96200 96250 96390 65 1 1 1 1 4 2 1 96400 96440 96500 96600 96650 96700 96740 96750 1 1 4 2 1 4 1 1 96800 96900 97000 97050 97090 97100 97150 97200 2 3 56 1 1 2 1 2 97300 97400 97500 97700 97900 98000 98001 98010 1 4 6 2 2 87 1 2 98020 98030 98100 98150 98200 98400 98500 98600 3 1 2 1 2 4 9 4 98700 98800 98900 98950 99000 99030 99200 99300 6 2 1 1 36 1 2 3 99400 99420 99500 99520 99700 99710 99800 99900 1 1 4 1 1 1 3 2 100000 100001 100004 100010 100020 100030 100080 100100 563 3 4 4 5 8 1 11 100110 100120 100180 100200 100250 100300 100330 100380 1 1 1 5 1 5 1 1 100400 100470 100500 100600 100700 100750 100800 100900 4 1 9 1 4 1 3 4 101000 101004 101050 101060 101100 101120 101200 101300 40 1 1 1 2 1 3 1 101350 101480 101500 101600 101700 101800 102000 102030 1 1 6 6 2 2 55 1 102080 102200 102300 102310 102320 102400 102500 102600 1 5 1 1 1 1 1 3 102630 102650 102800 102900 102950 102980 103000 103010 1 1 4 1 1 1 53 1 103020 103050 103100 103150 103300 103400 103600 103610 1 1 6 1 1 2 4 1 103640 103700 103800 103900 104000 104004 104040 104100 1 1 3 1 40 1 1 1 104180 104200 104220 104300 104500 104600 104770 104800 1 3 1 2 1 1 1 2 105000 105001 105020 105030 105060 105100 105200 105350 127 2 1 1 1 4 6 1 105400 105500 105600 105800 105810 105900 105920 106000 2 1 3 1 1 1 1 39 106004 106010 106020 106040 106060 106100 106200 106280 1 1 1 1 1 2 2 1 106400 106500 106600 106700 107000 107004 107030 107100 1 4 3 2 38 1 1 2 107200 107330 107400 107500 107600 107700 107800 107950 1 1 1 1 2 5 1 1 108000 108010 108100 108200 108220 108400 108500 108600 46 1 2 2 1 3 1 2 108700 108800 108900 109000 109140 109160 109200 109210 2 1 1 31 1 1 2 1 109300 109400 109500 109600 109610 109700 109800 110000 1 3 2 1 1 1 3 188 110004 110010 110030 110040 110100 110200 110500 110520 1 2 1 1 5 1 6 1 110600 110670 110700 110800 110900 111000 111001 111100 1 1 1 4 1 22 1 1 111200 111260 111300 111360 111400 111600 111700 111800 2 1 1 1 2 2 1 2 111890 111900 112000 112020 112060 112100 112200 112280 1 1 33 1 1 3 1 1 112300 112400 112440 112500 112600 112700 112800 112830 3 1 1 3 1 3 2 1 112850 113000 113080 113100 113400 113500 113600 113700 1 33 1 1 2 4 1 2 113800 113900 113940 114000 114020 114060 114100 114200 4 3 1 28 1 1 2 2 114400 114500 114600 114800 114900 114920 115000 115010 4 2 3 3 1 1 116 1 115020 115070 115100 115180 115200 115300 115320 115400 1 1 6 1 4 2 1 1 115450 115500 115600 115700 115790 115820 115900 116000 1 2 2 1 1 1 1 25 116010 116030 116100 116140 116200 116300 116400 116700 1 1 1 1 2 2 3 2 116800 116900 116930 117000 117030 117170 117200 117300 1 1 1 27 1 1 2 1 117400 117500 117700 118000 118100 118200 118420 118500 3 2 1 23 1 2 1 2 118600 118700 118760 118800 119000 119200 119300 119500 1 3 1 1 19 1 1 1 119530 119600 119700 119800 119900 120000 120004 120010 1 5 1 1 1 290 1 1 120020 120070 120100 120200 120240 120250 120300 120400 2 2 5 5 2 2 4 1 120500 120600 120700 120800 120901 121000 121050 121100 1 1 1 2 1 27 1 1 121200 121400 121500 121600 121900 122000 122030 122070 1 2 3 5 1 25 1 1 122100 122200 122300 122400 122500 122600 123000 123060 1 3 1 4 2 1 14 1 123100 123200 123300 123500 123600 123800 124000 124060 1 2 1 1 1 2 22 1 124100 124200 124250 124300 124320 124500 124800 124900 2 1 1 1 1 1 4 1 125000 125030 125050 125090 125100 125200 125300 125400 122 1 1 1 2 2 2 1 125500 125600 125900 126000 126030 126110 126130 126200 2 2 2 25 1 1 1 2 126300 126350 126400 126550 126800 127000 127050 127100 2 1 2 1 2 18 1 1 127400 127500 127700 127800 127840 128000 128200 128300 2 1 2 4 1 19 1 1 128500 128600 128900 129000 129030 129100 129200 129240 3 1 1 16 1 1 3 1 129410 129600 129800 130000 130001 130010 130020 130030 1 3 2 153 1 1 2 3 130040 130120 130200 130300 130400 130500 130570 130600 1 1 1 2 1 3 1 1 131000 131200 131400 131600 131800 131900 132000 132040 12 3 1 2 1 1 21 1 132100 132200 132400 132600 132700 133000 133010 133100 3 1 2 1 1 15 1 1 133200 133300 133500 133600 133700 133800 133950 134000 4 1 1 1 1 1 1 15 134010 134050 134100 134300 134400 134500 134600 134700 1 1 1 2 1 3 1 1 134800 134900 135000 135001 135010 135030 135200 135300 3 1 65 2 1 2 1 2 135400 135500 135600 135800 136000 136010 136060 136200 3 3 2 2 21 1 1 1 136300 136400 136500 136900 137000 137100 137300 137400 2 1 1 1 8 1 2 1 137600 137800 138000 138100 138200 138250 138300 138400 1 1 14 2 1 1 1 2 138500 139000 139030 139500 139600 139700 139800 140000 2 10 1 1 1 1 1 131 140001 140010 140030 140050 140100 140120 140190 140500 2 1 2 2 2 1 1 4 140700 140800 140900 140940 141000 141200 141400 141500 1 1 2 1 10 3 1 4 141600 141700 141800 142000 142100 142400 142500 143000 3 1 1 15 1 2 1 14 143100 143400 143800 144000 144040 144100 144200 144400 2 1 1 16 1 2 1 2 144600 144700 144800 145000 145030 145100 145150 145200 1 1 1 44 1 3 1 2 145250 145400 145450 145500 145600 145660 145700 146000 1 2 1 1 2 1 1 13 146004 146120 146200 146240 146600 146800 147000 147200 1 1 2 1 1 1 11 1 147210 147300 147400 147500 147600 147900 148000 148100 1 2 1 1 1 1 11 1 148200 148250 148400 148500 148600 148800 148900 149000 1 1 1 1 3 1 1 10 149020 149100 149200 149400 149600 149780 150000 150001 1 1 1 1 1 1 220 1 150004 150010 150020 150030 150040 150100 150150 150160 1 1 1 1 1 5 1 1 150200 150250 150300 150500 150690 150800 150900 151000 2 2 1 3 1 1 1 9 151100 151400 151600 151900 152000 152020 152100 152120 1 2 1 1 9 1 1 1 152300 152320 152600 152900 153000 153200 153500 153900 1 1 3 1 7 1 2 1 154000 154240 154300 154500 154600 154800 155000 155001 9 1 1 2 1 1 34 1 155020 155030 155140 155200 155250 155500 155600 155820 1 1 1 2 1 2 1 1 156000 156200 156500 157000 157200 157400 157500 157600 8 1 1 9 2 1 2 1 158000 158004 158100 158500 158600 158900 159000 160000 12 1 1 2 2 1 5 84 160001 160050 160100 160160 160200 160400 160500 160600 1 1 2 1 2 1 1 2 160800 161000 161200 161300 161400 161600 161700 161900 1 8 1 1 1 2 2 1 162000 162080 162100 162400 162500 162650 163000 163100 15 1 1 1 1 1 6 1 163200 163400 163550 163650 163700 163900 164000 164400 3 1 1 1 3 1 12 3 164500 164600 165000 165060 165100 165150 165300 165400 2 1 28 1 1 1 1 1 165500 165600 166000 166400 166630 167000 167100 167500 1 1 6 1 1 10 1 1 167800 168000 168700 168780 169000 169500 169700 170000 1 7 1 1 10 2 3 48 170001 170050 170100 170260 170300 170350 170400 170500 1 1 1 1 1 1 1 1 171000 171200 171300 171800 172000 172300 173000 173100 6 1 1 1 7 1 5 1 173200 173300 173400 173500 173600 174000 174300 174400 1 1 1 1 1 4 1 1 174560 174600 175000 175100 175200 175300 175500 175600 1 1 49 2 1 1 1 1 176000 176050 176200 176400 176500 177000 177300 177400 5 1 1 1 3 3 1 1 177500 177600 177700 177800 178000 178500 178800 178900 2 1 1 1 5 1 2 1 179000 179100 180000 180001 180100 180200 180250 180300 7 1 72 1 1 3 1 2 180500 180600 180700 181000 181100 181200 181400 181500 4 1 1 9 2 2 1 1 181600 181700 181900 182000 182160 182200 182300 182800 1 1 1 4 1 1 1 1 183000 183150 183500 184000 184600 184990 185000 185020 5 1 1 2 1 1 27 1 185100 185200 185300 185710 185800 186000 186200 186500 1 1 1 1 1 6 2 2 186600 186700 186800 187000 187200 187700 187800 187900 1 1 1 8 1 1 2 1 188000 188500 188900 189000 189200 189450 189500 189600 4 1 1 6 1 1 1 1 189700 190000 190100 190120 190150 190200 190300 190500 1 26 2 2 1 1 1 1 190970 191000 192000 192250 192500 192600 192800 193000 1 5 4 1 1 1 1 3 194000 194100 194400 194500 195000 195100 195200 195300 9 1 1 1 18 1 1 1 195600 195800 196000 196400 197000 197080 197400 197500 1 1 2 1 6 1 1 1 197800 198000 198700 199000 199050 199500 199600 200000 1 5 1 1 1 1 1 111 200100 200200 200250 200300 200500 200750 200800 201000 1 1 1 1 4 1 1 10 201100 201290 201400 201500 201600 202000 202500 203000 1 1 1 2 1 6 3 9 203500 203600 203900 204000 204001 204400 204500 205000 3 1 1 5 1 1 1 11 205100 205400 205700 206000 206900 207000 207200 208000 2 1 1 1 1 6 1 5 208600 209000 210000 210070 210200 210500 211000 211100 1 5 31 1 1 1 4 1 211200 211700 211900 212000 212050 212800 213000 213100 1 1 1 7 1 1 4 2 213400 214000 214400 215000 215500 215600 216000 216500 1 4 1 6 1 1 5 1 216700 217000 217400 217500 218000 218200 219000 219400 1 4 1 2 3 2 2 1 219700 220000 220100 220130 221300 221600 221700 222000 1 31 2 1 1 1 1 2 222300 222400 222700 223000 223400 223800 223900 224000 1 1 1 1 1 1 1 1 225000 225200 225300 225400 225500 226000 227000 227200 23 1 1 1 2 1 6 1 227400 227600 228000 228200 228300 228370 229000 229100 1 1 5 1 1 1 1 1 229600 230000 230120 230400 231000 232000 232050 232300 1 8 1 1 4 3 1 1 232600 233000 233400 233500 234000 234200 234500 235000 1 2 1 1 1 2 1 3 235100 235200 235500 235900 236000 236400 236600 237000 2 1 1 1 3 1 1 6 237100 237800 238000 238200 238300 239000 239700 239800 1 2 2 1 1 2 1 1 240000 240001 240200 240500 241000 242000 242100 243000 15 1 1 1 3 1 1 5 243100 243800 243900 244000 244200 244500 245000 245140 1 2 1 5 1 1 10 1 245500 246000 246400 246800 247000 248000 249000 249700 1 2 1 1 1 7 1 1 249800 250000 250100 250300 250800 251000 251200 251400 1 54 2 1 2 2 2 1 251500 251600 252000 253000 253410 253800 254000 255000 1 1 3 2 1 5 1 5 255460 256000 256800 257000 257700 258000 258400 258600 1 2 1 3 1 7 1 1 259600 259900 260000 260500 261000 261600 262970 263000 1 2 8 1 2 2 1 3 263400 263700 263800 264000 265000 265400 265800 266000 1 1 1 1 2 2 1 3 266500 267000 267100 268000 268300 269000 269500 269600 2 1 1 3 1 1 1 1 270000 270100 270700 270900 271000 271700 272000 272200 8 2 1 1 1 1 2 1 272600 273000 273550 273600 274000 274900 275000 275100 1 1 1 1 3 1 6 1 275300 275400 276000 276400 277000 277700 278000 278400 1 1 4 1 1 1 3 1 278500 279000 279900 280000 280800 281800 282000 283000 1 4 1 5 1 1 1 1 283200 283300 283500 284800 285000 285500 286000 286500 1 1 1 1 3 1 2 1 287000 287500 288000 289000 289500 289600 289800 290000 1 1 7 4 1 1 1 3 290400 291000 291500 293000 293400 294000 294400 295000 1 3 1 1 1 2 1 3 297000 297500 298000 298500 299000 299100 299600 300000 2 1 1 1 1 1 1 14 300050 300300 300400 300900 301000 301100 301500 302000 1 1 1 1 1 1 1 2 303000 303100 303400 304200 305000 306000 307000 307400 1 1 1 1 3 3 3 1 308000 308500 308950 309000 309700 309800 310000 311000 9 1 1 3 1 1 2 4 312000 313000 313400 314000 314400 315000 315200 315800 3 2 1 3 1 5 1 1 316000 316600 317000 317300 318000 320000 320500 321000 1 3 1 1 1 2 1 1 322000 322100 322800 323000 324000 324200 325000 325200 3 1 1 1 3 1 3 1 325900 326000 326900 327000 328000 329000 329100 329600 2 1 1 2 3 2 1 1 330000 331000 331100 331200 332000 333000 335000 335100 3 5 1 1 4 1 1 1 335800 336600 338000 339000 339730 340000 340900 341000 1 1 2 5 1 4 1 9 341060 342000 343000 343500 343800 344000 344500 345000 1 1 1 1 1 3 1 1 345100 345300 346000 347000 347050 348000 349000 349500 1 1 2 3 1 1 15 1 350000 350200 351000 351400 352000 352100 353000 353200 6 1 2 1 2 1 2 1 355000 356000 357000 357300 358000 358500 360000 360300 2 2 1 1 1 1 1 1 360600 362000 362700 363000 364000 365000 366000 368000 1 1 1 4 1 1 1 1 369000 369500 370000 371000 371050 372700 373000 374000 1 1 1 1 1 1 1 11 374100 376000 377000 378000 379000 380000 381000 383000 1 1 1 3 1 3 2 6 385000 385001 385070 386000 386900 387000 387001 389000 2 1 1 1 1 1 1 1 389300 389400 391000 393000 395300 396000 396001 396100 1 1 1 1 1 8 1 1 398000 399000 399200 400000 401000 402500 402800 403000 6 1 1 1 1 1 1 1 403400 403600 406000 406330 407600 407700 408000 408500 1 1 9 1 1 1 2 1 410000 412000 412900 414000 414500 415000 416000 418000 2 5 1 2 1 3 1 43 418110 418300 418400 418430 418500 419000 420000 420500 1 1 1 1 1 9 4 1 422000 422100 423000 424000 425000 426000 426100 426500 12 1 2 2 2 19 1 1 427000 427800 428000 428200 428500 429000 430500 430700 4 1 4 1 2 9 1 1 431000 432000 432010 433000 433300 433800 434000 434890 3 1 1 15 1 1 2 1 435000 437000 437200 438000 439000 441000 441700 442000 3 1 1 5 1 2 1 1 443150 444500 445000 446000 447000 447500 448000 448800 1 1 1 1 1 1 1 1 449000 450000 451000 454000 454600 456000 457000 458000 1 1 1 7 1 1 1 7 458400 458500 459000 462000 464000 466000 466100 467000 1 1 1 1 1 3 1 4 467600 468000 469000 470700 472000 474000 479000 483000 1 2 1 1 1 1 2 1 488000 488200 490000 491000 492000 494000 498600 499000 1 1 1 2 3 1 1 1 502000 502030 502050 502500 502900 504000 504400 505200 12 1 1 1 1 36 2 1 505220 506000 506100 506300 506500 507000 507500 508000 1 10 1 1 1 2 1 5 508200 509000 511000 511500 512000 514000 515000 519000 1 2 3 1 1 3 1 1 520000 521000 523000 526000 526450 529000 531000 532000 1 1 1 2 1 1 2 2 535500 537000 539400 543000 545000 546000 546800 547000 1 1 1 7 1 1 1 2 554000 557000 558000 559000 562000 568000 570000 575000 1 1 1 2 1 1 1 1 580000 582000 583000 584000 584700 585000 586000 588800 1 1 3 2 1 1 1 1 593000 597000 599000 600000 601000 601160 601300 602000 1 1 1 1 18 1 1 1 602500 603000 604410 609000 611000 615100 626400 627000 1 3 1 1 1 1 1 1 636000 657000 661000 665000 666000 690000 694000 704000 1 1 1 4 2 1 1 2 709600 719000 724000 728000 729000 739000 740000 747000 1 1 1 1 1 1 2 1 761600 766000 787000 812000 859000 861000 868200 897100 1 1 1 3 1 1 1 1 997000 1051000 1257000 <NA> 1 2 1 0 ``` ] ] .panel[.panel-name[c.处理办法] - age取值等于0,则转换为缺失值`NA` - income取值小于0,则转换为缺失值`NA`
] ] --- ### (税收案例)数据清洗问题——存在缺失值 .panelset[ .panel[.panel-name[a.简单删除法] 处理缺失值最简单粗暴的办法就是直接删除行或列,但是这样也会直接去掉很多样本信息: - 行删除(row delete) - 列删除(column delete) <img src="../pic/chpt03-removingNAs.png" width="1315" style="display: block; margin: auto;" /> ] .panel[.panel-name[b.填加标签法] .pull-left[ 对于**分类变量**的缺失值,可以直接加一个特定标签(level)。 ] .pull-right[ <img src="../pic/chpt03-missingCats.png" width="991" height="400px" style="display: block; margin: auto;" /> ] ] .panel[.panel-name[c.数值替换法] .pull-left[ 对于**数值型变量**的缺失值,可以给缺失值进行**补值**: - 用均值代替 - 使用各种插值办法 补值后,一定要记得新增加1个变量,指明哪些样本进行了补值操作! ] .pull-right[ <img src="../pic/chpt03-addIsBad.png" width="1136" height="400px" style="display: block; margin: auto;" /> ] ] ] --- ### (税收案例)数据清洗问题——R补值工具 .panelset[ .panel[.panel-name[a.处理前变量] 处理前数据集`customer_data`的变量: ``` [1] "id" "custid" [3] "sex" "is_employed" [5] "income" "marital_status" [7] "health_ins" "housing_type" [9] "recent_move" "num_vehicles" [11] "age" "state_of_res" [13] "gas_usage" "gas_with_rent" [15] "gas_with_electricity" "no_gas_bill" [17] "gas_usage_new" "age_new" [19] "income_new" ``` ] .panel[.panel-name[b.处理后变量] 采用`R`包`vtreat`进行自动补值后新数据集`training_prepared`的变量: .scroll-box-16[ ``` [1] "custid" "health_ins" [3] "id" "sex" [5] "is_employed" "is_employed_isBAD" [7] "income" "marital_status" [9] "housing_type" "recent_move" [11] "recent_move_isBAD" "num_vehicles" [13] "num_vehicles_isBAD" "age" [15] "state_of_res" "gas_usage" [17] "gas_usage_isBAD" "gas_with_rent" [19] "gas_with_rent_isBAD" "gas_with_electricity" [21] "gas_with_electricity_isBAD" "no_gas_bill" [23] "no_gas_bill_isBAD" "gas_usage_new" [25] "gas_usage_new_isBAD" "age_new" [27] "age_new_isBAD" "income_new" ``` ] ] <!---end panel 3---> .panel[.panel-name[c.处理前数据] **处理前**的数据缺失情况(4个变量,前6行):
] .panel[.panel-name[d.处理后数据] 补值工具**处理后**的数据补齐情况(前6行):
] ] --- ### (税收案例)数据变换 数据变换主要目的是为让数据能更适合于建模分析(modeling)。 主要变换操作包括: - 中位数(median)变换 - 均值(mean)变换 - 对数化(log)变换 `\(ln(X_i)\)`: - 标准化(sd)变换 `\(\frac{(X_i -\bar{X})}{S_{X}}\)` - 把**连续变量**转换为**离散变量** --- ### (税收案例)数据变换:原始收入变量 假设我们还有51个州的**收入的中位数**数据集(`median_income_table`):
--- ### (税收案例)数据变换:收入变量的中位数变换 .panelset[ .panel[.panel-name[a.变换公式] 现在我们可以,通过如下步骤进行收入的**中位数**变换: - 把收入的州数据集(`median_income_table`)与前面的案例数据集(`training_prepared`)匹配起来 - 对收入进行中位数变换 `\(income\_normalized =\frac{income_i}{median\_income}\)`。 ] .panel[.panel-name[b.R计算过程] 下面展示的是用`R`软件进行前述的匹配和计算过程: ```r mean_income <- round(mean(training_prepared$income, na.rm = T),2) sd_income <- round(sd(training_prepared$income, na.rm = T),2) training_prepared <- training_prepared %>% * left_join(., median_income_table, by="state_of_res") %>% * mutate(income_byMedian = income/median_income, income_byMean = income/mean_income, income_bySd = (income- mean_income)/sd_income, income_byLog10 =log10(income)) ``` ] .panel[.panel-name[c.变换结果] 最终得到收入的**中位数**变换结果:
] ] --- ### (税收案例)数据变换:收入变量的均值变换 .panelset[ .panel[.panel-name[a.变换公式] 现在我们可以,通过如下步骤进行收入的均值变换: - 对收入进行中位数变换 `\(income\_byMean =\frac{income_i}{\overline{income}}\)`。 ] .panel[.panel-name[b.R计算过程] 下面展示的是用`R`计算过程: ```r mean_income <- round(mean(training_prepared$income, na.rm = T),2) sd_income <- round(sd(training_prepared$income, na.rm = T),2) training_prepared <- training_prepared %>% left_join(., median_income_table, by="state_of_res") %>% mutate(income_byMedian = income/median_income, * income_byMean = income/mean_income, income_bySd = (income- mean_income)/sd_income, income_byLog10 =log10(income)) ``` ] .panel[.panel-name[c.变换结果] 最终得到收入的**均值变换**结果:
] ] --- ### (税收案例)数据变换:收入变量的标准化变换 .panelset[ .panel[.panel-name[a.变换公式] 现在我们可以,通过如下步骤进行收入的**标准化**变换: - 对收入进行标准化变换 `\(income\_bySd =\frac{income_i-\overline{income}}{sd\_income}\)`。 ] .panel[.panel-name[b.R计算过程] 下面展示的是用`R`计算过程: ```r mean_income <- round(mean(training_prepared$income, na.rm = T),2) sd_income <- round(sd(training_prepared$income, na.rm = T),2) training_prepared <- training_prepared %>% left_join(., median_income_table, by="state_of_res") %>% mutate(income_byMedian = income/median_income, income_byMean = income/mean_income, * income_bySd = (income- mean_income)/sd_income, income_byLog10 =log10(income)) ``` ] .panel[.panel-name[c.变换结果] 最终得到收入的**标准化**变换结果:
] ] --- ### (税收案例)数据变换:收入变量的对数化变换 .panelset[ .panel[.panel-name[a.变换公式] 现在我们可以,通过如下步骤进行收入的**对数化**变换: - 对收入进行**对数化**变换 `\(income\_byLog10 =log_{10}^{(income_i)}\)`。 ] .panel[.panel-name[b.R计算过程] 下面展示的是用`R`计算过程: ```r mean_income <- round(mean(training_prepared$income, na.rm = T),2) sd_income <- round(sd(training_prepared$income, na.rm = T),2) training_prepared <- training_prepared %>% left_join(., median_income_table, by="state_of_res") %>% mutate(income_byMedian = income/median_income, income_byMean = income/mean_income, income_bySd = (income- mean_income)/sd_income, * income_byLog10 =log10(income)) ``` ] .panel[.panel-name[c.变换结果] 最终得到收入的**对数化**变换结果:
] ] --- ### (税收案例)数据变换:收入变换前后分布的比较 .panelset[ .panel[.panel-name[a.原变量] <div class="figure" style="text-align: center"> <img src="03-visualization_files/figure-html/unnamed-chunk-48-1.png" alt="年收入的直方图" /> <p class="caption">年收入的直方图</p> </div> ] .panel[.panel-name[b.中位数变换] <img src="03-visualization_files/figure-html/unnamed-chunk-49-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[c.均值变换] <img src="03-visualization_files/figure-html/unnamed-chunk-50-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[d.标准化] <img src="03-visualization_files/figure-html/unnamed-chunk-51-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[e.对数化] <img src="03-visualization_files/figure-html/unnamed-chunk-52-1.png" style="display: block; margin: auto;" /> ] ] --- ### (税收案例)数据变换:批量标准化处理 .panelset[ .panel[.panel-name[a.编写R代码] 对于数据集的数值型变量(`age`,`income`,`num_veicles`,`gas_usage`),我们可以同时进行批量**标准化**变换。从而为下一步建模分析做准备。 如下是利用`R`软件函数`scale()`进行批量标准化处理的代码: ```r dataf <- training_prepared[, c("age", "income", "num_vehicles", "gas_usage")] *dataf_scaled <- scale(dataf, center=TRUE, scale=TRUE) ``` ] .panel[.panel-name[b.原数据集]
] .panel[.panel-name[c.批处理后数据集]
] ] --- ### (税收案例)数据变换:批量变换为分类变量 .panelset[ .panel[.panel-name[a.编写R代码] 我们还可以把**连续变量**年龄(`age`),变换为**分类变量**(`age_range`和`age_cat`)。其中分割依据为`brks <- c(0, 18, 45, 65, Inf)`。 ```r *brks <- c(0, 18,45, 65, Inf) training_prepared <- training_prepared %>% select(id, age) %>% filter(!is.na(age)) %>% * mutate(age_range = cut(age, breaks = brks, include.lowest = T), * age_cat = cut(age, breaks = brks, include.lowest = T, labels = FALSE)) ``` ] .panel[.panel-name[b.变换结果]
] ] --- ### 数据子集:概念 **数据子集**(data subset)是对数据集进行抽样(sampling)的过程,形成的数据子集一般用于后续的建模分析。 - 训练集(training subset):主要用于参数估计,得到一个最终估计模型。 - 测试集(test subset):主要用于对估计模型的预测准确性进行评估。 --- ### 数据子集:训练集和测试集 <img src="../pic/chpt03-test_train_split.png" width="889" style="display: block; margin: auto;" /> --- ### (税收案例)数据子集:设置子集样本数量 .panelset[ .panel[.panel-name[a.子集样本数] 对全部数据集`custom_data`(样本数n=73262),我们可以生成名为`gp`的新列,采用[0,1]的**均匀随机分布**(uniform distribution),对应的R函数为`runif(n)` 假定我们希望数据子集的容量分别为: - **训练集**样本数 `\(n_{train} =\)` 90% X 73262 =65421个。 - **测试集**样本数 `\(n_{test} =\)` 10% X 73262 =7841个。 ] .panel[.panel-name[b.编写R代码] ```r set.seed(25643) customer_data <- customer_data %>% * mutate(gp =round(runif(nrow(.)),2)) pct <- 0.1 customer_test <- subset(customer_data, gp <= pct) customer_train <- subset(customer_data, gp > pct) n_all <- nrow(customer_data) n_test <- nrow(customer_test) n_train <- nrow(customer_train) ``` ] ] --- ### (税收案例)数据子集:比较三个数据集 .panelset[ .panel[.panel-name[a.全部数据集]
] .panel[.panel-name[b.训练数据集]
] .panel[.panel-name[c.测试数据集]
] ] --- ### (税收案例)数据子集:等比例随机抽取 .panelset[ .panel[.panel-name[a.抽取规则] 下面我们随机抽取数据集的10%作为子集,其中要求按所在州(`state_of_res`)来等比例分配: ```r vars_sel <- c("id","state_of_res","age", "sex","income") spl_state <- customer_data %>% select(one_of(vars_sel)) %>% * group_by(state_of_res) %>% * sample_frac(0.1) %>% arrange(id) ``` ] .panel[.panel-name[b.抽取结果]
] .panel[.panel-name[c.按州**抽取**前]
] .panel[.panel-name[d.按州**抽取**后]
] ] --- layout: false class: center, middle, duke-softblue,hide_logo name: quality # 3.2 品质数据的整理与展示 ### 分类数据的整理与图示 ### 顺序数据的整理与图示 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@    <a href="#chapter02"> 第03章 数据的图表展示 </a>                       <a href="#quality"> 3.2 品质数据的整理与展示 </a> </span></div> --- ## 分类数据:整理与图示的基本过程 - 列出各类别 - 分类数据的整理与图示 - 制作频数分布表 - 用图形显示数据 --- ## 分类数据:计算统计量并制表 - 频数(frequency) :落在各类别中的数据个数 - 比例(proportion):某一类别数据个数占全部数据个数的比值 - 百分比(percentage) :将对比的基数作为100而计算的比值 - 比率(ratio) :不同类别数值个数的比值 --- exclude: true ## 案例:饮料销售 --- ### (案例)饮料销售 .panelset[ .panel[.panel-name[a.案例说明] **案例**:一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。 调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。 ] .panel[.panel-name[b.原始数据] 下边就是记录的原始数据:
] ] --- ### (案例)饮料销售:单变量制表(饮料类别) .panelset[ .panel[.panel-name[a.类别分组] 根据原始数据,我们可以整理并列出所有饮料类别:
] .panel[.panel-name[b.频次表] 统计得到各饮料类别的购买人数(频次):
] .panel[.panel-name[c.频率表] 进一步统计得到各饮料类别的购买人数占比(频率):
] ] --- ### (案例)饮料销售:双变量制表(饮料类别VS性别) .panelset[ .panel[.panel-name[a.交叉分组] 根据原始数据,我们可以对饮料类别和性别进行交叉分组:
] .panel[.panel-name[b.频次表] 统计得到交叉分组下的购买人数(频次):
] .panel[.panel-name[c1.列频率表] 进一步统计得到交叉分组下购买人数占比(频率)及其**列合计**:
] .panel[.panel-name[c2.行频率表] 同时,也可统计得到交叉分组下购买人数占比(频率)及其**行合计**:
] .panel[.panel-name[d.复合表] 最后,还可以同时统计交叉分组的人数和占比(列合计):
] ] --- ## 分类数据:统计制图1(条形/柱状图) **条形/柱状图**:用宽度相同的条形的高度或长短来表示各类别数据的图形。 - 各类别可以放在纵轴,称为**条形图**(bar Chart) - 各类别也可以放在横轴,称为**柱形图**(column chart) **作用**:主要用于反映分类数据的频数分布。 **形式**:单式条形图/复式条形图。 .footnote[复式条形图主要用于: - 分类变量在不同时间或不同空间上有多个取值 - 对比分类变量的取值在不同时间或不同空间上的差异或变化趋势] --- ### (案例)饮料销售:单变量柱状图/条形图 .left-column[ #### a.柱状图 ] .right-column[ 根据饮料类型购买次数的数据表,我们可以绘制出如下**柱状图**: <img src="03-visualization_files/figure-html/unnamed-chunk-77-1.png" style="display: block; margin: auto;" /> ] --- ### (案例)饮料销售:单变量柱状图/条形图 .left-column[ #### a.柱状图 #### b.条形图 ] .right-column[ 根据饮料类型购买次数的数据表,还可以绘制出如下**条形图**: <img src="03-visualization_files/figure-html/unnamed-chunk-78-1.png" style="display: block; margin: auto;" /> ] --- ### (案例)饮料销售:多变量柱状图/条形图 .left-column[ #### a.双变量柱状图 ] .right-column[ 根据饮料类型(brand)和性别(gender)交叉分组下的购买次数表,可以绘制出如下**柱状图**: <img src="03-visualization_files/figure-html/unnamed-chunk-79-1.png" style="display: block; margin: auto;" /> ] --- ### (案例)饮料销售:多变量柱状图/条形图 .left-column[ #### a.双变量柱状图 #### b.双变量条形图 ] .right-column[ 根据饮料类型(brand)和性别(gender)交叉分组下的购买次数表,可以绘制出如下**条形图**: <img src="03-visualization_files/figure-html/unnamed-chunk-80-1.png" style="display: block; margin: auto;" /> ] --- ## 分类数据:统计制图1(条形/柱状图) 思考:什么时候适合使用柱状图?什么时候适合使用条形图? <div class="notes"> <p>待完成:找到新数据,绘制一张条形图,但其不适合制作柱状图。</p> </div> --- ## 分类数据:统计制图2(饼图) **饼图**(pie Chart):也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形。 **用途**:用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。 **绘制要点**: - 样本或总体中各部分所占的频次/百分比用圆内的各个扇形角度表示。 - 扇形块的中心角度,进行**极坐标变换**(按各部分数据占比乘以3600确定)。 - 排列顺序、标签值显示。 --- ### (案例)饮料销售:绘制饼图(频次1) .left-column[ #### a.次数饼图1 ] .right-column[ 根据分配数据表,我们可以绘制出如下**次数**饼图: <div class="figure" style="text-align: center"> <img src="03-visualization_files/figure-html/unnamed-chunk-83-1.png" alt="图a.饮料销售量分布(有图例)" /> <p class="caption">图a.饮料销售量分布(有图例)</p> </div> ] --- ### (案例)饮料销售:绘制饼图(频次2) .left-column[ #### a.次数饼图1 #### b.次数饼图2 ] .right-column[ 可以进一步调整**次数**饼图的图例和标签数值显示: <div class="figure" style="text-align: center"> <img src="03-visualization_files/figure-html/unnamed-chunk-84-1.png" alt="图b.饮料销售量分布(无图例)" /> <p class="caption">图b.饮料销售量分布(无图例)</p> </div> ] --- ### (案例)饮料销售:绘制饼图(占比) .left-column[ #### a.次数饼图1 #### b.次数饼图2 #### c.占比饼图1 ] .right-column[ 可以进一步调整**占比**饼图的图例和标签数值显示: <div class="figure" style="text-align: center"> <img src="03-visualization_files/figure-html/unnamed-chunk-85-1.png" alt="图c.饮料销售占比(有图例)" /> <p class="caption">图c.饮料销售占比(有图例)</p> </div> ] --- ### (案例)饮料销售:绘制饼图(占比2) .left-column[ #### a.次数饼图1 #### b.次数饼图2 #### c.占比饼图1 #### d.占比饼图2 ] .right-column[ 根据分配数据表,我们可以绘制出如下**次数**饼图: <div class="figure" style="text-align: center"> <img src="03-visualization_files/figure-html/unnamed-chunk-86-1.png" alt="图d.饮料销售占比(无图例)" /> <p class="caption">图d.饮料销售占比(无图例)</p> </div> ] --- ## 顺序数据:统计量和图表 对于顺序型分组(上小下大)数据,主要的统计指标包括: - **累积频数**(cumulative frequencies):各类别频数的逐级累加。 - **累积频率**(cumulative percentages):各类别频率(百分比)的逐级累加。 对于以上累积统计指标,又分别包括: - **较小制累积**(频数/频率):又称为向上累积或以下累积,本组及以下次数/频率的逐级累加。 - **较大制累积**(频数/频率):又称为向下累积或以上累积,本组及以上次数/频率的逐级累加。 制表和绘图分别有: - 累积频数/频率表等 - 累积频数/频率图、环形图等 --- exclude: true ### (案例)住房满意度:原始数据 ``` Warning in rep(c("甲城市", "乙城市"), each = c(sum(reps), sum(reps2))): 只用'each'参数里的第一个元素 ``` --- ### (案例)住房满意度:案例数据 .panelset[ .panel[.panel-name[1)案例说明] **案例说明**:在一项城市住房满意度问题的研究中,研究人员在甲城市抽样调查300家庭户,其中的一个问题是: .large[ ``` 您对您家庭目前的住房状况是否满意? 1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意 ``` ] ] .panel[.panel-name[2)案例数据表] 下边就是收集到的不同满意度评价水平的频次和频率数据表:
] ] --- ### (案例)住房满意度:计算统计量并制表 .panelset[ .panel[.panel-name[1)较小制累积表] 我们可以计算得到**较小制**下的累积频次和频率,并制表:
] .panel[.panel-name[2)较大制累积表] 我们也可以计算得到**较大制**下的累积频次和频率,并制表:
] .panel[.panel-name[3)较小制和较大制对比] 我们可以对比观测**较小制**和**较大制**下的累积频次和频率:
] ] --- ### (案例)住房满意度:绘制累计频次/频率图 .panelset[ .panel[.panel-name[1)较小累积频次] <img src="03-visualization_files/figure-html/unnamed-chunk-92-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[2)较小累积频率] <img src="03-visualization_files/figure-html/unnamed-chunk-93-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[3)较大累积频次] <img src="03-visualization_files/figure-html/unnamed-chunk-94-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[4)较大累积频率] <img src="03-visualization_files/figure-html/unnamed-chunk-95-1.png" style="display: block; margin: auto;" /> ] ] --- exclude: true ### my ggplot theme 参考: - [Changing fonts in ggplot2](https://stackoverflow.com/questions/34522732/changing-fonts-in-ggplot2) - `extrafont` pkg [on github](https://github.com/wch/extrafont) --- exclude: true ### test chart <img src="03-visualization_files/figure-html/unnamed-chunk-99-1.png" style="display: block; margin: auto;" /> --- ### (案例)住房满意度:绘制环形图 **环形图**(doughnut chart):环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示。 **用途**:用于结构比较研究;用于展示分类和顺序数据。 与饼图的联系与区别: - 饼图只能显示一个总体各部分所占的比例。 - 环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。 --- ### (案例)住房满意度:绘制环形图 .panelset[ .panel[.panel-name[1)补充数据] **案例说明**:继续前述甲城市满意度的研究,为了综合比较城市家庭满意度。研究者继续收集并获得了乙城市家庭的满意度评价数据。甲乙两个城市的家庭住户满意度数据如下表所示:
] .panel[.panel-name[2)甲城市] <div class="figure" style="text-align: center"> <img src="03-visualization_files/figure-html/unnamed-chunk-102-1.png" alt="图a.甲城市评价分布" height="90%" /> <p class="caption">图a.甲城市评价分布</p> </div> ] .panel[.panel-name[3)乙城市] <div class="figure" style="text-align: center"> <img src="03-visualization_files/figure-html/unnamed-chunk-103-1.png" alt="图b.乙城市评价分布" height="90%" /> <p class="caption">图b.乙城市评价分布</p> </div> ] .panel[.panel-name[4)两个城市] <!---我们可以将甲乙两个城市进行综合对比,绘制环形图:---> <div class="figure" style="text-align: center"> <img src="03-visualization_files/figure-html/unnamed-chunk-104-1.png" alt="图c.两个城市评价分布对比" height="90%" /> <p class="caption">图c.两个城市评价分布对比</p> </div> ] ] ??? 绘图参考: - [Creating a multiple pie/donut chart](https://biostats.w.uib.no/creating-a-multiple-pie-donut-chart/) --- layout: false class: center, middle, duke-softblue ,hide_logo name: quantity # 3.3 数值型数据的整理与展示 ### 数据分组的图表展示 ### 数据未分组的图表展示 ### 统计报表的设计 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@    <a href="#chapter02"> 第03章 数据的图表展示 </a>                       <a href="#quantity"> 3.3 数值型数据的整理与展示 </a> </span></div> --- ## 数据分组:概念和作用 **数据分组**:把同质总体中的具有不同特点的单位分开,从而正确地认识事物的本质及其规律性。 **数据分组的作用**: - 类型分组:揭露社会经济现象的类型,反映各类型的特点。 - 结构分组:说明社会经济现象的内部结构。 - 分析分组:研究经济现象之间的依存关系。 --- ## 数据分组:选择分组标志 选择分组标志的**原则**: - 科学性 - 完备性 - 互斥性 选择分组标志的**方法**: - 根据研究问题的目的来选择。 - 要选择最能反映被研究现象本质特征的标志。 - 要结合现象所处的具体历史条件或经济条件来选择。 --- ## 数据分组:数据分组类型 **A.按分组标志的特征分**: - 品质标志分组:反映事物属性差异 - 简单分组:如人口按性别分组。 - 复杂分组:如人口按职业分组。 - 数量标志分组:反映事物数量差异 - 单项式数量分组:运用于变量变动幅度小、项目少的分组。 - 组距式分组:运用于变量变动幅度大、项目多的分组。 **B.按总体所选择标志的个数分**: - 单一分组:按一个标志对总体进行分组。 - 复合分组:按两个或两个以上标志对同一总体进行分组。 --- exclude: true ## 案例:多种分组 --- ### (示例)数据分组类型:按标志特征分组1 .panelset[ .panel[.panel-name[1)品质-简单分组]
] .panel[.panel-name[2)品质-复杂分组]
] ] --- ### (示例)数据分组类型:按标志特征分组2 .panelset[ .panel[.panel-name[3)数量-单项式分组]
] .panel[.panel-name[4)数量-组距分组]
] ] --- ### (示例)数据分组类型:按标志个数分组 .panelset[ .panel[.panel-name[1)单一分组] .fl.w-third.pa2[
] -- .fl.w-third.pa2[
] -- .fl.w-third.pa2[
] ] .panel[.panel-name[2)复合分组]
] ] --- ## 分配数列:概念和类型 **分配数列**:统计总体按照某一标志分组以后,用以反映总体各单位分配情况的统计数列,称为分配数列,又可称次数分配或次数分布。 - **品质型分配数列**。 - **数值型分配数列**。根据分组情况,具体又分为: - **单项变量数列**:按每个变量值分别列组编制数列。适用于不连续变量或变量能以整数表示,其变动范围不大时。 - **组距变量数列**:按组距分组编制数列。适用于连续变量或变量可用小数表示,其变动范围。 --- ### (示例)分配数列的类型:数值型分配数列 .panelset[ .panel[.panel-name[1)单项式分配数列]
] .panel[.panel-name[2)组距式分配数列]
] ] --- ## 组距式数据分组:类型 根据分组是否开口以及是否等距,组距式分配数列可以分为如下类型: - 按两端组是否开口分: - **开口式分组**:最小组与最大组不封口。 - **闭口式分组**:所有组都有明确上限和下限。 - 按组距是否为等距分: - **等距式分组**:所有分组的组距全部相等。 - **异距式分组**:各个分组组距不是完全相等。 --- ### (示例)组距式分配数列的类型 .panelset[ .panel[.panel-name[1)闭口-等距]
] .panel[.panel-name[2)开口-异矩]
] ] --- ## 组距式数据分组:重要概念 关于组距式分配数列,我们需要掌握如下重要概念: - **组数(bins)**:数据分组的总组数。 - **组限(limits)**:组距两端的数值。分为上限和下限。 a. **下限(lower limit)** :一个组的最小值。 b. **上限(upper limit)** :一个组的最大值。 - **组距(width)** :某组的上限与下限之差。 - **组中值(class midpoint) **:某组的下限与上限之间的中点值 - **全距(range)**:整个分组数列中,最大组**上限**与最小组**下限**之差。 - **最大组/最小组**:整个分组数列中,分组标志数值最大/最小的那一组。 --- ## 组距式数据分组:分组步骤 组距式数据分组的主要步骤包括: - 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为 `\(5\leq K \leq 15\)`。 - 确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定。例如, `\(组距=\frac{(最大值 - 最小值)}{组数}\)` - 确定组限。对于连续变量分组,各组之间的组限也要连续。对于不连续变量分组,组与组之间的组限往往是间断的。此外,在同一个组距数列中,组限标准保持一致。 - 统计出各组的频数并整理成频数分布表。在登记次数时,应遵守: - 上组限不在内:适用于越大越好的变量,如产值。 - 下组限不在内:适用于越小越好的变量,如成本。 --- ## 组距式数据分组:组中值的计算 组中值的计算,需要考虑分组是否开口: - 闭口式分组的组中值求法: `$$\begin{align} \text{组中值} = \frac{\text{组上限}+\text{组下限}}{2} &= 组下限 + \frac{\text{组上限}-\text{组下限}}{2} \\ &= 组上限 - \frac{\text{组上限}-\text{组下限}}{2} \end{align}$$` - 开口式分组的组中值求法: `$$\begin{align} \text{下开口组的组中值} &= 组上限 - \frac{\text{邻组组距}}{2}\\ \text{上开口组的组中值} &= 组下限 + \frac{\text{邻组组距}}{2} \end{align}$$` --- exclude:true ## (案例)学生考试成绩 --- ### (案例)学生考试成绩:原始数据 **案例说明**:某班级共有40名学生,在《统计学原理》课程考试中成绩如下: ``` s01 s02 s03 s04 s05 s06 s07 s08 s09 s10 s11 s12 s13 s14 s15 s16 s17 63 88 72 69 80 80 61 68 79 81 76 76 77 78 90 89 61 s18 s19 s20 s21 s22 s23 s24 s25 s26 s27 s28 s29 s30 s31 s32 s33 s34 84 92 67 65 57 62 60 66 87 80 92 78 86 71 71 63 74 s35 s36 s37 s38 s39 s40 67 70 91 64 79 65 ``` --- ### (案例)学生考试成绩:组距式分组操作1 假定采用**等距-闭口**分组方法,且设定分组数量为5,组距为10。 利用原始数据,进行分组得到如下结果:
--- ### (案例)学生考试成绩:组距式分组操作2 .pull-left[ 以前述**考试成绩**案例分组数据为例,相关概念包括(见下表): - **组数(bins)**为5 - **组距(width)** 为10 - **全距(range)**为50(注意原始数据的全距) - 最小组和最大组分别为第1组和第5组 - 下限、上限、组距和组中值分别见右表 ] .pull-right[ **分组数据表**:
] --- ## 组距式数据分组:异矩情形 在**异矩分组**下,我们需要进一步计算各组的**组密度**以及**标准组距分布**: `$$\begin{align} \text{次数密度} &= \frac{\text{各组次数}}{各组组距}\\ \text{频率密度} &= \frac{\text{各组频率}}{各组组距} \end{align}$$` `$$\begin{align} \text{标准组距次数分布} &= \frac{\text{各组次数}}{标准化组距}\\ \text{标准组距频率分布} &= \frac{\text{各组频率}}{标准化组距} \end{align}$$` --- exclude: true ### (案例)学生考试成绩:异矩分组 --- ### (案例)学生考试成绩:异矩分组情形 继续前述**考试成绩**案例,如果分组时不小心处理成了如下异矩分组:
--- ### (案例)学生考试成绩:异矩分组统计量 在异矩分组情形下,**频次密度**和**标准组距频次**计算如下:
--- ## 数据分组:统计制表(类型) 对分组数据进行统计制表,也即用统计表来表示次数/频率等统计量在各组的分布情况,主要包括。 .panelset[ .panel[.panel-name[1)制表类型A] - **频数表**/**百分数表**(已经展示,见前面slide) ] .panel[.panel-name[2)制表类型B] **累计次数表**/**累计百分数表**。复习之前的定义,具体为: - 较小制累计(以下累计、向上累计):即(上限)以下累计次数,每一组的累计次数表示小于该组上限(变量)值的次数/频率共有多少。 - 较大制累计(以上累计、向下累计):即(下限)以上累计次数:每一组的累计次数表示大于该组下限(变量)值的次数/频率共有多少。 ] .panel[.panel-name[3)制表类型C] **交叉分析表**,又称为**交叉列联表**(cross-table),是对复合式分组数列的频数或频率统计,便于对两个或多个分组标志(分组变量)关系的直接观察。 数据交叉形式可以是: - 品质变量VS品质变量 - 品质变量VS数值变量(较少用*) - 数值变量VS数值变量(较少用*) ] ] --- ### (案例)学生考试成绩:累积次数/频率表 对于等距式分组情形,我们可以分别计算出较小/较大累计次数/频率: .panelset[ .panel[.panel-name[1)较小制累积表] 我们可以计算得到**较小制**下的累积频次和频率,并制表:
] .panel[.panel-name[2)较大制累积表] 我们也可以计算得到**较大制**下的累积频次和频率,并制表:
] .panel[.panel-name[3)较小制和较大制对比] 我们可以对比观测**较小制**和**较大制**下的累积频次和频率:
] ] --- ### (案例)学生考试成绩:等距分组的交叉分析表 .panelset[ .panel[.panel-name[a.性别信息] 对于前述**学生考试成绩**案例,研究者还收集了40名学生的性别信息(见下表)。
] .panel[.panel-name[b.交叉列表] 此时,可以根据需要绘制出性别变量与成绩分组的**交叉分析表**(列联表):
] ] --- exclude: true ### (示例)普森悖论交叉表 **普森悖论**(Simpson's paradox):在有些情形中,依据从综合的交叉列联表中得出的结论可能与依据未综合数据得出的结论截然相反。这一现象就是著名的辛普森悖论。 <div class="notes"> <p>待完成:</p> <p>case of Verdict between Kendall and Luckett. <a href="https://www.britannica.com/topic/Simpsons-paradox">see link</a></p> <p>Simpson’s Paradox: Two HR examples with R code. <a href="https://paulvanderlaken.com/2017/09/27/simpsons-paradox-two-hr-examples-with-r-code/">see link</a></p> </div> --- ## 数据分组:统计制图 分组数列的图示方法,也即用统计图形来表示频数/频率在各组的分布情况,主要包括的图形类型有: a. **条形/柱状图**[已讲,见前面slide] b. **折线图**(line chart) c. **累积频次/频率图**(cumulative chart) --- ### (案例)学生考试成绩:绘制柱状图/折线图 .panelset[ .panel[.panel-name[1)柱状图] <img src="03-visualization_files/figure-html/unnamed-chunk-128-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[2)折线图] <img src="03-visualization_files/figure-html/unnamed-chunk-129-1.png" style="display: block; margin: auto;" /> ] ] --- ### (案例)学生考试成绩:绘制累计频次/频率图 .panelset[ .panel[.panel-name[1)较小累积频次] <img src="03-visualization_files/figure-html/unnamed-chunk-130-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[2)较小累积频率] <img src="03-visualization_files/figure-html/unnamed-chunk-131-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[3)较大累积频次] <img src="03-visualization_files/figure-html/unnamed-chunk-132-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[4)较大累积频率] <img src="03-visualization_files/figure-html/unnamed-chunk-133-1.png" style="display: block; margin: auto;" /> ] ] --- ## 数据未分组:统计制图1(茎叶图) **茎叶图(stem and leaf diagrams)**:用于显示未分组的原始数据的分布。 由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留最后一位数字。 茎叶图与**横直方图**的区别*: - 直方图可观察一组数据的分布状况,但没有给出具体的数值。 - 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。 - 直方图适用于大批量数据,茎叶图适用于小批量数据。 .footnote[注释:\* 茎叶图曾经的优势(简单、可手工绘制)在今天这个计算机时代也显得并不突出,因此,除非特殊情况,建议主要使用直方图作为密度函数估计工具。[see link](https://msg-book.netlify.app/gallery.html#section-11)] --- ### (案例)学生考试成绩:绘制茎叶图 .panelset[ .panel[.panel-name[1)原始成绩单] 继续考虑之前的**学生考试成绩案例**。40名学生课程考试成绩如下: ``` s01 s02 s03 s04 s05 s06 s07 s08 s09 s10 s11 s12 s13 s14 s15 s16 s17 63 88 72 69 80 80 61 68 79 81 76 76 77 78 90 89 61 s18 s19 s20 s21 s22 s23 s24 s25 s26 s27 s28 s29 s30 s31 s32 s33 s34 84 92 67 65 57 62 60 66 87 80 92 78 86 71 71 63 74 s35 s36 s37 s38 s39 s40 67 70 91 64 79 65 ``` ] .panel[.panel-name[2)按成绩排序] 我们先按成绩由低到高进行排序: ``` s22 s24 s07 s17 s23 s01 s33 s38 s21 s40 s25 s20 s35 s08 s04 s36 s31 57 60 61 61 62 63 63 64 65 65 66 67 67 68 69 70 71 s32 s03 s34 s11 s12 s13 s14 s29 s09 s39 s05 s06 s27 s10 s18 s30 s26 71 72 74 76 76 77 78 78 79 79 80 80 80 81 84 86 87 s02 s16 s15 s37 s19 s28 88 89 90 91 92 92 ``` ] .panel[.panel-name[3)制作茎叶图] ``` The decimal point is 1 digit(s) to the right of the | 5 | 7 6 | 01123345567789 7 | 011246678899 8 | 000146789 9 | 0122 ``` ] ] ??? <div class="notes"> <p>待完成:提供示例数据,并绘制茎叶图。</p> <p>Basic R Guide for NSC Statistics. <a href="https://bookdown.org/dli/rguide/stem-and-leaf-plot.html">see link</a></p> <p>R – Stem and Leaf Plots. <a href="https://www.geeksforgeeks.org/r-stem-and-leaf-plots/">see link</a></p> </div> --- ## 数据未分组:统计制图2(箱线图) **箱线图(box plot)**:用于显示未分组的原始数据的分布。由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成。箱线图也被称为Median/Quartile/Range箱线图。 绘制方法: - 首先找出一组数据的5个特征值,即最大值(Max)、最小值(Min)、中位数 `\(M_e\)`和两个四分位数(下四分位数 `\(Q_L\)`和上四分位数 `\(Q_U\)`)。 - 连接两个四分位数画出箱子,再将两个极值点与箱子相连接。 图形分类: - 单一箱线图 - 多批箱线图 --- ### (案例)学生考试成绩:绘制单一箱线图 .panelset[ .panel[.panel-name[1)原始成绩单] 继续考虑之前的**学生考试成绩案例**。40名学生课程考试成绩如下: ``` s01 s02 s03 s04 s05 s06 s07 s08 s09 s10 s11 s12 s13 s14 s15 s16 s17 63 88 72 69 80 80 61 68 79 81 76 76 77 78 90 89 61 s18 s19 s20 s21 s22 s23 s24 s25 s26 s27 s28 s29 s30 s31 s32 s33 s34 84 92 67 65 57 62 60 66 87 80 92 78 86 71 71 63 74 s35 s36 s37 s38 s39 s40 67 70 91 64 79 65 ``` ] .panel[.panel-name[2)计算统计量] 我们可以先计算出箱线图的五个制表: - 中位数 `\(median = 75\)` - 极大值 `\(median = 92\)` - 极小值 `\(median = 57\)` - 四分之一位数 `\(median = 65.75\)` - 四分之三位数 `\(median = 80.25\)` ] .panel[.panel-name[3)单一箱线图] <img src="03-visualization_files/figure-html/unnamed-chunk-139-1.png" style="display: block; margin: auto;" /> ] ] --- ### (案例)学生考试成绩:绘制多批箱线图 .panelset[ .panel[.panel-name[1)原始成绩单] 同时考虑学生性别和**考试成绩**。40名学生课程考试信息如下:
] .panel[.panel-name[2)计算统计量] 我们可以根据性别分组,分别计算出箱线图的五个指标:
] .panel[.panel-name[3)多批箱线图] <img src="03-visualization_files/figure-html/unnamed-chunk-143-1.png" style="display: block; margin: auto;" /> ] ] --- ## 数据未分组:统计制图3(直方图) **直方图(histogram)**:用于展示分组数据分布的一种图形,用矩形的宽度和高度来表示频数分布。 - 本质上是用矩形的面积来表示频数分布。 - 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形。 直方图与柱状图的区别: - 柱状图是用柱形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。 - 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。 - 直方图的各矩形通常是连续排列,柱状图则是分开排列。 - 柱状图主要用于展示分类/分组数据,直方图则主要用于展示数值型数据。 --- exclude: true ## (案例)学生考试成绩:补充数据 --- ### (示例)数据未分组的制图:直方图(histogram) .panelset[ .panel[.panel-name[1)数据表] **案例说明**:某个学院共有2000名学生参加《统计学原理》课程考试,考试成绩和性别信息如下:
] .panel[.panel-name[2)数据概览]
我们再按性别分两类样本数据来看成绩情况:
] .panel[.panel-name[3)全体直方图] <img src="03-visualization_files/figure-html/unnamed-chunk-148-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[4)分组直方图] <img src="03-visualization_files/figure-html/unnamed-chunk-149-1.png" style="display: block; margin: auto;" /> ] ] --- ## 数据未分组:统计制图4(线图) **线图(line plot)**:主要用于表示时间序列数据趋势的图形。 绘制要点: - 时间一般绘在横轴,数据绘在纵轴。 - 图形的长宽比例大致为`10:7`。 - 一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。 --- exclude: true ## (案例)新冠疫情 --- class: DT ### (案例)全球新冠疫情:数据说明 **案例说明**:研究人员收集了8个国家(US、France、Norway、Switzerland、United Kingdom、Germany、Italy、Spain),共3260条新冠疫情数据(见下表)。
--- ### (案例)全球新冠疫情:死亡率线图 为了比较各国新冠死亡率的变化趋势,绘制得到如下线图: <img src="03-visualization_files/figure-html/unnamed-chunk-153-1.png" style="display: block; margin: auto;" /> --- ## 数据未分组:统计制图5(散点图) **散点图(Scatter plots)**:展示**两个变量**之间的关系。 用横轴代表变量 `\(X_i\)`,纵轴代表变量 `\(Y_i\)`,每组数据 `\((X_i, Y_i)\)`在坐标系中用一个点表示, `\(n\)`组数据在坐标系中形成的 `\(n\)`个点称为散点,由坐标及其散点形成的二维数据图。 --- ### (案例)汽车油耗:绘制散点图 .panelset[ .panel[.panel-name[1)数据表] **案例说明**:研究人员希望了解汽车油耗的情况,收集了汽车车重、轴距、气缸数量等的数据信息(见下表):
] .panel[.panel-name[2)散点图1] <img src="03-visualization_files/figure-html/unnamed-chunk-155-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[3)散点图2] <img src="03-visualization_files/figure-html/unnamed-chunk-156-1.png" style="display: block; margin: auto;" /> ] ] --- ## 数据未分组:统计制图6(散点图) **气泡图(bubble chart)**:显示**三个变量**之间的关系, 图中数据点的大小依赖于第三个变量。 --- ### (案例)人均寿命:绘制气泡图 .panelset[ .panel[.panel-name[1)数据表] **案例说明**:下表给出了各个地区在2007年的人均寿命、人均GDP等数据。
] .panel[.panel-name[2)气泡图] <img src="03-visualization_files/figure-html/unnamed-chunk-159-1.png" style="display: block; margin: auto;" /> ] ] --- ## 数据未分组:统计制图7(雷达图) **雷达图(radar chart)**:也称为蜘蛛图(spider chart),显示**多个变量**的图示方法。 **用途**: - 在显示或对比各变量的数值总和时十分有用。 - 假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比。 - 可用于研究多个样本之间的相似程度。 --- exclude: true ## (案例)领域发展评估 --- ### (案例)领域发展评估:绘制雷达图 .panelset[ .panel[.panel-name[1)数据表] **案例说明**:下表给出了三个学生在不同领域发展的评分结果。
] .panel[.panel-name[2)雷达图1] <img src="03-visualization_files/figure-html/unnamed-chunk-163-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[3)雷达图2] <img src="03-visualization_files/figure-html/unnamed-chunk-164-1.png" style="display: block; margin: auto;" /> ] ] --- ## 数据分布形态:概述 .pull-left[ 典型分布形态: - 正态分布,也称正态曲线 - 偏态分布,或称偏态曲线 ] .pull-right[ 其他分布形态: - U型分布 - 双峰分布 - J型分布 - 反J型分布 ] <div class="notes"> <p>待完成:提供示例图形,给出代表分布类型示例。</p> </div> --- ## 数据分布形态:偏度系数 **偏度(Skewness)系数**:分布形态的一个重要衡量标准就是分布偏度。一组数据分布偏度的计算是复杂的,但使用统计软件可以很容易的计算出偏度系数。偏度系数 `\(SK\)`的理论计算公式如下: `$$\begin{align} SK = \frac{n}{(n-1)(n-2)} \sum_1^n{\left(\frac{X_i-\bar{X}}{S_X}\right)^3} \end{align}$$` > 其中: `\(n\)`表示样本数; `\(S_X\)`表示样本标准差 `\(S_X =\sqrt{\frac{\sum_1^n{(X_i- \bar{X})^2}}{n-1}}\)`。 --- ## 数据分布形态:偏度系数 - 若偏度系数 `\(SK = 0\)`,则数据分布是对称的(无偏的),此时均值 和中位数相等,也即: `\(\bar{X} = M_e\)`。 - 若偏度系数 `\(SK < 0\)`,则数据分布是非对称的(左偏的),此时均值小于中位数,也即: `\(\bar{X} < M_e\)`。 - 若偏度系数 `\(SK > 0\)`,则数据分布是非对称的(左偏的),此时均值大于中位数,也即: `\(\bar{X} > M_e\)`。 --- ### (示例)数据分布形态:常见形态 .panelset[ .panel[.panel-name[1)对称分布] <img src="../pic/chpt03-dis-form1-mid.png" width="444" style="display: block; margin: auto;" /> ] .panel[.panel-name[2)右偏分布] <img src="../pic/chpt03-dis-form2-right.png" width="617" style="display: block; margin: auto;" /> ] .panel[.panel-name[3)左偏分布] <img src="../pic/chpt03-dis-form3-left.png" width="683" style="display: block; margin: auto;" /> ] ] --- ### (示例)数据分布形态:其他形态 .panelset[ .panel[.panel-name[1)U型分布和J型分布] .pull-left[ <img src="../pic/chpt03-dis-form-other1-u1.png" width="475" style="display: block; margin: auto;" /> ] .pull-right[ <img src="../pic/chpt03-dis-form-other1-j2.png" width="475" style="display: block; margin: auto;" /> ] ] .panel[.panel-name[2)M分布和反J分布] .pull-left[ <img src="../pic/chpt03-dis-form-other2-m.png" width="453" style="display: block; margin: auto;" /> ] .pull-right[ <img src="../pic/chpt03-dis-form-other3-j.png" width="453" style="display: block; margin: auto;" /> ] ] ] --- ## 数据分布形态:峰度系数 **峰度(Kurtosis)系数**:峰度刻画数据分布的拖尾长度和集中度。峰度系数 `\(KT\)`的理论计算公式如下: `$$\begin{align} KT = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \frac{\sum_{i=1}^n{(X_i-\bar{X})^4}}{S_X^4} - \frac{3(n-1)^2}{(n-2)(n-3)} \end{align}$$` > 其中: `\(n\)`表示样本数; `\(S_X\)`表示样本标准差 `\(S_X =\sqrt{\frac{\sum_1^n{(X_i- \bar{X})^2}}{n-1}}\)`。 - 若峰度系数 `\(KT = 0\)`,则数据分布是**常峰态的**。 - 若峰度系数 `\(KT < 0\)`,则数据分布是**低峰态的**。 - 若峰度系数 `\(KT > 0\)`,则数据分布是**尖峰态的**。 --- ### (示例)数据分布形态:不同的峰态形状 <img src="../pic/chpt03-dis-kurtos.png" width="944" style="display: block; margin: auto;" /> --- ## 统计制表:结构 统计表的结构与内容一般为: 从**形式**上看:统计表由总标题、横行标题、纵栏标题、指标数值构成。 从**内容**上看:统计表由主词和宾词两部分构成。 - 主词:说明总体或总体的分组。 - 宾词:用哪些指标数值来说明总体或总体的分组。 --- ### (示例)统计指标的形式和规范 <img src="../pic/chpt03-official-table.png" width="1731" style="display: block; margin: auto;" /> --- ## 统计制表:特点 统计表的特点 - 开口式 - 上下有基线 - 编号:主词一般按A、B、C…,宾词按1、2、3… - 有计量单位 - 表中不允许有空格:若不需要此资料则用“-”;暂缺某资料则用“……” --- ## 统计制表:设计准则 统计表的一般设计准则包括: - 合理安排统计表的结构 - 总标题内容应满足3W要求 - 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明 - 表中的上下两条横线一般用粗线,其他线用细线 - 通常情况下,统计表的左右两边不封口 - 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 - 对于没有数字的表格单元,一般用“—”表示 - 必要时可在表的下方加上注释 ??? 3W是指标题内容需要表明统计数据的时间(When)、地点(Where)以及何种数据(What) --- layout: false class: center, middle, duke-softblue ,hide_logo name: nice # 3.4 合理使用图表 ### 图表体系和要素 ### 鉴别图形优劣的准则 --- layout: true <div class="my-header-h2"></div> <div class="watermark1"></div> <div class="watermark2"></div> <div class="watermark3"></div> <div class="my-footer"><span>huhuaping@    <a href="#chapter02"> 第03章 数据的图表展示 </a>                       <a href="#nice"> 3.4 合理使用图表 </a> </span></div> --- exclude: true ## 准备:字体 准备字体库 ``` Warning: package 'showtext' was built under R version 4.0.5 ``` ``` Warning: package 'sysfonts' was built under R version 4.0.5 ``` ``` [1] "sans" "serif" "mono" [4] "wqy-microhei" "source-han-serif-cn" ``` --- exclude: true ## 准备:数据 准备数据 --- exclude: true ## 准备:画图模板 --- ### 制图体系:绘图区 panel .panelset[ .panel[.panel-name[a.画布区] <img src="03-visualization_files/figure-html/unnamed-chunk-180-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[b.绘图区] <img src="03-visualization_files/figure-html/unnamed-chunk-181-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[c.主网格] <img src="03-visualization_files/figure-html/unnamed-chunk-182-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[d.次网格] <img src="03-visualization_files/figure-html/unnamed-chunk-183-1.png" style="display: block; margin: auto;" /> ] ] --- ### 制图体系:坐标轴1 axis .panelset[ .panel[.panel-name[a.下横轴X] <img src="03-visualization_files/figure-html/unnamed-chunk-184-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[b.上横轴x] <img src="03-visualization_files/figure-html/unnamed-chunk-185-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[c.左纵轴Y] <img src="03-visualization_files/figure-html/unnamed-chunk-186-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[d.右纵轴Y] <img src="03-visualization_files/figure-html/unnamed-chunk-187-1.png" style="display: block; margin: auto;" /> ] ] --- ### 制图体系:坐标轴2 axis .panelset[ .panel[.panel-name[d.轴主标记] <img src="03-visualization_files/figure-html/unnamed-chunk-188-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[e.轴次标记] <img src="03-visualization_files/figure-html/unnamed-chunk-189-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[f.轴标签值1] <img src="03-visualization_files/figure-html/unnamed-chunk-190-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[g.轴标签值2] <img src="03-visualization_files/figure-html/unnamed-chunk-191-1.png" style="display: block; margin: auto;" /> ] ] --- ### 制图体系:坐标轴3 axis .panelset[ .panel[.panel-name[h.横标题] <img src="03-visualization_files/figure-html/unnamed-chunk-192-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[h.左纵轴标题] <img src="03-visualization_files/figure-html/unnamed-chunk-193-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[h.右纵轴标题] <img src="03-visualization_files/figure-html/unnamed-chunk-194-1.png" style="display: block; margin: auto;" /> ] ] --- ### 制图体系:图形类型 geom_xx .panelset[ .panel[.panel-name[a.点图1] <img src="03-visualization_files/figure-html/unnamed-chunk-195-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[b.点图2] <img src="03-visualization_files/figure-html/unnamed-chunk-196-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[c.线图1] <img src="03-visualization_files/figure-html/unnamed-chunk-197-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[d.线图2] <img src="03-visualization_files/figure-html/unnamed-chunk-198-1.png" style="display: block; margin: auto;" /> ] ] --- ### 制图体系:变量数值 data value <img src="03-visualization_files/figure-html/unnamed-chunk-199-1.png" style="display: block; margin: auto;" /> --- ### 制图体系:图例 legend .panelset[ .panel[.panel-name[a.图例靠右] <img src="03-visualization_files/figure-html/unnamed-chunk-200-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[b.图例靠下] <img src="03-visualization_files/figure-html/unnamed-chunk-201-1.png" style="display: block; margin: auto;" /> ] ] --- ### 制图体系:图注 footnote和图题 caption .panelset[ .panel[.panel-name[a.图注] <img src="03-visualization_files/figure-html/unnamed-chunk-202-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[b.图题] <div class="figure" style="text-align: center"> <img src="03-visualization_files/figure-html/unnamed-chunk-203-1.png" alt="图3-1:plot caption演示" /> <p class="caption">图3-1:plot caption演示</p> </div> ] ] --- class: flextable ### 制表体系 表格要素包括:表序号(numbering)、表题(title)、表头(header)、主体(body)和表注(footer)等部分构成。 <template id="22ae7034-6515-4f22-a1f0-1421dca3af03"><style> .tabwid table{ border-collapse:collapse; line-height:1; margin-left:auto; margin-right:auto; border-width: 0; display: table; margin-top: 1.275em; margin-bottom: 1.275em; border-spacing: 0; border-color: transparent; } .tabwid_left table{ margin-left:0; } .tabwid_right table{ margin-right:0; } .tabwid td { padding: 0; } .tabwid a { text-decoration: none; } .tabwid thead { background-color: transparent; } .tabwid tfoot { background-color: transparent; } .tabwid table tr { background-color: transparent; } </style><div class="tabwid"><style>.cl-a9ef317e{border-collapse:collapse;}.cl-a9e32244{font-family:'Ma Shan Zheng';font-size:16pt;font-weight:normal;font-style:normal;text-decoration:none;color:rgba(0, 0, 0, 1.00);background-color:transparent;}.cl-a9e32245{font-family:'Ma Shan Zheng';font-size:9.6pt;font-weight:normal;font-style:normal;text-decoration:none;color:rgba(0, 0, 0, 1.00);background-color:transparent;position: relative;bottom:4.8pt;}.cl-a9e32246{font-family:'Ma Shan Zheng';font-size:9.6pt;font-weight:normal;font-style:normal;text-decoration:none;color:rgba(255, 0, 0, 1.00);background-color:transparent;position: relative;bottom:4.8pt;}.cl-a9e32247{font-family:'Ma Shan Zheng';font-size:16pt;font-weight:normal;font-style:normal;text-decoration:none;color:rgba(255, 0, 0, 1.00);background-color:transparent;}.cl-a9e34954{margin:0;text-align:center;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);padding-bottom:0;padding-top:0;padding-left:0;padding-right:0;line-height: 1;background-color:transparent;}.cl-a9e34955{margin:0;text-align:center;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);padding-bottom:0;padding-top:0;padding-left:0;padding-right:0;line-height: 1;background-color:transparent;}.cl-a9e34956{margin:0;text-align:left;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);padding-bottom:1pt;padding-top:1pt;padding-left:5pt;padding-right:5pt;line-height: 1;background-color:transparent;}.cl-a9e3be7a{width:101.1pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be7b{width:89pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be7c{width:64.1pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be7d{width:106pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be7e{width:97.9pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be7f{width:97.9pt;background-color:transparent;vertical-align: middle;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be80{width:101.1pt;background-color:transparent;vertical-align: middle;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be81{width:106pt;background-color:transparent;vertical-align: middle;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be82{width:64.1pt;background-color:transparent;vertical-align: middle;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be83{width:89pt;background-color:transparent;vertical-align: middle;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3be84{width:89pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(255, 255, 255, 0.00);border-top: 0 solid rgba(255, 255, 255, 0.00);border-left: 0 solid rgba(255, 255, 255, 0.00);border-right: 0 solid rgba(255, 255, 255, 0.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3e594{width:97.9pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(255, 255, 255, 0.00);border-top: 0 solid rgba(255, 255, 255, 0.00);border-left: 0 solid rgba(255, 255, 255, 0.00);border-right: 0 solid rgba(255, 255, 255, 0.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3e595{width:64.1pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(255, 255, 255, 0.00);border-top: 0 solid rgba(255, 255, 255, 0.00);border-left: 0 solid rgba(255, 255, 255, 0.00);border-right: 0 solid rgba(255, 255, 255, 0.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3e596{width:106pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(255, 255, 255, 0.00);border-top: 0 solid rgba(255, 255, 255, 0.00);border-left: 0 solid rgba(255, 255, 255, 0.00);border-right: 0 solid rgba(255, 255, 255, 0.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3e597{width:101.1pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(255, 255, 255, 0.00);border-top: 0 solid rgba(255, 255, 255, 0.00);border-left: 0 solid rgba(255, 255, 255, 0.00);border-right: 0 solid rgba(255, 255, 255, 0.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3e598{width:89pt;background-color:transparent;vertical-align: bottom;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 2pt solid rgba(102, 102, 102, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3e599{width:64.1pt;background-color:transparent;vertical-align: bottom;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 2pt solid rgba(102, 102, 102, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3e59a{width:101.1pt;background-color:transparent;vertical-align: bottom;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 2pt solid rgba(102, 102, 102, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3e59b{width:97.9pt;background-color:transparent;vertical-align: bottom;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 2pt solid rgba(102, 102, 102, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a9e3e59c{width:106pt;background-color:transparent;vertical-align: bottom;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 2pt solid rgba(102, 102, 102, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}</style><table class='cl-a9ef317e'><caption class="">表3-2:iris dataset数据集</caption><thead><tr style="overflow-wrap:break-word;"><td class="cl-a9e3e59c"><p class="cl-a9e34954"><span class="cl-a9e32244">Sepal.Length</span><span class="cl-a9e32245">a</span></p></td><td class="cl-a9e3e59b"><p class="cl-a9e34954"><span class="cl-a9e32244">Sepal.Width</span><span class="cl-a9e32245">b</span></p></td><td class="cl-a9e3e59a"><p class="cl-a9e34954"><span class="cl-a9e32244">Petal.Length</span><span class="cl-a9e32245">c</span></p></td><td class="cl-a9e3e598"><p class="cl-a9e34954"><span class="cl-a9e32244">Petal.Width</span></p></td><td class="cl-a9e3e599"><p class="cl-a9e34954"><span class="cl-a9e32244">Species</span></p></td></tr></thead><tbody><tr style="overflow-wrap:break-word;"><td class="cl-a9e3be7d"><p class="cl-a9e34955"><span class="cl-a9e32244">5.1</span></p></td><td class="cl-a9e3be7e"><p class="cl-a9e34955"><span class="cl-a9e32244">3.5</span></p></td><td class="cl-a9e3be7a"><p class="cl-a9e34955"><span class="cl-a9e32244">1.4</span></p></td><td class="cl-a9e3be7b"><p class="cl-a9e34955"><span class="cl-a9e32244">0.2</span></p></td><td class="cl-a9e3be7c"><p class="cl-a9e34955"><span class="cl-a9e32244">setosa</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a9e3be7d"><p class="cl-a9e34955"><span class="cl-a9e32244">4.9</span></p></td><td class="cl-a9e3be7e"><p class="cl-a9e34955"><span class="cl-a9e32244">3.0</span></p></td><td class="cl-a9e3be7a"><p class="cl-a9e34955"><span class="cl-a9e32244">1.4</span></p></td><td class="cl-a9e3be7b"><p class="cl-a9e34955"><span class="cl-a9e32244">0.2</span></p></td><td class="cl-a9e3be7c"><p class="cl-a9e34955"><span class="cl-a9e32244">setosa</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a9e3be7d"><p class="cl-a9e34955"><span class="cl-a9e32244">4.7</span></p></td><td class="cl-a9e3be7e"><p class="cl-a9e34955"><span class="cl-a9e32244">3.2</span></p></td><td class="cl-a9e3be7a"><p class="cl-a9e34955"><span class="cl-a9e32244">1.3</span></p></td><td class="cl-a9e3be7b"><p class="cl-a9e34955"><span class="cl-a9e32244">0.2</span></p></td><td class="cl-a9e3be7c"><p class="cl-a9e34955"><span class="cl-a9e32244">setosa</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a9e3be7d"><p class="cl-a9e34955"><span class="cl-a9e32244">4.6</span></p></td><td class="cl-a9e3be7e"><p class="cl-a9e34955"><span class="cl-a9e32244">3.1</span></p></td><td class="cl-a9e3be7a"><p class="cl-a9e34955"><span class="cl-a9e32244">1.5</span></p></td><td class="cl-a9e3be7b"><p class="cl-a9e34955"><span class="cl-a9e32244">0.2</span></p></td><td class="cl-a9e3be7c"><p class="cl-a9e34955"><span class="cl-a9e32244">setosa</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a9e3be7d"><p class="cl-a9e34955"><span class="cl-a9e32244">5.0</span></p></td><td class="cl-a9e3be7e"><p class="cl-a9e34955"><span class="cl-a9e32244">3.6</span></p></td><td class="cl-a9e3be7a"><p class="cl-a9e34955"><span class="cl-a9e32244">1.4</span></p></td><td class="cl-a9e3be7b"><p class="cl-a9e34955"><span class="cl-a9e32244">0.2</span></p></td><td class="cl-a9e3be7c"><p class="cl-a9e34955"><span class="cl-a9e32244">setosa</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a9e3be81"><p class="cl-a9e34955"><span class="cl-a9e32244">5.4</span></p></td><td class="cl-a9e3be7f"><p class="cl-a9e34955"><span class="cl-a9e32244">3.9</span></p></td><td class="cl-a9e3be80"><p class="cl-a9e34955"><span class="cl-a9e32244">1.7</span></p></td><td class="cl-a9e3be83"><p class="cl-a9e34955"><span class="cl-a9e32244">0.4</span></p></td><td class="cl-a9e3be82"><p class="cl-a9e34955"><span class="cl-a9e32244">setosa</span></p></td></tr></tbody><tfoot><tr style="overflow-wrap:break-word;"><td colspan="5"class="cl-a9e3e596"><p class="cl-a9e34956"><span class="cl-a9e32246">a</span><span class="cl-a9e32247">This is footnote one</span><span class="cl-a9e32247">; </span><span class="cl-a9e32246">b</span><span class="cl-a9e32247">This is footnote two</span><span class="cl-a9e32247">; </span><span class="cl-a9e32246">c</span><span class="cl-a9e32247">This is footnote three</span></p></td></tr></tfoot></table></div></template> <div class="flextable-shadow-host" id="26c6118f-7d01-4fb9-b586-e9cb8576a274"></div> <script> var dest = document.getElementById("26c6118f-7d01-4fb9-b586-e9cb8576a274"); var template = document.getElementById("22ae7034-6515-4f22-a1f0-1421dca3af03"); var caption = template.content.querySelector("caption"); if(caption) { caption.style.cssText = "display:block;text-align:center;"; var newcapt = document.createElement("p"); newcapt.appendChild(caption) dest.parentNode.insertBefore(newcapt, dest.previousSibling); } var fantome = dest.attachShadow({mode: 'open'}); var templateContent = template.content; fantome.appendChild(templateContent); </script> --- ## 良好图表应具备的基本特征 - 服务于一个明确的目的 - 显示数据 - 强调数据之间的比较 - 有对图表的统计描述和文字说明 - 让读者把注意力集中在图表的内容上,而不是制作图表的程序上 - 避免歪曲 --- ## 鉴别图表优劣的准则 - 表述数据的真实情况 - 使复杂的观点得到简明、确切、高效的阐述 - 精心设计、有助于洞察问题的实质 - 能在最短的时间内以最少的笔墨给读者提供最大量的信息 - 多维度地对问题进行客观反映 --- ## 制图常见误区:非零起始点1 <img src="../pic/chpt03-mis-non-zero.png" width="1937" style="display: block; margin: auto;" /> --- ## 制图常见误区:非零起始点2 <img src="../pic/chpt03-mis-non-zero-com.png" width="3872" style="display: block; margin: auto;" /> --- ## 制图常见误区:图片比例拉伸失调 <img src="../pic/chpt03-mis-wrong-ratio.png" width="1940" style="display: block; margin: auto;" /> --- ## 制图常见误区:炫技乱人心 <img src="../pic/chpt03-mis-dispress.png" width="1976" style="display: block; margin: auto;" /> --- ## 制图常见误区:视觉误导1 <img src="../pic/chpt03-mis-vision-distort.png" width="1963" style="display: block; margin: auto;" /> --- ## 制图常见误区:视觉误导2 <img src="../pic/chpt03-mis-vision-distort-y.png" width="4067" style="display: block; margin: auto;" /> --- ## 制图常见误区:目标不明确 <img src="../pic/chpt03-mis-elements.png" width="1955" style="display: block; margin: auto;" /> --- ## 图设计要点:饼图VS条形图? <img src="../pic/chpt03-graph-pie-or-bar.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:一般来讲表述市场份额是100%,所以大家习惯用饼图表述,研究表明人们更习惯从条形图来比较大小,更醒目的看到差异! --- ## 图设计要点:线形图VS柱状图? <img src="../pic/chpt03-graph-line-or-bar.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:X轴是时间,是时间序列数据,所以折线图更能够感知的趋势、模式的变化!当然如果你表现的是不同品牌的市场份额,柱状图也是可以的! --- ## 图设计要点:平面图VS立体图? <img src="../pic/chpt03-graph-2d-or-3d.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:二维图更适合人们观察,三维并不适合观察,毕竟人类视觉空间最低维度是二维!另时序数据应该采用折线图表述趋势! --- ## 图设计要点:3D VS 2D? <img src="../pic/chpt03-graph-2d-or-3d-cont.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:尽量不用用三维图,但是大家是不是会把信息按某个维度作出分散的二维图呢?一定注意要用统一的纵坐标,否则是四张图,要贴成一张图! --- ## 图设计要点:颜色VS数据? <img src="../pic/chpt03-graph-color-or-data.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:如果选上面的打印都费墨,坚持简单是最好的。当然如果有艺术细胞的话,背景也是可以更为生动些,但是更多是考虑展示结果! --- ## 图设计要点:选色VS选图? <img src="../pic/chpt03-graph-color-pie-and-bar.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:比较是展示数据差异的好法子,但是如果读者不容易看出差别的话,那么比较就毫无意义。确保选择最合适的比较方法。 --- ## 图设计要点:饼图-排序VS分块? <img src="../pic/chpt03-graph-pie.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:理论上,一个饼图不应该分割超过5块。注意排序,最大一块12点钟开始,顺时针方向旋转。剩余部分再降序排列,顺时针。 --- ## 图设计要点:线图-实线VS虚线? <img src="../pic/chpt03-graph-line-solid.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:虚线容易分散注意力。相反,使用实线和颜色,反而容易区分彼此的区别。 --- ## 图设计要点:条形图-排序数据VS名称? <img src="../pic/chpt03-graph-bar-order.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:你的内容应该以一种合乎逻辑的和直观的方式来引导读者了解数据。所以,记得将数据类别按字母顺序、大小顺序、或数据值进行排序。 --- ## 图设计要点:柱状图-宽度VS间距? <img src="../pic/chpt03-graph-bar-width.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:或许你的报告很有创意,非常精彩,但是记得图表设计水平也要跟上。条形图之间的间隔应该是1/2栏宽度。 --- ## 图设计要点:面积图-堆叠VS透明度? <img src="../pic/chpt03-graph-area-stacked.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:确保没有数据丢失或被设计修改。例如,使用标准的面积图时,可以添加透明度,确保读者可以看到所有数据。 --- ## 图设计要点:散点图-原始VS趋势? <img src="../pic/chpt03-graph-scatter-trend.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:应该使图表尽可能轻松地帮助读者理解数据。例如,在散点图中添加趋势线来强调的趋势。 --- ## 图设计要点:气泡图-形状VS数值? <img src="../pic/chpt03-graph-legend.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:确保所有可视化方式是准确的。例如,气泡图大小应该根据区域扩展,而不是直径。 --- ## 图设计要点:热力图-颜色堆VS颜色系? <img src="../pic/chpt03-graph-heathop.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:颜色用得太花,会给数据增加不可承受之重,相反,应该采用同一色系,或者类比色。 --- ## 表设计要点:交叉表-封闭VS开放? <img src="../pic/chpt03-table-close-or-open.png" width="850px" style="display: block; margin: auto;" /> -- **点评**:下表更加清晰明快!我们习惯采用中国式上表,一般都是封闭边框线的。但是我们如果经常看英文的论文,你会发现很多论文都是下面开放式三线表! --- ## 表设计要点:交叉表-颜色VS线条? <img src="../pic/chpt03-table-color-or-line.png" width="800px" style="display: block; margin: auto;" /> -- **点评**:应选择上表。网格线会让我们看不清晰。当然颜色也是非常重要的,要学会使用条件格式规则调色,还有如字体、数值、对齐等格式问题! --- layout:false background-image: url("../pic/thank-you-gif-funny-fan.gif") class: inverse,center # 本章结束