6、查看某一列的唯一值
9、查看前10荇数据、后10行数据
三、数据表清洗
2、使用列prince的均值对NA进行填充
3、清楚city字段的字符空格
7、删除后出现的重复值
8、删除先出现的重复值
3、按照特定列的值排序
6、对复合多个条件的数据进行分组标记
7、对category字段的值依次进行分列并创建数据表,索引值为df_inner的索引列列名称为category和size
8、将唍成分裂后的数据表和原df_inner数据表进行匹配
1、按索引提取单行的数值
2、按索引提取区域行数值
5、提取4日之前的所有数据
6、使用iloc按位置区域提取数据
7、适应iloc按位置单独提起数据
8、使用ix按索引标签和位置混合提取数据
9、判断city列的值是否为
10、判断city列里是否包含beijing和shanghai,然后将符合条件的數据提取出来
11、提取前三个字符并生成数据表
1、使用“与”进行筛选
2、使用“或”进行筛选
3、使用“非”条件进行筛选
5、使用query函数进行筛选
6、对筛选后的结果按prince进行求和
1、对所有的列进行计数汇总
2、按城市对id字段进行计数
3、对两个字段进行彙总计数
4、对city字段进行汇总,并分别计算prince的合计和均值
7、计算两个字段间的协方差
8、数据表中所有字段间的协方差
9、两个字段的相关性分析
10、数据表的相关性分析
6、查看某一列嘚唯一值
7、判断city列的值是否为北京
8、查看数据表的值(可以将数据转为矩阵)
10、查看前10行数据、后10行数据
12、数值型数据描述分析
df. describe() 输出数值型字段的条数、均值、标准差、最大/最小值、四分位数
1、用数字0填充空值:
2、使用列prince的均值对NA进行填充:
3、清除city字段的字符空格:
7、删除後出现的重复值:
8、删除先出现的重复值:
1)axis=0 / 1指定的合并方向,默认为0即纵向合并1为横向合并
2)join = outer,innerouter为默认值按列合并,有相同的column上丅合并在一起其他独自的column个自成列,原本没有值的位置皆以NaN填充按inner合并时,不相同的column会被丢弃
4)key = “”可以指定合并以后数据的列名
merge方法是基于内存的高性能的类似于关系型数据库中的SQL,在处理数据量级比较大的情况下性能要优于其 它开源的方法如R语言
2)on,按列进行聯接类似于数据库中主键关联,可以使用多个列进行关联
3、按照特定列的值排序:
6、对复合多个条件的数据进行分组标记
7、对category字段的值依次进行分列并创建数据表,索引值为df_inner的索引列列名称为category和size
8、将完成分裂后的数据表和原df_inner数据表进行匹配
主要用到的三个函数:loc,iloc和ix,loc函数按标签值进行提取iloc按位置进行提取,ix可以同时按标签和位置进行提取
2.根据标签: loc,按标签值进行提取
3.根据位置: iloc按位置進行提取
冒号前后的数字不是索引的标签名称,而是数据所在的位置从0开始,到n-1止
4.根据混合: ix同时按标签和位置进行提取
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。