对Kaggle数据集进行分析
Consumer & Visitor Insights For Neighborhoods :https://www.kaggle.com/safegraph/visit-patterns-by-census-block-group
Wine Reviews :https://www.kaggle.com/zynicide/wine-reviews
标称属性,给出每个可能聚会的频数
数值属性,给出5数概括及缺失值的个数
使用直方图、盒图等检查数据分布及离群点
观察数据集中缺失数据,分析其缺失的原因。
使用下列四种策略对缺失值进行处理:
将缺失部分剔除
用最高频率值来填补缺失值
通过属性的相关关系来填补缺失值
通过数据对象之间的相似性来填补缺失值