首页 > 分享 > 数据可视化总结

数据可视化总结

花匠小妙招
2025-01-12 03:38

数据可视化工具整理

（一）、Python数据挖掘相关扩展库 Numpy 提供数组支持，以及相应的高效的处理函数Scipy 提供矩阵支持，以及矩阵相关的数值计算模块Matplotlib 数据可视化工具，作图库Pandas 强大、灵活的数据分析和探索工具StatsModels 设计建模，统计模型估计，描述统计等Scikit-Learn 支持回归、分类、聚类等的强大的机器学习库Keras 深度学习库，用于建立神经网络以及深度学习模型Gensim 用来做文本主题模型的库，文本挖掘会用到

此外还有图片处理的Pillow库，视频处理的OpenCV，涉及高精度运算的GMPY2库

一、Numpy

Python并没有提供数组功能，虽然列表可以完成基本的数组功能，但他并不是真正的数组，而且数据量较大时，使用列表的速度就会慢。
Numpy提供了真正的数组功能，以及快速处理的函数。Numpy内置函数处理数据的速度是C语言级别的，因此在编写程序的时候，应当尽量使用内置函数，避免出现效率瓶颈的现象。

二、Scipy

Numpy提供了多维数组功能，但它只是一般的数组，并不是矩阵。当两个数组相乘时，只是对应元素相乘，而不是矩阵乘法。
Scipy提供了真正的矩阵，以及大量基于矩阵运算的对象与函数！Scipy功能库有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学工程中常用的计算，这都是挖掘与建模必备的！

三、Matplotlib

数据可视化，最著名的绘图库，主要用于二维绘图，可以简单的三维画图。
中文标签可能无法显示，因为Matplotlib默认英文字体，另外保存作图图像时，负号可能显示不正常。“画廊”，Matplotlib做出的精美的图可以用来做范例。

四、Pandas

Pandas是Python下最强大的数据分析和探索工具。有高级的数据结构和精巧的工具，使得在Python中处理数据非常快速和简单。
Pandas功能强大，支持类似于SQL的增删改查，并且带有丰富的数据处理函数；支持时间序列分析功能；支持灵活处理缺失数据等。

Pandas的使用，待加强！

Pandas基本的数据结构是Series和DataFrame。Series就是序列，类似一维数组；DataFrame则是相当于一张二维的表格，类似二维数组，它的每一列都是一个Series。每个Series带有对应的Index，标记不同的元素，类似SQL的主键。
DataFrame相当于多个带有同样Index的Series的组合（本质是Series的容器）
Series以不同的表头来标识。

五、StatsModels

Pandas着眼于数据的读取处理和探索，而StatsModels则更加注重数据的统计建模分析，它使得Python类似R。与Pandas进行数据交互，结合很强大。

六、Scikit-Learn

机器学习工具包，提供了完善的机器学习工具箱，包括数据预处理、分类、回归、聚类、预测和模型分析等。并不包含强大的模型–人工神经网络。

七、Keras

基于Theano的强大的深度学习库，利用它不仅仅可以搭建普通的神经网络，还可以搭建各种深度学习模型，如自编码器，循环、递归、卷积神经网络等。
Theano可以搭建强大的神经网络模型，但是门槛高，Keras简化了搭建各种神经网络模型的步骤，定制的自由度非常大，简单化搭建神经网络模型。

八、Gensim

处理语言方面的任务，文本相似度计算、LDA、Word2Vec等。

（二）、Python主要数据探索函数

Pandas提供了大量的与数据探索相关的函数，这些数据探索函数可大致分为统计特征函数与统计做图函数；而做图函数依赖于Matplotlib！

一、统计特征函数

这里写图片描述

二、统计做图函数

这里写图片描述

（三）、本章小结从数据质量分析和数据特征分析两个方面进行数据的探索分析。数据质量分析要求我们拿到数据后先检测是否存在缺失值和异常值；数据特征分析要求我们在数据挖掘建模前，通过频率分布分析、对比分析、帕累托分析、周期性分析、相关性分析方法，对采集的样本数据的特征规律进行分析，以了解数据的规律和趋势，为后续的数据挖掘环节提供支持。在数据可视化中，主要用Pandas作为数据探索和分析工具，因此Matplotlib和Pandas结合使用。一方面，Matplotlib是做图工具的基础，Pandas作图依赖于它；另一方面Pandas作图简答直接的优势。二者结合进行数据分析，和可视化！