此外还有图片处理的Pillow库,视频处理的OpenCV,涉及高精度运算的GMPY2库
一、NumpyPython并没有提供数组功能,虽然列表可以完成基本的数组功能,但他并不是真正的数组,而且数据量较大时,使用列表的速度就会慢。
Numpy提供了真正的数组功能,以及快速处理的函数。Numpy内置函数处理数据的速度是C语言级别的,因此在编写程序的时候,应当尽量使用内置函数,避免出现效率瓶颈的现象。
Numpy提供了多维数组功能,但它只是一般的数组,并不是矩阵。当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。
Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数!Scipy功能库有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学工程中常用的计算,这都是挖掘与建模必备的!
数据可视化,最著名的绘图库,主要用于二维绘图,可以简单的三维画图。
中文标签可能无法显示,因为Matplotlib默认英文字体,另外保存作图图像时,负号可能显示不正常。“画廊”,Matplotlib做出的精美的图可以用来做范例。
Pandas是Python下最强大的数据分析和探索工具。有高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。
Pandas功能强大,支持类似于SQL的增删改查,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等。
Pandas基本的数据结构是Series和DataFrame。Series就是序列,类似一维数组;DataFrame则是相当于一张二维的表格,类似二维数组,它的每一列都是一个Series。每个Series带有对应的Index,标记不同的元素,类似SQL的主键。
DataFrame相当于多个带有同样Index的Series的组合(本质是Series的容器)
Series以不同的表头来标识。
Pandas着眼于数据的读取处理和探索,而StatsModels则更加注重数据的统计建模分析,它使得Python类似R。与Pandas进行数据交互,结合很强大。
六、Scikit-Learn机器学习工具包,提供了完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测和模型分析等。并不包含强大的模型–人工神经网络。
七、Keras基于Theano的强大的深度学习库,利用它不仅仅可以搭建普通的神经网络,还可以搭建各种深度学习模型,如自编码器,循环、递归、卷积神经网络等。
Theano可以搭建强大的神经网络模型,但是门槛高,Keras简化了搭建各种神经网络模型的步骤,定制的自由度非常大,简单化搭建神经网络模型。
处理语言方面的任务,文本相似度计算、LDA、Word2Vec等。
(二)、Python主要数据探索函数Pandas提供了大量的与数据探索相关的函数,这些数据探索函数可大致分为统计特征函数与统计做图函数;而做图函数依赖于Matplotlib!
一、统计特征函数
相关知识
数据可视化的通用逻辑
大屏设计系列之四:大数据可视化设计,故事+数据+设计 =可视化
为什么要花大力气做可视化数据分析?
鸢尾花数据集如何可视化
鸢尾花数据集,揭开数据可视化分析的奥秘
鸢尾花数据集的数据可视化
基于Python实现交互式数据可视化的工具(用于Web)
鸢尾花数据集降维可视化
浅谈 BI 与数据分析的可视化
JavaScript实现的风飓风数据可视化分析
网址: 数据可视化总结 https://m.huajiangbk.com/newsview1548780.html
上一篇: Python 教程:浏览并可视化 |
下一篇: 4个最受欢迎的大数据可视化工具 |