《快速入门python培训教程.ppt》由会员分享,可在线阅读,更多相关《快速入门python培训教程.ppt(63页珍藏版)》请在启牛文库网上搜索。
1、PythonPython入门数据分析与机入门数据分析与机器学习学习路线器学习学习路线主讲:吴主讲:吴*目录Python简介Python基础Linux基本使用Pythonweb框架Python数据分析Python机器学习Python爬虫Python入门Python简介Python的作者,GuidovonRossum(龟叔),荷兰人。数学和计算机硕士学位。Python是龟叔在1989年圣诞节期间,为了打发无聊的圣诞节而用C编写的一个编程语言,正式诞生于1991年Python入门Python优缺点优点:简单、易学、开源库多,应用广泛缺点:解释型语言,运行速度慢应用:Web开发、Linux运维自动化脚
2、本、科学计数、桌面软件、游戏等Python入门Python基础入门知识点Python入门学习网站:http:/ web框架-DjangoPython入门ORM:对象关系映射,更改配置,即可更改数据库Python web框架-DjangoPython入门模板:前端展示视图:后端逻辑搭建环境(django、pymysql等基本库)项目配置设置(主要在settings中配置)理清项目目录结构(模板、静态文件、后端接口文件等)HTML、CSS:布局和样式JS、jquery:动效交互和数据交互,掌握ajax请求web后端,需要掌握一定的前端知识,学习框架,bootstrapjquery等等发送请求:数据
3、库读数据并处理返回前端前端渲染涉及前端知识和前后端交互Python入门Python-数据分析Python入门Numpy、Pandas、matplotlib、sklearn、Sympy、jieba数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们作出判断,以便采取适当行动。Python库NumpyPython入门1.快速2.方便3.科学计算的基础库一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型、多维数组上执行数值运算Numpy-生成数组Python入门Numpy-数组形状-运算Python入门Numpy-数组取值Python入
4、门Numpy-数组修改Python入门Numpy-常用数学方法Python入门PandasPython入门为什么要学习pandas?那么问题来了:numpy已经能够帮助我们处理数据,那么pandas学习的目的在什么地方呢?numpy能够帮我们处理处理数值型数据,但是这还不够很多时候,我们的数据除了数值之外,还有字符串等所以,numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基于numpy),还能够帮助我们处理其他类型的数据PandasPython入门1.Series一维2.DataFrame二维(series容器)Pandas-获取列数据Python入门Pandas-获取行数据
5、-loc和ilocPython入门Pandas-从外部读写数据Python入门Pandas-字符串方法Python入门Pandas-缺失值处理Python入门Pandas-缺失值处理Python入门MatplotlibMatplotlib:条形图Python入门Matplotlib:折线图Python入门MatplotlibMatplotlib:散点图Python入门MatplotlibPython入门1.绘制了折线图(plt.plot)2.设置了图片的大小和分辨率(plt.figure)3.实现了图片的保存(plt.savefig)4.设置了xy轴上的刻度和字符串(xticks)5.解决了刻
6、度稀疏和密集的问题(xticks)6.设置了标题,xy轴的lable(title,xlable,ylable)7.设置了字体(font_manager. fontProperties,matplotlib.rc)8.在一个图上绘制多个图形(plt多次plot即可)9.为不同的图形添加图例以上统统很重要MatplotlibSympy解方程Python入门Sympy解方程Python入门机器学习Python入门机器学习的框架机器学习Python入门数学全家桶Python入门机器学习Python入门机器学习Python入门机器学习特征选择Python入门机器学习 字典数据特征数值化Python入门机
7、器学习 one-hot编码通过某种数学变换将原始高维属性空间转变为一个低维子空间。降维有什么作用呢?降维有什么作用呢?1. 数据在低维下更容易处理、更容易使用;2. 相关特征,特别是重要特征更能在数据中明确的显示出来;3. 如果只有两维或者三维的话,更便于可视化展示;4. 去除数据噪声5. 降低算法开销Python入门机器学习 降维Python入门机器学习 数值归一化Python入门机器学习 数值标准化Python入门机器学习 归一化标准化APIPython入门机器学习 中文文本特征数值化机器学习-TF-IDF提取文章特征词网上一篇文章中国的蜜蜂养殖中国的蜜蜂养殖,怎么提取我们想要的一些关键词
8、汇(特征词)?思路:哪些词的出现频率高?我们认为是关键词?这样提取是否合理?Python入门 TF-IDF答案:不合理停用词:不是在的.这些词频率出现会很高,但是属于文章中普遍存在的词,没有实际意义,所以我们需要先处理掉这些词去掉停用词后:中国、蜜蜂、养殖这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?Python入门TF-IDF答案:重要性不一样,蜜蜂、养殖的权重大于中国如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词,对应权重就高权重系数逆文档频率IDF(InverseDocumentFrequency基
9、于统计):它的大小与一个词的常见程度成反比。最小权重:是的在较小权重:中国较大权重:蜜蜂养殖蜂蜜Python入门TF-IDF某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。Python入门TF-IDF文章用TF-IDF计算达到的结果:Python入门NLP技术应用-分词分词:分词:中文词与词之间没有明显的分隔符,使得计算机对于词的准确识别变得非常困难。因此,分词就成了中文处理中所要解决的最基本的问题,分词的性能对后续的语言处理如机器翻译、信息检索等有着至关重要的影响。Python入门NLP技术应用-分词Python入门中文结巴分词实例 对绕口令进行分词Python入门中文结巴分词实例 自定义词典有些词我们需要自己定义构造Python入门结巴分词实例 自定义词典有些词我们需要自己定义构造Python入门Python入门模型评价Python入门模型评价Python入门模型评价Requests:很多功能需要自己手写实现Scrapy框架:内部实现多线程、日志、任务调度等功能返回数据类型:Json数据:直接转换成字典获取Html数据:正则、xpath库提取等python爬虫Python入门利用爬虫库做的简易翻译程序Python入门Python入门谢谢观看!