怎样用Python执行常见的SQL任务
这篇文章给大家介绍怎样用Python执行常见的SQL任务,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
数据从业者有许多工具可用于分割数据。有些人使用Excel,有些人使用SQL,有些人使用Python。对于某些任务,使用Python的优点是显而易见的。以更快的速度处理更大的数据集。使用基于Python构建的开源机器学习库。你可以轻松导入和导出不同格式的数据。
由于其多功能性,Python可以成为任何数据分析师工具箱的重要组成部分。但是,这很难开始。大多数数据分析师可能熟悉SQL或Excel。本教程是涉及帮助你将技能和技术从EXcel和SQL转移到Python。
首先,让我们来设置Python。最简单的方法就是使用JupyterNotebook和Anaconda。这个可视化界面将允许你插入Python代码并立即查看输出。这也将使你轻松跟随本教程的其余部分。
我们从基础开始:打开一个数据集。
导入数据
你可以导入.sql数据库并用SQL查询中处理它们。在Excel中,你可以双击一个文件,然后在电子表格模式下开始处理它。在Python中,有更多复杂的特性,得益于能够处理许多不同类型的文件格式和数据源的。
使用一个数据处理库Pandas,你可以使用read方法导入各种文件格式。,使用这个方法所能导入完整的文件格式清单是在Pandas文档中。你可以导入从CSV和Excel文件到HTML文件中的所有内容!
使用Python的最大优点之一是能够从网络的巨大范围中获取数据的能力,而不是只能访问手动下载的文件。在Python的requests库可以帮助你分类不同的网站,并从它们获取数据,而BeautifulSoup库可以帮助你处理和过滤数据,那么你精确得到你所需要的。如果你要去这条路线,请小心使用权问题。
首先,导入我们需要的库。
需要Pandas库处理我们的数据。需要numpy库来执行数值的操作和转换。我们需要requests库来从网站获取HTML数据。需要BeautifulSoup来处理这些数据。最后,需要Python(re)的正则表达式库来更改在处理数据时将出现的某些字符串。
在Python中,不需要知道很多关于正则表达式的知识,但它们是一个强大的工具,可用于匹配和替换某些字符串或子字符串。
信任这个网站的一些代码。
这是一个更具技术性的解释,详细说明如何使用Python代码来获取HTML表格。
你可以将上面的代码复制粘贴到你自己的Anaconda中,如果你用一些Python代码运行,可以迭代它!
下面是代码的输出,如果你不修改它,就是所谓的字典。
你会注意到逗号分隔起来的括号的key-value列表。每个括号内的列表都代表了我们dataframe中的一行,每列都以key表示:我们正在处理一个国家的排名,人均GDP(以美元表示)及其名称(用「国家」)。
有关数据结构,如列表和词典,如何在Python中的运行的更多信息,本教程将有所帮助。
幸运的是,为了将数据移动到Pandasdataframe中,我们不需要理解这些数据,这是将数据聚合到SQL表或Excel电子表格的类似方式。使用一行代码,我们已经将这些数据分配并保存到Pandasdataframe中-事实证明是这种情况,字典是要转换为dataframe的完美数据格式。
通过这个简单的Python赋值给变量gdp,我们现在有了一个dataframe,可以在我们编写gdp的时候打开和浏览。我们可以为该词添加Python方法,以创建其中的数据的策略视图。作为我们刚刚在Python中使用等号和赋值的一点深入了解,教程很有帮助。
关于怎样用Python执行常见的SQL任务就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。