千家信息网

怎么用python分析电影票房

发表于:2024-11-20 作者:千家信息网编辑
千家信息网最后更新 2024年11月20日,这篇文章主要介绍"怎么用python分析电影票房"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"怎么用python分析电影票房"文章能帮助大家解决问题。一、提出
千家信息网最后更新 2024年11月20日怎么用python分析电影票房

这篇文章主要介绍"怎么用python分析电影票房"的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇"怎么用python分析电影票房"文章能帮助大家解决问题。

一、提出问题

本案例来源于kaggle上的TMDB 5000 Movie Dataset数据集,为了探讨电影数据可视化,为电影的制作提供数据支持,主要研究以下几个问题:

  • 电影类型如何随着时间的推移发生变化的?

  • 电影类型与利润的关系?

  • Universal和Paramount两家影视公司的对比情况如何?

  • 改编电影和原创电影的对比情况如何?

  • 电影时长与电影票房及评分的关系?

  • 分析电影关键字

二、理解数据

1、采集数据

从kaggle上的TMDB 5000 Movie Dataset下载数据集:

https://www.kaggle.com/tmdb/tmdb-movie-metadata

2、导入数据

3、查看数据集信息

下面是moviedf数据集中部分字段的含义介绍:

  • id: 标识号

  • imdb id:IMDB标识号

  • popularity: 在Movie Database上的相对页面查看次数

  • budget: 预算(美元)

  • revenue: 收入(美元)

  • original_title: 电影名称

  • cast: 演员列表,按|分隔,最多5名演员

  • homepage: 电影首页的URL

  • director: 导演列表,按|分隔,最多5名导演

  • tagline: 电影的标语

  • keywords: 与电影相关的关键字,按|分隔,最多5个关键字

  • overview: 剧情摘要

  • runtime: 电影时长

  • genres: 风格列表,按|分隔,最多5种风格

  • production_companies: 制作公司列表,按|分隔,最多5家公司

  • release_date: 首次上映日期

  • vote_count: 评分次数

  • vote_average: 平均评分·release year: 发行年份

三、数据清洗

1、先将credits数据集和moviedf数据集中的数据合并在一起,再查看合并后的数据集信息:

2、选取子集

由于数据集中包含的信息过多,其中部分数据并不是我们研究的重点,所以从中选取我们需要的数据:

由于后面的数据分析涉及到电影类型的利润计算,先求出每部电影的利润,并在数据集moviesdf中增加profit数据列:

3、缺失值处理

通过上面的数据集信息可以知道:整个数据集缺失的数据比较少 其中release_date(首次上映日期)缺失1个数据,runtime(电影时长)缺失2个数据,可以通过网上查询补齐这个数据。

填补release_date(首次上映日期)数据:

找出runtime(电影时长)缺失的数据:

填充runtime缺失值:

4、数据格式转换

genres列数据处理:

release_date列数据处理:

四、数据分析及可视化

问题一:电影类型如何随着时间的推移发生变化的?

1、建立包含年份与电影类型数量的关系数据框:

2、数据可视化

绘制各种电影类型的数量柱状图:

绘制各种电影类型占比的饼状图:

分析结论:

  • 从上面的结果可以看出,在所有的电影类型中,Drama(戏剧)类型电影最多,占所有电影类型的18.9%,其次为Comedy(喜剧),占所有电影类型的14.2%。

  • 在所有电影类型中,电影数量排名前5的电影类型分别为: Drama(戏剧)、Comedy(喜剧)、Thriller(惊悚)、Action(动作)、Romance(冒险)。

3、电影类型随时间变化的趋势分析:

分析结论:

从图中观察到,随着时间的推移,所有电影类型都呈现出增长趋势,尤其是1992年以后各个类型的电影均增长迅速,其中Drama(戏剧)和Comedy(喜剧)增长最快,目前仍是最热门的电影类型。

问题二:电影类型与利润的关系?

先求出各种电影类型的平均利润:

电影类型平均利润数据可视化:

分析结论:

从图中观察到,拍摄Animation、Adventure、Fantasy这三类电影盈利最好,而拍摄Foreign、TV、Movie这三类电影会存在亏本的风险。

问题三:Universal Pictures和Paramount Pictures两家影视公司发行电影的对比情况如何?

Universal Pictures(环球影业)和Paramount Pictures(派拉蒙影业)是美国两家电影巨头公司。

1、查看 Universal Pictures和Paramount Pictures两家影视公司电影发行的数量

先对production_companies列数据进行处理:

查询production_companies数据列并统计Universal Pictures和Paramount Pictures的数据:

使用饼状图比较两家公司发行的电影占比:

2、分析Universal Pictures和Paramount Pictures两家影视公司电影发行的走势

抽取相关数据列进行处理:

两家影视公司电影发行的折线图:

分析结论:

从图中观察到,随着时间的推移,Universal Pictures和Paramount Pictures公司的电影发行量呈现出增长趋势,尤其是在1995年后增长迅速,其中Universal Pictures公司比Paramount Pictures公司发行的电影数量更多。

问题四:改编电影和原创电影的对比情况如何?

对keywords列数据处理:

描绘柱状图,对改编电影与原创电影在预算、收入及利润三方面进行比较:

分析结论:

从图上可以看出,改编电影的预算略高于原创电影,但改编电影的票房收入和利润远远高于原创电影, 这可能是改编电影拥有一定的影迷基础。

问题五:电影时长与电影票房及评分的关系

电影时长与电影票房的关系:

电影时长与电影平均评分的关系:

分析结论:

从图上可以看出,电影要想获得较高的票房及良好的口碑,电影的时长应保持在90~150分钟内。

问题六:分析电影关键字

先提取电影关键字:

通过词云包WordCloud生成词云图:

关于"怎么用python分析电影票房"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注行业资讯频道,小编每天都会为大家更新不同的知识点。

电影 数据 类型 分析 公司 票房 利润 时长 问题 发行 结论 缺失 处理 关键 关键字 影视 数量 时间 增长 评分 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 轻量应用服务器的计算能力怎样 山西税务服务器升级需要多久 网络安全波特五力分析 中国软件开发公司的知名老总 软件开发最低薪资 湖南送货单软件开发 网络安全技术 课程说明 十条网络安全小知识 中国网络安全小组组长是谁 怀旧服部落服务器维护时间 我的世界服务器如何做活动好 如何根据ip查找服务器所属公司 连云港合同管理软件开发平台 sql数据库脱机总是失败 科目数据库表头 金蝶 尼基塔在中国的游戏服务器在哪 网络安全征文有意义的名字 广东飞腾服务器购买 服务器可以一主一备吗 数据库安全性判断题 淄博党建设计软件开发 小程序获取服务器上的图片并展示 家庭服务器一台主机带多台副机 江苏纺织外贸软件开发公司 数据库表结 服务器交换机怎么维护 原神不同服务器ip开头数字 河北网络软件开发 网页数据库安全问题 从化高端网络安全运维
0