用Python 爬取猫眼电影数据分析《无名之辈》

站长资源 2024/11/24 佚名

2 0 1

前言

作者：罗昭成

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

http://note.youdao.com/noteshare"color: #ff0000">获取猫眼接口数据

作为一个长期宅在家的程序员，对各种抓包简直是信手拈来。在 Chrome 中查看原代码的模式，可以很清晰地看到接口，接口地址即为：http://m.maoyan.com/mmdb/comments/movie/1208282.json"htmlcode">


def getMoveinfo(url):
 session = requests.Session()
 headers = {
  "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X)"
 }
 response = session.get(url, headers=headers)
 if response.status_code == 200:
  return response.text
 return None



根据上面的请求，我们能拿到此接口的返回数据，数据内容有很多信息，但有很多信息是我们并不需要的，先来总体看看返回的数据：


{
 "cmts":[
  {
   "approve":0,
   "approved":false,
   "assistAwardInfo":{
    "avatar":"",
    "celebrityId":0,
    "celebrityName":"",
    "rank":0,
    "title":""
   },
   "authInfo":"",
   "cityName":"贵阳",
   "content":"必须十分，借钱都要看的一部电影。",
   "filmView":false,
   "id":1045570589,
   "isMajor":false,
   "juryLevel":0,
   "majorType":0,
   "movieId":1208282,
   "nick":"nick",
   "nickName":"nickName",
   "oppose":0,
   "pro":false,
   "reply":0,
   "score":5,
   "spoiler":0,
   "startTime":"2018-11-22 23:52:58",
   "supportComment":true,
   "supportLike":true,
   "sureViewed":1,
   "tagList":{
    "fixed":[
     {
      "id":1,
      "name":"好评"
     },
     {
      "id":4,
      "name":"购票"
     }
    ]
   },
   "time":"2018-11-22 23:52",
   "userId":1871534544,
   "userLevel":2,
   "videoDuration":0,
   "vipInfo":"",
   "vipType":0
  }
 ]
}
"htmlcode">

def parseInfo(data):
 data = json.loads(html)['cmts']
 for item in data:
  yield{
   'date':item['startTime'],
   'nickname':item['nickName'],
   'city':item['cityName'],
   'rate':item['score'],
   'conment':item['content']
  }


拿到数据后，我们就可以开始数据分析了。但是为了避免频繁地去猫眼请求数据，需要将数据存储起来，在这里，笔者使用的是 SQLite3，放到数据库中，更加方便后续的处理。存储数据的代码如下：


def saveCommentInfo(moveId, nikename, comment, rate, city, start_time)
 conn = sqlite3.connect('unknow_name.db')
 conn.text_factory=str
 cursor = conn.cursor()
 ins="insert into comments values ("
 v = (moveId, nikename, comment, rate, city, start_time)
 cursor.execute(ins,v)
 cursor.close()
 conn.commit()
 conn.close()


数据处理 
因为前文我们是使用数据库来进行数据存储的，因此可以直接使用 SQL 来查询自己想要的结果，比如评论前五的城市都有哪些：


SELECT city, count(*) rate_count FROM comments GROUP BY city ORDER BY rate_count DESC LIMIT 5



结果如下：

从上面的数据， 我们可以看出来，来自北京的评论数最多。
不仅如此，还可以使用更多的 SQL 语句来查询想要的结果。比如每个评分的人数、所占的比例等。如笔者有兴趣，可以尝试着去查询一下数据，就是如此地简单。
而为了更好地展示数据，我们使用 Pyecharts 这个库来进行数据可视化展示。
根据从猫眼拿到的数据，按照地理位置，直接使用 Pyecharts 来在中国地图上展示数据：


data = pd.read_csv(f,sep='{',header=None,encoding='utf-8',names=['date','nickname','city','rate','comment'])
city = data.groupby(['city'])
city_com = city['rate'].agg(['mean','count'])
city_com.reset_index(inplace=True)
data_map = [(city_com['city'][i],city_com['count'][i]) for i in range(0,city_com.shape[0])]
geo = Geo("GEO 地理位置分析",title_pos = "center",width = 1200,height = 800)
while True:
 try:
  attr,val = geo.cast(data_map)
  geo.add("",attr,val,visual_range=[0,300],visual_text_color="#fff",
    symbol_size=10, is_visualmap=True,maptype='china')
"No coordinate is specified for ")[1]
  data_map = filter(lambda item: item[0] != e, data_map)
 else :
  break
geo.render('geo_city_location.html')


注：使用 Pyecharts 提供的数据地图中，有一些猫眼数据中的城市找不到对应的从标，所以在代码中，GEO 添加出错的城市，我们将其直接删除，过滤掉了不少的数据。
使用 Python，就是如此简单地生成了如下地图：

从可视化数据中可以看出，既看电影又评论的人群主要分布在中国东部，又以北京、上海、成都、深圳最多。虽然能从图上看出来很多数据，但还是不够直观，如果想看到每个省/市的分布情况，我们还需要进一步处理数据。
而在从猫眼中拿到的数据中，城市包含数据中具备县城的数据，所以需要将拿到的数据做一次转换，将所有的县城转换到对应省市里去，然后再将同一个省市的评论数量相加，得到最后的结果。


data = pd.read_csv(f,sep='{',header=None,encoding='utf-8',names=['date','nickname','city','rate','comment'])
city = data.groupby(['city'])
city_com = city['rate'].agg(['mean','count'])
city_com.reset_index(inplace=True)
fo = open("citys.json",'r')
citys_info = fo.readlines()
citysJson = json.loads(str(citys_info[0]))
data_map_all = [(getRealName(city_com['city'][i], citysJson),city_com['count'][i]) for i in range(0,city_com.shape[0])]
data_map_list = {}
for item in data_map_all:
 if data_map_list.has_key(item[0]):
  value = data_map_list[item[0]]
  value += item[1]
  data_map_list[item[0]] = value
 else:
  data_map_list[item[0]] = item[1]
data_map = [(realKeys(key), data_map_list[key] ) for key in data_map_list.keys()]
def getRealName(name, jsonObj):
 for item in jsonObj:
  if item.startswith(name) :
   return jsonObj[item]
 return name
def realKeys(name):
 return name.replace(u"省", "").replace(u"市", "")
    .replace(u"回族自治区", "").replace(u"维吾尔自治区", "")
    .replace(u"壮族自治区", "").replace(u"自治区", "")


经过上面的数据处理，使用 Pyecharts 提供的 map 来生成一个按省/市来展示的地图：


def generateMap(data_map):
 map = Map("城市评论数", width= 1200, height = 800, title_pos="center")
 while True:
  try:
   attr,val = geo.cast(data_map)
   map.add("",attr,val,visual_range=[0,800],
     visual_text_color="#fff",symbol_size=5,
     is_visualmap=True,maptype='china',
     is_map_symbol_show=False,is_label_show=True,is_roam=False,
     )
  except ValueError as e:
   e = e.message.split("No coordinate is specified for ")[1]
   data_map = filter(lambda item: item[0] != e, data_map)
  else :
   break
 map.render('city_rate_count.html')



当然，我们还可以来可视化一下每一个评分的人数，这个地方采用柱状图来显示：


data = pd.read_csv(f,sep='{',header=None,encoding='utf-8',names=['date','nickname','city','rate','comment'])
# 按评分分类
rateData = data.groupby(['rate'])
rateDataCount = rateData["date"].agg([ "count"])
rateDataCount.reset_index(inplace=True)
count = rateDataCount.shape[0] - 1
attr = [rateDataCount["rate"][count - i] for i in range(0, rateDataCount.shape[0])]
v1 = [rateDataCount["count"][count - i] for i in range(0, rateDataCount.shape[0])]
bar = Bar("评分数量")
bar.add("数量",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
  xaxis_interval=0,is_splitline_show=True)
bar.render("html/rate_count.html")


画出来的图，如下所示，在猫眼的数据中，五星好评的占比超过了 50%，比豆瓣上 34.8% 的五星数据好很多。

从以上观众分布和评分的数据可以看到，这一部剧，观众朋友还是非常地喜欢。前面，从猫眼拿到了观众的评论数据。现在，笔者将通过 jieba 把评论进行分词，然后通过 Wordcloud 制作词云，来看看，观众朋友们对《无名之辈》的整体评价：


data = pd.read_csv(f,sep='{',header=None,encoding='utf-8',names=['date','nickname','city','rate','comment'])
comment = jieba.cut(str(data['comment']),cut_all=False)
wl_space_split = " ".join(comment)
backgroudImage = np.array(Image.open(r"./unknow_3.png"))
stopword = STOPWORDS.copy()
wc = WordCloud(width=1920,height=1080,background_color='white',
 mask=backgroudImage,
 font_path="./Deng.ttf",
 stopwords=stopword,max_font_size=400,
 random_state=50)
wc.generate_from_text(wl_space_split)
plt.imshow(wc)
plt.axis("off")
wc.to_file('unknow_word_cloud.png')


导出：
 .


                                
                                    Python,爬取猫眼,Python,爬取


                        
                            
                                广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）

                                免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！
                            
                        
                        
                            
                                
                                    上一篇
                                    Python如何合并多个字典或映射
                                
                            
                            
                                
                                    下一篇
                                    Matplotlib 绘制饼图解决文字重叠的方法
                                
                            
                        
                        
                        
                            
                                
                                
                                    评论“用Python 爬取猫眼电影数据分析《无名之辈》”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.wwsws.com
                                            
                                                伏龙阁资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            39,976影音资源
                                        
                                        
                                            44,792技术资源
                                        
                                        
                                            21,817软件资源
                                        
                                        
                                            651,128站长资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    转载一个别人收藏的精典网站Ruby,HIBERNATE
                                                
                                                
                                                    
                                                        2024/11/24
                                                        
                                                         56
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    可与Spreadsheets媲美的在线表格系统:EditG
                                                
                                                
                                                    
                                                        2024/11/24
                                                        
                                                         34
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    cygwin使用心得
                                                
                                                
                                                    
                                                        2024/11/24
                                                        
                                                         73
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    脚本的DVD开发
                                                
                                                
                                                    
                                                        2024/11/24
                                                        
                                                         28
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    局域网设置自动配置脚本文件的写法与用途
                                                
                                                
                                                    
                                                        2024/11/24
                                                        
                                                         15
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            站点导航
抖音极速版河马剧场京东小红书微信高德地图红果短剧夸克美团剪映拼多多支付宝淘宝快手QQ哔哩哔哩番茄小说得物阿里巴巴王者荣耀和平精英腾讯视频爱奇艺QQ音乐咸鱼之王逆水寒三国志战略版梦幻西游金铲铲之战捕鱼大作战原神英雄联盟手游网易云音乐崩坏星穹铁道优酷视屏酷狗音乐蛋仔派对


            《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒 经典版》的玩家都可以获得奖励。
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2024年11月24日
                                
                                                    
                        
 
                            群星1990《群星会·金曲重现》新加坡版[WAV+CUE][1.1G]
 
                            张惠妹2003《勇敢》[WAV+CUE][1.1G]
 
                            群星1995《摇滚中国乐势力》首版引进版[WAV+CUE][983M]
 
                            陈思安《32首酒廊情调》2CD新雅(国际)影碟[WAV+CUE]
 
                            齐豫潘越云《回声》K2HD[正版原抓WAV+CUE]

                        
                    
                    
                        2024年11月24日
                    
                    
                        
 
                            凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
 
                            刘嘉亮《亮情歌2》[WAV+CUE][1G]
 
                            红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
 
                            刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
 
                            【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
 
                            邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
 
                            群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
 
                            刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
 
                            理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
 
                            公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
 
                            群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
 
                            群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
 
                            卫兰《DAUGHTER》【低速原抓WAV+CUE】
 
                            公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
 
                            ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                        Copyright © 2006~2023
                        伏龙阁资源网   Design by www.wwsws.com  手机版