用Python爬取微博数据生成词云图片

很早之前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较应景。 ...

more ...

Python爬虫如何入门

学爬虫是循序渐进的过程,作为零基础小白,大体上可分为三个阶段,第一阶段是入门,掌握必备的基础知识,第二阶段是模仿,跟着别人的爬虫代码学,弄懂每一行代码,第三阶段是自己动手,这个阶段你开始有自己的解题思路了,可以独立设计爬虫系统。 爬虫涉及的技术包括但不限于熟练一门编程语言(这里以 Python 为例) HTML 知识、HTTP/HTTPS ...

more ...

爬虫入门系列(六):正则表达式完全指南(下)

爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests 爬虫入门系列(三):用 requests 构建知乎 API 爬虫入门系列(四):HTML文本解析库BeautifulSoup 爬虫入门系列(五):正则表达式完全指南(上) 爬虫入门系列(六):正则表达式完全指南(下) ...

more ...

爬虫入门系列(五):正则表达式完全指南(上)

爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests 爬虫入门系列(三):用 requests 构建知乎 API 爬虫入门系列(四):HTML文本解析库BeautifulSoup 爬虫入门系列(五):正则表达式完全指南(上) ...

more ...

爬虫入门系列(四):HTML文本解析库BeautifulSoup

爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests 爬虫入门系列(三):用 requests 构建知乎 API 爬虫入门系列(四):HTML文本解析库BeautifulSoup 爬虫入门系列(五):正则表达式完全指南(上) 爬虫入门系列(六):正则表达式完全指南(下) 系列文章的第3篇介绍了网络请求库神器 Requests ...

more ...

爬虫入门系列(三):用 requests 构建知乎 API

爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests 爬虫入门系列(三):用 requests 构建知乎 API 爬虫入门系列(四):HTML文本解析库BeautifulSoup 在爬虫系列文章 优雅的HTTP库requests 中介绍了 requests 的使用方式,这一次我们用 requests 构建一个知乎 ...

more ...

爬虫入门系列(二):优雅的HTTP库requests

爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests 爬虫入门系列(三):用 requests 构建知乎 API 爬虫入门系列(四):HTML文本解析库BeautifulSoup urllib、urllib2、urllib3、httplib、httplib2 都是和 HTTP 相关的 Python ...

more ...

爬虫入门系列(一):快速理解HTTP协议

爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests 爬虫入门系列(三):用 requests 构建知乎 API 爬虫入门系列(四):HTML文本解析库BeautifulSoup 4月份给自己挖一个爬虫系列的坑,主要涉及HTTP 协议、正则表达式、爬虫框架 Scrapy、消息队列、数据库等内容。 爬虫的基本原理是模拟浏览器进行 ...

more ...

Python爬虫之模拟知乎登录

经常写爬虫的都知道,有些页面在登录之前是被禁止抓取的,比如知乎的话题页面就要求用户登录才能访问,而 “登录” 离不开 HTTP 中的 Cookie 技术。 登录原理 Cookie 的原理非常简单,因为 HTTP 是一种无状态的协议,因此为了在无状态的 HTTP 协议之上维护会话(session)状态,让服务器知道当前是和哪个客户在打交道,Cookie 技术出现了 ,Cookie ...

more ...

基于微博数据打造一颗“心”

一年一度的虐狗节终于过去了,朋友圈各种晒,晒自拍,晒娃,晒美食,秀恩爱的。程序员在晒什么,程序员在加班。但是礼物还是少不了的,送什么好?作为程序员,我准备了一份特别的礼物,用以往发的微博数据打造一颗“爱心”,我想她一定会感动得哭了吧。哈哈 准备工作 有了想法之后就开始行动了,自然最先想到的就是用 Python ...

more ...