urllib

106次阅读

共计 3633 个字符，预计需要花费 10 分钟才能阅读完成。

urllib提供了一系列用于操作 URL 的功能。

urllib的 request 模块可以非常方便地抓取 URL 内容，也就是发送一个 GET 请求到指定的页面，然后返回 HTTP 的响应：

例如，对豆瓣的一个 URLhttps://api.douban.com/v2/book/2129650进行抓取，并返回响应：

 from urllib import request
 
with request.urlopen('https://api.douban.com/v2/book/2129650') as f:
    data = f.read()
    print('Status:', f.status, f.reason)
    for k, v in f.getheaders():
        print('%s: %s' % (k, v))
    print('Data:', data.decode('utf-8'))

可以看到 HTTP 响应的头和 JSON 数据：

 Status: 200 OK
Server: nginx
Date: Tue, 26 May 2015 10:02:27 GMT
Content-Type: application/json; charset=utf-8
Content-Length: 2049
Connection: close
Expires: Sun, 1 Jan 2006 01:00:00 GMT
Pragma: no-cache
Cache-Control: must-revalidate, no-cache, private
X-DAE-Node: pidl1
Data: {"rating":{"max":10,"numRaters":16,"average":"7.4","min":0},"subtitle":"","author":[" 廖雪峰编著 "],"pubdate":"2007-6",...}

如果我们要想模拟浏览器发送 GET 请求，就需要使用 Request 对象，通过往 Request 对象添加 HTTP 头，我们就可以把请求伪装成浏览器。例如，模拟 iPhone 去请求豆瓣首页：

 from urllib import request
 
req = request.Request('http://www.douban.com/')
req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
with request.urlopen(req) as f:
    print('Status:', f.status, f.reason)
    for k, v in f.getheaders():
        print('%s: %s' % (k, v))
    print('Data:', f.read().decode('utf-8'))

这样豆瓣会返回适合 iPhone 的移动版网页：

 ...
    <meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0">
    <meta name="format-detection" content="telephone=no">
    <link rel="apple-touch-icon" sizes="57x57" href="http://img4.douban.com/pics/cardkit/launcher/57.png" />
...

如果要以 POST 发送一个请求，只需要把参数 data 以 bytes 形式传入。

我们模拟一个微博登录，先读取登录的邮箱和口令，然后按照 weibo.cn 的登录页的格式以 username=xxx&password=xxx 的编码传入：

 from urllib import request, parse
 
print('Login to weibo.cn...')
email = input('Email:')
passwd = input('Password:')
login_data = parse.urlencode([('username', email),
    ('password', passwd),
    ('entry', 'mweibo'),
    ('client_id', ''),
    ('savestate', '1'),
    ('ec', ''),
    ('pagerefer', 'https://passport.weibo.cn/signin/welcome?entry=mweibo&r=http%3A%2F%2Fm.weibo.cn%2F')
])
 
req = request.Request('https://passport.weibo.cn/sso/login')
req.add_header('Origin', 'https://passport.weibo.cn')
req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
req.add_header('Referer', 'https://passport.weibo.cn/signin/login?entry=mweibo&res=wel&wm=3349&r=http%3A%2F%2Fm.weibo.cn%2F')
 
with request.urlopen(req, data=login_data.encode('utf-8')) as f:
    print('Status:', f.status, f.reason)
    for k, v in f.getheaders():
        print('%s: %s' % (k, v))
    print('Data:', f.read().decode('utf-8'))

如果登录成功，我们获得的响应如下：

 Status: 200 OK
Server: nginx/1.2.0
...
Set-Cookie: SSOLoginState=1432620126; path=/; domain=weibo.cn
...
Data: {"retcode":20000000,"msg":"","data":{...,"uid":"1658384301"}}

如果登录失败，我们获得的响应如下：

 ...
Data: {"retcode":50011015,"msg":"\u7528\u6237\u540d\u6216\u5bc6\u7801\u9519\u8bef","data":{"username":"[email protected]","errline":536}}

如果还需要更复杂的控制，比如通过一个 Proxy 去访问网站，我们需要利用 ProxyHandler 来处理，示例代码如下：

 proxy_handler = urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'})
proxy_auth_handler = urllib.request.ProxyBasicAuthHandler()
proxy_auth_handler.add_password('realm', 'host', 'username', 'password')
opener = urllib.request.build_opener(proxy_handler, proxy_auth_handler)
with opener.open('http://www.example.com/login.html') as f:
    pass

urllib提供的功能就是利用程序去执行各种 HTTP 请求。如果要模拟浏览器完成特定功能，需要把请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求，再根据浏览器的请求头来伪装，User-Agent头就是用来标识浏览器的。

利用 urllib 读取 JSON，然后将 JSON 解析为 Python 对象：

 from urllib import request
 
def fetch_data(url):
    return ''
 
# 测试
URL = 'https://api.weatherapi.com/v1/current.json?key=b4e8f86b44654e6b86885330242207&q=Beijing&aqi=no'
data = fetch_data(URL)
print(data)
assert data['location']['name'] == 'Beijing'
print('ok')

use_urllib.py

正文完

星哥玩云-微信公众号

Linux Python python教程星哥说事

发表至： python语言

2024-08-07

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

XML

urllib

Get

Post

Handler

小结

练习

参考源码

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

让每个人都可以轻松使用Git-腾讯自研Git客户端

使用Docker部署开源的WPS-Office

如何安装官方ChatGPT桌面软件，支持Windows和MacOS系统

自建私有云相册：Docker一键部署Immich，照片视频备份利器

Linux常用检测性能的10个基本命令

开源通义万相本地部署方案，文生视频、图生视频、视频生成大模型，支持消费级显卡！

Ollama模型导入指南，从HuggingFace下载模型轻松上手

人工智能入门与高效使用DeepSeek的提示词指南

Linux下Docker安装配置

	from urllib import request

	with request.urlopen('https://api.douban.com/v2/book/2129650') as f:
	data = f.read()
	print('Status:', f.status, f.reason)
	for k, v in f.getheaders():
	print('%s: %s' % (k, v))
	print('Data:', data.decode('utf-8'))

	Status: 200 OK
	Server: nginx
	Date: Tue, 26 May 2015 10:02:27 GMT
	Content-Type: application/json; charset=utf-8
	Content-Length: 2049
	Connection: close
	Expires: Sun, 1 Jan 2006 01:00:00 GMT
	Pragma: no-cache
	Cache-Control: must-revalidate, no-cache, private
	X-DAE-Node: pidl1
	Data: {"rating":{"max":10,"numRaters":16,"average":"7.4","min":0},"subtitle":"","author":[" 廖雪峰编著 "],"pubdate":"2007-6",...}

	from urllib import request

	req = request.Request('http://www.douban.com/')
	req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
	with request.urlopen(req) as f:
	print('Status:', f.status, f.reason)
	for k, v in f.getheaders():
	print('%s: %s' % (k, v))
	print('Data:', f.read().decode('utf-8'))

	...
	<meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0">
	<meta name="format-detection" content="telephone=no">
	<link rel="apple-touch-icon" sizes="57x57" href="http://img4.douban.com/pics/cardkit/launcher/57.png" />
	...

	from urllib import request, parse

	print('Login to weibo.cn...')
	email = input('Email:')
	passwd = input('Password:')
	login_data = parse.urlencode([('username', email),
	('password', passwd),
	('entry', 'mweibo'),
	('client_id', ''),
	('savestate', '1'),
	('ec', ''),
	('pagerefer', 'https://passport.weibo.cn/signin/welcome?entry=mweibo&r=http%3A%2F%2Fm.weibo.cn%2F')
	])

	req = request.Request('https://passport.weibo.cn/sso/login')
	req.add_header('Origin', 'https://passport.weibo.cn')
	req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
	req.add_header('Referer', 'https://passport.weibo.cn/signin/login?entry=mweibo&res=wel&wm=3349&r=http%3A%2F%2Fm.weibo.cn%2F')

	with request.urlopen(req, data=login_data.encode('utf-8')) as f:
	print('Status:', f.status, f.reason)
	for k, v in f.getheaders():
	print('%s: %s' % (k, v))
	print('Data:', f.read().decode('utf-8'))

	Status: 200 OK
	Server: nginx/1.2.0
	...
	Set-Cookie: SSOLoginState=1432620126; path=/; domain=weibo.cn
	...
	Data: {"retcode":20000000,"msg":"","data":{...,"uid":"1658384301"}}

	...
	Data: {"retcode":50011015,"msg":"\u7528\u6237\u540d\u6216\u5bc6\u7801\u9519\u8bef","data":{"username":"[email protected]","errline":536}}

	proxy_handler = urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'})
	proxy_auth_handler = urllib.request.ProxyBasicAuthHandler()
	proxy_auth_handler.add_password('realm', 'host', 'username', 'password')
	opener = urllib.request.build_opener(proxy_handler, proxy_auth_handler)
	with opener.open('http://www.example.com/login.html') as f:
	pass

	from urllib import request

	def fetch_data(url):
	return ''

	# 测试
	URL = 'https://api.weatherapi.com/v1/current.json?key=b4e8f86b44654e6b86885330242207&q=Beijing&aqi=no'
	data = fetch_data(URL)
	print(data)
	assert data['location']['name'] == 'Beijing'
	print('ok')