高性能异步爬虫

目的:在爬虫中使用异步实现高性能的数据爬取操作。

异步爬虫的方式:

多进程、多线程:
优点:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。
缺点:无法无限制的开启多线程或者多进程。
进程池、线程池:
优点:降低系统对进程或者线程创建和销毁的一个频率,从而很好降低系统的开销。
缺点:池中线程或进程的数量是有上限的。

单线程+异步协程:

event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。
coroutine:协程对象,我们可以讲协程对象注册到事件循环中,它会被事件循环调用。可以使用async关键字来定义一个方法,这个方法在调用时不会立即被执行,而是返回一个协程对象。
task:任务。它是对协程对象的进一步封装,包含了任务的各个状态。
future:代表将来执行或还没有执行的任务,实际上和task没有本质区别。
async:定义一个协程。
await:用来挂起阻塞方法的执行。

协程
协程不是计算机提供,程序员人为创造。
协程可以被称为微线程,是一种用户态内的上下文切换技术,简而言之,其实就是通过一个线程实现代码块相互切换执行。例如:

def func1():
	print(1)
	……
	print(2)
	
def finc2():
	print(3)
	……
	print(4)

func1()
func2()

greenlet实现协程

from greenlet import greenlet


def func1():
    print(1)  # 第一步:输出 1
    gr2.switch()  # 第三步:切换到 func2 函数
    print(2)  # 第六步:输出 2
    gr2.switch()  # 第七步:切换到func2函数,从上一步执行的位置继续向后执行


def func2():
    print(3)
    gr1.switch()  # 第四步:输出 3
    print(4)  # 第五步:切换到func1 函数,从上一次执行的位置继续向后执行
    gr1.switch()  # 第八步:输出 4


gr1 = greenlet(func1)
gr2 = greenlet(func2)

gr1.switch()  # 第一步:去执行func1函数

yield关键字

def func1():
    yield 1
    yield from func2()
    yield 2


def func2():
    yield 3
    yield 4


f1 = func1()
for item in f1:
    print(item)

asyncio
python3.4及之后版本
遇到IO阻塞会自动切换

import asyncio


@asyncio.coroutine # 原本是个普通函数 加上coroutine可以理解为协程函数
def func1():
    print(1)
    yield from asyncio.sleep(2)  # 遇到IO耗时操作,自动化切换到tasks中的其他任务
    print(2)


@asyncio.coroutine
def func2():
    print(3)
    yield from asyncio.sleep(2)  # 遇到IO耗时操作,自动化切换到tasks中的其他任务
    print(4)


tasks = [
    asyncio.ensure_future(func1()),
    asyncio.ensure_future(func2())
]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))# 可以同时执行两个协程函数

async & await关键字

import asyncio



async def func1():
    print(1)
    yield from asyncio.sleep(2)  # 遇到IO耗时操作,自动化切换到tasks中的其他任务
    print(2)



async def func2():
    print(3)
    yield from asyncio.sleep(2)  # 遇到IO耗时操作,自动化切换到tasks中的其他任务
    print(4)


tasks = [
    asyncio.ensure_future(func1()),
    asyncio.ensure_future(func2())
]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))# 可以同时执行两个协程函数

普通方式下载图片

import requests


def download_image(url):
    print('开始下载:', url)
    # 发送网络请求,下载图片
    response = requests.get(url)
    print('下载完成')
    # 图片保存到本地文件
    file_name = url.rsplist('_')[-1]
    with open(file_name, mode='wb') as file_object:
        file_object.write(response.content)


if __name__ == "__main__":
    url_list = [
        'https://pic.netbian.com/uploads/allimg/220112/235701-16420030210840.jpg',
        'https://pic.netbian.com/uploads/allimg/220112/001807-16419178875bb3.jpg',
        'https://pic.netbian.com/uploads/allimg/220111/002539-16418319399169.jpg'
    ]
    for item in url_list:
        download_image(item)

通过协程下载图片

import asyncio

import aiohttp
import requests


async def fetch(session, url):
    print('发送请求:', url)
    async with session.get(url, verify_ssl=False) as response:
        content = await response.content.read()
        file_name = url.rsplist('_')[-1]
        with open(file_name, mode='wb') as file_object:
            file_object.write(content)
        print('下载完成', url)


async def main():
    async with aiohttp.ClientSession() as session:
        url_list = [
            'https://pic.netbian.com/uploads/allimg/220112/235701-16420030210840.jpg',
            'https://pic.netbian.com/uploads/allimg/220112/001807-16419178875bb3.jpg',
            'https://pic.netbian.com/uploads/allimg/220111/002539-16418319399169.jpg'
        ]
        tasks = [asyncio.create_task(fetch(session, url)) for url in url_list]
        await asyncio.wait(tasks)


if __name__ == "__main__":
    asyncio.run(main())


版权声明:本文为weixin_52016055原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/weixin_52016055/article/details/122489724