python百万级并发，python做接口绝对并发

2023-06-28 12:55:00 • 用户投稿

让计算机程序并发的运行是一个经常被讨论的话题，今天我想讨论一下Python下的各种并发方式。

并发方式

线程（Thread）

多线程几乎是每一个程序猿在使用每一种语言时都会首先想到用于解决并发的工具（JS程序员请回避），使用多线程可以有效的利用CPU资源（Python例外）。然而多线程所带来的程序的复杂度也不可避免，尤其是对竞争资源的同步问题。

然而在python中由于使用了全局解释锁（GIL）的原因，代码并不能同时在多核上并发的运行，也就是说，Python的多线程不能并发，很多人会发现使用多线程来改进自己的Python代码后，程序的运行效率却下降了，这是多么蛋疼的一件事呀！如果想了解更多细节，推荐阅读这篇文章。实际上使用多线程的编程模型是很困难的，程序员很容易犯错，这并不是程序员的错误，因为并行思维是反人类的，我们大多数人的思维是串行（精神分裂不讨论），而且冯诺依曼设计的计算机架构也是以顺序执行为基础的。所以如果你总是不能把你的多线程程序搞定，恭喜你，你是个思维正常的程序猿：）

Python提供两组线程的接口，一组是thread模块，提供基础的，低**（Low Level）接口，使用Function作为线程的运行体。还有一组是threading模块，提供更容易使用的基于对象的接口（类似于Java），可以继承Thread对象来实现线程，还提供了其它一些线程相关的对象，例如Timer，Lock

使用thread模块的例子

import thread

def worker():

 """thread worker function"""

 print 'Worker'

thread.start_new_thread(worker)

使用threading模块的例子

import threading

def worker():

 """thread worker function"""

 print 'Worker'

t = threading.Thread(target=worker)

t.start()

或者Java Style

import threading

class worker(threading.Thread):

 def __init__(self):

 pass

 def run():

 """thread worker function"""

 print 'Worker'

 

t = worker()

t.start()

进程（Process）

由于前文提到的全局解释锁的问题，Python下比较好的并行方式是使用多进程，这样可以非常有效的使用CPU资源，并实现真正意义上的并发。当然，进程的开销比线程要大，也就是说如果你要创建数量惊人的并发进程的话，需要考虑一下你的机器是不是有一颗强大的心。

Python的mutliprocess模块和threading具有类似的接口。

from multiprocessing import Process



def worker():

 """thread worker function"""

 print 'Worker'

p = Process(target=worker)

p.start()

p.join()

由于线程共享相同的地址空间和内存，所以线程之间的通信是非常容易的，然而进程之间的通信就要复杂一些了。常见的进程间通信有，管道，消息队列，Socket接口（TCP/IP）等等。

Python的mutliprocess模块提供了封装好的管道和队列，可以方便的在进程间传递消息。

Python进程间的同步使用锁，这一点喝线程是一样的。

另外，Python还提供了进程池Pool对象，可以方便的管理和控制线程。

远程分布式主机（Distributed Node）

随着大数据时代的到临，摩尔定理在单机上似乎已经失去了效果，数据的计算和处理需要分布式的计算机网络来运行，程序并行的运行在多个主机节点上，已经是现在的软件架构所必需考虑的问题。

远程主机间的进程间通信有几种常见的方式

TCP／IPTCP／IP是所有远程通信的基础，然而API比较低级别，使用起来比较繁琐，所以一般不会考虑
远程方法调用 Remote Function CallRPC是早期的远程进程间通信的手段。Python下有一个开源的实现RPyC
远程对象 Remote Object远程对象是更高级别的封装，程序可以想操作本地对象一样去操作一个远程对象在本地的代理。远程对象最广为使用的规范CORBA，CORBA最大的好处是可以在不同语言和平台中进行通信。当让不用的语言和平台还有一些各自的远程对象实现，例如Java的RMI，MS的DCOMPython的开源实现，有许多对远程对象的支持
- Dopy
- Fnorb （CORBA）
- ICE
- omniORB （CORBA）
- Pyro
- YAMI
消息队列 Message Queue比起RPC或者远程对象，消息是一种更为灵活的通信手段，常见的支持Python接口的消息机制有
- RabbitMQ
- ZeroMQ
- Kafka
- AWS SQS ＋ BOTO

在远程主机上执行并发和本地的多进程并没有非常大的差异，都需要解决进程间通信的问题。当然对远程进程的管理和协调比起本地要复杂。

Python下有许多开源的框架来支持分布式的并发，提供有效的管理手段包括：

Celery Celery是一个非常成熟的Python分布式框架，可以在分布式的系统中，异步的执行任务，并提供有效的管理和调度功能。参考这里
SCOOPSCOOP （Scalable COncurrent Operations in Python）提供简单易用的分布式调用接口，使用Future接口来进行并发。
Dispy相比起Celery和SCOOP，Dispy提供更为轻量级的分布式并行服务
PP PP （Parallel Python）是另外一个轻量级的Python并行服务，参考这里
AsyncoroAsyncoro是另一个利用Generator实现分布式并发的Python框架，

当然还有许多其它的系统，我没有一一列出

另外，许多的分布式系统多提供了对Python接口的支持，例如Spark

伪线程（Pseudo－Thread）

还有一种并发手段并不常见，我们可以称之为伪线程，就是看上去像是线程，使用的接口类似线程接口，但是实际使用非线程的方式，对应的线程开销也不存的。

greenlet greenlet提供轻量级的coroutines来支持进程内的并发。greenlet是Stackless的一个副产品，使用tasklet来支持一中被称之为微线程（mirco－thread）的技术，这里是一个使用greenlet的伪线程的例子

from greenlet import greenlet



def test1():

 print 12

 gr2.switch()

 print 34

 

def test2():

 print 56

 gr1.switch()

 print 78

 

gr1 = greenlet(test1)

gr2 = greenlet(test2)

gr1.switch()

运行以上程序得到如下结果：

伪线程gr1 switch会打印12，然后调用gr2 switch得到56，然后switch回到gr1，打印34，然后伪线程gr1结束，程序退出，所以78永远不会被打印。通过这个例子我们可以看出，使用伪线程，我们可以有效的控制程序的执行流程，但是伪线程并不存在真正意义上的并发。

eventlet，gevent和concurence都是基于greenlet提供并发的。

eventlet

eventlet是一个提供网络调用并发的Python库，使用者可以以非阻塞的方式来调用阻塞的IO操作。

import eventlet

from eventlet.green import urllib2



urls = ['http://www.google.com', 'http://www.example.com', 'http://www.python.org']



def fetch(url):

 return urllib2.urlopen(url).read()



pool = eventlet.GreenPool()



for body in pool.imap(fetch, urls):

 print("got body", len(body))

执行结果如下

('got body', 17629)

('got body', 1270)

('got body', 46949)

eventlet为了支持generator的操作对urllib2做了修改，接口和urllib2是一致的。这里的GreenPool和Python的Pool接口一致。

gevent

gevent和eventlet类似，关于它们的差异大家可以参考这篇文章

import gevent

from gevent import socket

urls = ['www.google.com', 'www.example.com', 'www.python.org']

jobs = [gevent.spawn(socket.gethostbyname, url) for url in urls]

gevent.joinall(jobs, timeout=2)



print [job.value for job in jobs]

执行结果如下：

['206.169.145.226', '93.184.216.34', '23.235.39.223']

concurence

concurence是另外一个利用greenlet提供网络并发的开源库，我没有用过，大家可以自己尝试一下。

实战运用

通常需要用到并发的场合有两种，一种是计算密集型，也就是说你的程序需要大量的CPU资源;另一种是IO密集型，程序可能有大量的读写操作，包括读写文件，收发网络请求等等。

计算密集型

对应计算密集型的应用，我们选用著名的蒙特卡洛算法来计算PI值。基本原理如下

蒙特卡洛算法利用统计学原理来模拟计算圆周率，在一个正方形中，一个随机的点落在1/4圆的区域（红色点）的概率与其面积成正比。也就该概率 p ＝ Pi ＊ R＊R ／4 ： R＊ R ，其中R是正方形的边长，圆的半径。也就是说该概率是圆周率的1/4, 利用这个结论，只要我们模拟出点落在四分之一圆上的概率就可以知道圆周率了，为了得到这个概率，我们可以通过大量的实验，也就是生成大量的点，看看这个点在哪个区域，然后统计出结果。

基本算法如下：

from math import hypot

from random import random



def test(tries):

 return sum(hypot(random(), random()) < 1 for _ in range(tries))

这里test方法做了n（tries）次试验，返回落在四分之一圆中的点的个数。判断方法是检查该点到圆心的距离，如果小于R则是在圆上。

通过大量的并发，我们可以快速的运行多次试验，试验的次数越多，结果越接近真实的圆周率。

这里给出不同并发方法的程序代码

非并发我们先在单线程，但进程运行，看看性能如何

from math import hypot

from random import random

import eventlet

import time



def test(tries):

 return sum(hypot(random(), random()) < 1 for _ in range(tries))



def calcPi(nbFutures, tries):

 ts = time.time()

 result = map(test, [tries] * nbFutures)

 

 ret = 4. * sum(result) / float(nbFutures * tries)

 span = time.time() - ts

 print "time spend ", span

 return ret



print calcPi(3000,4000)

多线程 thread为了使用线程池，我们用multiprocessing的dummy包，它是对多线程的一个封装。注意这里代码虽然一个字的没有提到线程，但它千真万确是多线程。通过测试我们开（jing）心（ya）的发现，果然不出所料，当线程池为1是，它的运行结果和没有并发时一样，当我们把线程池数字设置为5时，耗时几乎是没有并发的2倍，我的测试数据从5秒到9秒。所以对于计算密集型的任务，还是放弃多线程吧。

from multiprocessing.dummy import Pool



from math import hypot

from random import random

import time



def test(tries):

 return sum(hypot(random(), random()) < 1 for _ in range(tries))



def calcPi(nbFutures, tries):

 ts = time.time()

 p = Pool(1)

 result = p.map(test, [tries] * nbFutures)

 ret = 4. * sum(result) / float(nbFutures * tries)

 span = time.time() - ts

 print "time spend ", span

 return ret



if __name__ == '__main__':

 p = Pool()

 print("pi = {}".format(calcPi(3000, 4000)))

多进程 multiprocess理论上对于计算密集型的任务，使用多进程并发比较合适，在以下的例子中，进程池的规模设置为5，修改进程池的大小可以看到对结果的影响，当进程池设置为1时，和多线程的结果所需的时间类似，因为这时候并不存在并发；当设置为2时，响应时间有了明显的改进，是之前没有并发的一半；然而继续扩大进程池对性能影响并不大，甚至有所下降，也许我的Apple Air的CPU只有两个核？当心，如果你设置一个非常大的进程池，你会遇到 Resource temporarily unavailable的错误，系统并不能支持创建太多的进程，毕竟资源是有限的。

from multiprocessing import Pool



from math import hypot

from random import random

import time



def test(tries):

 return sum(hypot(random(), random()) < 1 for _ in range(tries))



def calcPi(nbFutures, tries):

 ts = time.time()

 p = Pool(5)

 result = p.map(test, [tries] * nbFutures)

 ret = 4. * sum(result) / float(nbFutures * tries)

 span = time.time() - ts

 print "time spend ", span

 return ret



if __name__ == '__main__':

 print("pi = {}".format(calcPi(3000, 4000)))

gevent （伪线程）不论是gevent还是eventlet，因为不存在实际的并发，响应时间和没有并发区别不大，这个和测试结果一致。

import gevent

from math import hypot

from random import random

import time



def test(tries):

 return sum(hypot(random(), random()) < 1 for _ in range(tries))



def calcPi(nbFutures, tries):

 ts = time.time()

 jobs = [gevent.spawn(test, t) for t in [tries] * nbFutures]

 gevent.joinall(jobs, timeout=2)

 ret = 4. * sum([job.value for job in jobs]) / float(nbFutures * tries)

 span = time.time() - ts

 print "time spend ", span

 return ret



print calcPi(3000,4000)

eventlet （伪线程）

from math import hypot

from random import random

import eventlet

import time



def test(tries):

 return sum(hypot(random(), random()) < 1 for _ in range(tries))



def calcPi(nbFutures, tries):

 ts = time.time()

 pool = eventlet.GreenPool()

 result = pool.imap(test, [tries] * nbFutures)

 

 ret = 4. * sum(result) / float(nbFutures * tries)

 span = time.time() - ts

 print "time spend ", span

 return ret



print calcPi(3000,4000)

SCOOP

SCOOP中的Future接口符合PEP-3148的定义，也就是在Python3中提供的Future接口。

在缺省的SCOOP配置环境下（单机，4个Worker），并发的性能有提高，但是不如两个进程池配置的多进程。

from math import hypot

from random import random

from scoop import futures



import time



def test(tries):

 return sum(hypot(random(), random()) < 1 for _ in range(tries))



def calcPi(nbFutures, tries):

 ts = time.time()

 expr = futures.map(test, [tries] * nbFutures)

 ret = 4. * sum(expr) / float(nbFutures * tries)

 span = time.time() - ts

 print "time spend ", span

 return ret



if __name__ == "__main__":

 print("pi = {}".format(calcPi(3000, 4000)))

Celery

任务代码

from celery import Celery



from math import hypot

from random import random

 

app = Celery('tasks', backend='amqp', broker='amqp://guest@localhost//')

app.conf.CELERY_RESULT_BACKEND = 'db+sqlite:///results.sqlite'

 

@app.task

def test(tries):

 return sum(hypot(random(), random()) < 1 for _ in range(tries))

客户端代码

from celery import group

from tasks import test



import time



def calcPi(nbFutures, tries):

 ts = time.time()

 result = group(test.s(tries) for i in xrange(nbFutures))().get()

 

 ret = 4. * sum(result) / float(nbFutures * tries)

 span = time.time() - ts

 print "time spend ", span

 return ret



print calcPi(3000, 4000)

使用Celery做并发的测试结果出乎意料（环境是单机，4frefork的并发，消息broker是rabbitMQ），是所有测试用例里最糟糕的，响应时间是没有并发的5～6倍。这也许是因为控制协调的开销太大。对于这样的计算任务，Celery也许不是一个好的选择。

asyncoroAsyncoro的测试结果和非并发保持一致。

import asyncoro



from math import hypot

from random import random

import time



def test(tries):

 yield sum(hypot(random(), random()) < 1 for _ in range(tries))





def calcPi(nbFutures, tries):

 ts = time.time()

 coros = [ asyncoro.Coro(test,t) for t in [tries] * nbFutures]

 ret = 4. * sum([job.value() for job in coros]) / float(nbFutures * tries)

 span = time.time() - ts

 print "time spend ", span

 return ret



print calcPi(3000,4000)

IO密集型

IO密集型的任务是另一种常见的用例，例如网络WEB服务器就是一个例子，每秒钟能处理多少个请求时WEB服务器的重要指标。

我们就以网页读取作为最简单的例子

from math import hypot

import time

import urllib2



urls = ['http://www.google.com', 'http://www.example.com', 'http://www.python.org']



def test(url):

 return urllib2.urlopen(url).read()



def testIO(nbFutures):

 ts = time.time()

 map(test, urls * nbFutures)



 span = time.time() - ts

 print "time spend ", span



testIO(10)

在不同并发库下的代码，由于比较类似，我就不一一列出。大家可以参考计算密集型中代码做参考。

通过测试我们可以发现，对于IO密集型的任务，使用多线程，或者是多进程都可以有效的提高程序的效率，而使用伪线程性能提升非常显著，eventlet比没有并发的情况下，响应时间从9秒提高到0.03秒。同时eventlet／gevent提供了非阻塞的异步调用模式，非常方便。这里推荐使用线程或者伪线程，因为在响应时间类似的情况下，线程和伪线程消耗的资源更少。

本文来自投稿，不代表展天博客立场，如若转载，请注明出处：https://www.me900.com/327261.html

用户投稿

子域名查询，子域名查询

《子域名查询：深入探索与实用指南》一、子域名查询的基本概念子域名查询，也许可以理解为是在浩瀚的互联网海洋中，去探寻那些隐藏在主域名之下的各个分支域名的过程。就好像在一个巨大的家族树中，去寻找那些分支家族的成员一样。它就像是一把钥匙，能够帮助我们打开隐藏在主域名背后的各种信息之门。我们知道，一个完整的域名通常由多个部分组成，比如主域名、子域名等。主域名就像是家…

2025-09-21
用户投稿

阿里p7什么水平，《阿里P7：最佳实践指南》

停更了挺长一段时间，首先说声抱歉，去年发生了很多事情，公众号的内容一直很难做到亲力亲为，当然也有一部分是自己的原因。还在的小伙伴，非常感谢，虽然你可能只是没有取消关注的习惯。恢复更新之后，先和大家聊聊晋升的事儿，很幸运，今年首次参加答辩就通过了 6 升 7 评审，顺利晋升到 P7。说来也在阿里三年了，努力了很多年，盼望了很多年，很有必要做个总结。本文既是对过…

2023-05-11
用户投稿

大话水浒神骑为什么林冲被称为豹子头

林冲的绰号是“豹子头”，这个绰号又是什么意思呢？林冲是模仿张飞写的，而张飞豹头环眼，燕颔虎须，像豹子的头一样，林冲的相貌和他很像，所以有了“豹子头”的绰号。这一点，林冲出场时，作者也说了。那官人生的豹头环眼，燕颔虎须，八尺长短身材，三十四五年纪，口里道：“这个师父，端的非凡，使的好器械！” 林冲真的是个能忍的人吗？并不是，其实他也是个脾气暴躁的人。这一点…

2023-06-05
用户投稿

有些网页打不开，网页打不开的原因

不知道小伙伴们，有没有遇到这样的问题，网络明明没问题，QQ等工具也可以正常登陆，就是有一部分网页打不开！打不开一般就俩原因： 1.网站服务器出问题了，网页访问不了！ 2.DNS问题，访问网页，错误代码：DNS_PROBE_FINISHED_NXDOMAIN 第一个问题我们没办法解决，但是第二个可以啊，我们只需要修改一下DNS即可访问该网页了哦！ NO.1 …

2023-07-06
用户投稿

公式编辑器 word，公式编辑器word不响应怎么办

《公式编辑器与Word：携手打造高效文档》在当今数字化的时代，文档的编辑与排版变得愈发重要。而公式编辑器与Word这两个工具，在文档制作过程中扮演着不可或缺的角色。它们仿佛是一对默契的搭档，携手为我们打造出精美的文档。一、公式编辑器的奥秘公式编辑器，可能是许多人在处理学术文档或科学研究时都会用到的工具。它就像是一个魔法盒子，能够将复杂的数学公式、化学方…

2025-09-28
ps合购是两个人都能玩么，ps5入坑指南

距离次世代主机首发至今也有半年了，再加上前段时间国行PS5正式发售，各种考试结束暑假也即将来临，相信有很多新玩家终于想要迈进次世代的大门了。不过面对新主机高昂的价格，以及主机的各种版本，新手入坑还是得谨慎一些。本期视频我们整理出了一些新手入坑PS5一定会遇到的问题，并分享一些技巧，尽量减少新玩家的入坑费用，让各位花最少的钱玩最多的游戏，那么闲话少说，就让我们…

2023-07-10 • 用户投稿
天然水晶首饰(天然水晶价格表)

#头条创作挑战赛# 为什么古人喜欢带玉和翡翠？原因不仅是因为漂亮，而是可以让人精神焕发，俗话说：“人养玉、玉养人”，因为玉石中有多重天然元素，这些对我们都有着一定的好处，这也是慈禧太后最爱翡翠和玉石原因。当然除了玉和翡翠还有很多天然的宝石或水晶可以让我们变得更加迷人。 15、玫瑰石英古埃及人认为玫瑰石英可以通过减轻压力和促进新细胞生成来帮助对抗皮肤老化。这…

2023-05-24 • 用户投稿
电脑城u盘，电脑bios调整分辨率

一台戴尔3881商务台式电脑，这台电脑是10代i3，自带win10家庭版，当时同事有需求要变更为win7系统，购买的时候，就在电脑城买电脑的时候直接给装上了win7。拿回来之后，安装各种管控软件的时候，发现居然无法上网，具体表现为可以ping通网关，却无法ping通DNS，而且无法驱动声卡。无奈想变更回win10，没想到所谓商务电脑都是坑，正常情况下居然无法…

2023-06-23 • 用户投稿
战争之影天赋,战争之影属性装备重置

?今天让我们一起看一下新的六星快速复活特种干员傀影，他的原型来自于《剧院魅影》中的“Phantom魅影”：明日方舟：“傀影”原型和元素考据，魅影、双生与黑猫。今天就根据各种数据，对傀影进行一下详细测评，希望能帮助大家对他有一个初步的了解。傀影：六星快速复活特种六星快活特种：傀影面板数据：让我们用傀影的面板数据，来对比一下同样是…

2023-07-07 • 用户投稿
辐射新维加斯整合包，辐射新维加斯mod合集

《辐射：新维加斯》的27GB大修MOD《辐射：边境》现已开放下载。这是《辐射：新维加斯》规模最大的资料片MOD。根据开发团队表示，《辐射：边境》将会为《辐射：新维加斯》带来全新的游戏体验。MOD中将会提供3条任务主线，50多个支线任务，优化画质和战斗机制。比如，游戏现在会有BOSS战、空中狗斗和空袭战，还加入了竞技场战斗。开发团队将《辐射：边境》形容为非…

2023-07-10 • 用户投稿
用户投稿

java解析json字符串，解析json格式的字符串

我们经常要解析JSON，比如下面一段JSON，是某个HTTP请求的返回： { “status”: “200”, “message”: “success” } 我们想取它的message字段，该怎么操作呢？不幸的是，java标准库并没有提供解析JSON的功能，但是，我们可以使用很多的第三方库来处理这个问题。假设我们有一个类Response，对应前面的JSON：…

2023-06-28
紫米type c数据线评测,typec数据线哪个好

近期紫米品牌在数据线业务上脑洞大开，把枯燥无味的充电玩成了新花样，千篇一律捅上就充电已经挡不住紫米的步伐，由此一款Type-C夜视灯光编织线降生，一款可以玩的数据线，从此撸线党也终于找到了另外一个理由，撸线不只是充电而是玩。一、外观篇黑色的包装盒，中间部分就是本款夜视灯光编织线，长度1M。下面印有这款数据线重要的几个特征，耐磨编织线夜视光环磁吸配件 …

2023-07-12 • 用户投稿