09.10.2024 更新于：21.05.2026

专用服务器

4 4 min

Python 多进程：并行执行完整技术指南

Python的multiprocessing模块通过生成独立的操作系统级进程来实现真正的并行执行，每个进程都有自己的内存空间和Python解释器——完全绕过了全局解释器锁（GIL）。与共享单一解释器状态并被GIL序列化的线程不同，独立进程可以在所有可用CPU核心上并发运行，使multiprocessing成为处理CPU密集型工作负载（如数值计算、图像处理和机器学习推理）的正确工具。

本指南涵盖了从Python进程模型的基础架构到高级模式的所有内容，包括共享内存、进程池、进程间通信，以及大多数教程完全忽略的生产级陷阱。

为什么GIL使多线程不足以处理CPU密集型工作

全局解释器锁是一个保护CPython内部对象引用计数的互斥锁。在任意时刻，只有一个线程可以持有GIL并执行Python字节码。对于I/O密集型任务——网络请求、数据库查询、文件读取——线程仍然有用，因为GIL在阻塞I/O系统调用期间会被释放。然而，对于纯计算任务，线程会持续争夺GIL，即使在64核机器上也无法实现真正的并行。

Multiprocessing完全绕过了这个问题。每个生成的进程都是一个完整的、独立的操作系统进程，拥有自己的CPython解释器、堆和GIL。操作系统调度器将这些进程分配到物理核心上，实现真正的并行。

GIL的影响：一个具体示例

考虑一个执行1000万次整数加法的函数。在双核机器上用两个线程运行它，所需的实际时间与单线程运行大致相同——有时由于GIL争用开销甚至更长。而用两个独立进程运行则会将实际时间减半。

Multiprocessing vs. 多线程 vs. Asyncio

了解何时使用每种并发模型与了解如何使用它们同样重要。

特性	`multiprocessing`	`threading`	`asyncio`
并行类型	真正并行（操作系统进程）	伪并行（受GIL限制）	协作式（单线程）
绕过GIL	是	否	否
内存模型	每个进程独立	共享	共享
最佳使用场景	CPU密集型任务	I/O密集型 + 遗留库	I/O密集型，高并发
通信开销	高（需要IPC）	低（共享内存）	低（协程）
故障隔离	强（崩溃隔离）	弱（一个线程崩溃可能导致全部崩溃）	弱
启动开销	高	低	极低
典型内存使用	高	低	极低

经验法则：对CPU密集型工作使用`multiprocessing`，对I/O密集型工作使用`threading`或`asyncio`。如果两者都需要，`concurrent.futures`提供了一个统一的接口来覆盖两种模型。

核心架构：Python如何生成进程

Python支持三种用于创建子进程的启动方法，选择哪种方法会产生重大影响：

`fork`（Linux/macOS上的默认值）：使用写时复制技术复制父进程内存。速度快，但可能导致多线程父进程或持有锁的C扩展出现问题。
`spawn`（Windows上的默认值，所有平台均可用）：启动一个全新的Python解释器并导入模块。速度较慢但更安全。要求所有代码都可导入，这就是为什么`if __name__ == "__main__":`守卫是强制性的。
`forkserver`：一个专用的服务器进程按需fork。避免了fork安全问题，同时对于许多短生命周期进程比纯spawn更高效。

在入口点顶部明确设置启动方法：

“`python

import multiprocessing

if __name__ == "__main__":

multiprocessing.set_start_method("spawn")

“`

不理解启动方法是生产multiprocessing代码中最常见的平台特定隐性bug来源之一。

导入模块

“`python

import multiprocessing

from multiprocessing import Process, Pool, Queue, Lock, Pipe, Value, Array

“`

关键原语及其作用

原语	用途
`Process`	生成单个独立进程
`Pool`	管理可复用的工作进程池
`Queue`	用于IPC的线程和进程安全FIFO队列
`Pipe`	两个进程之间的快速双端点连接
`Lock` / `RLock`	共享资源的互斥锁
`Value` / `Array`	简单类型的共享内存
`Manager`	复杂共享状态的代理对象
`Event` / `Semaphore`	同步原语

示例1：生成单个进程

`Process`类是基本构建块，直接映射到操作系统进程。

“`python

from multiprocessing import Process

def compute_square(n):

result = n ** 2

print(f"Square of {n} is {result}")

if __name__ == "__main__":

process = Process(target=compute_square, args=(7,))

process.start()

process.join()

print(f"Process exit code: {process.exitcode}")

“`

关键属性和方法：

`target`：在子进程中执行的可调用对象。
`args` / `kwargs`：传递给目标函数的参数。
`start()`：fork或spawn子进程。
`join(timeout=None)`：阻塞调用者直到进程终止。始终调用`join()`以防止僵尸进程。
`exitcode`：正常退出时为`0`，被信号杀死时为负值，进程引发未处理异常时为正值。
`is_alive()`：如果进程仍在运行则返回`True`。
`terminate()` / `kill()`：分别发送`SIGTERM` / `SIGKILL`。请谨慎使用——资源可能无法被清理。

关键陷阱：如果生成进程后不调用`join()`，子进程在Unix系统上会变成僵尸进程，在父进程退出之前会一直占用进程表条目。

示例2：使用`multiprocessing.Pool`的进程池

对于将同一函数应用于多个数据项的工作负载，`Pool`比手动管理单个`Process`实例效率高得多。它维护固定数量的工作进程并在它们之间分配工作。

“`python

from multiprocessing import Pool

import os

def process_chunk(data_chunk):

worker_pid = os.getpid()

result = sum(x ** 2 for x in data_chunk)

return result, worker_pid

if __name__ == "__main__":

dataset = [range(i, i + 1000) for i in range(0, 10000, 1000)]

with Pool(processes=4) as pool:

results = pool.map(process_chunk, dataset)

for result, pid in results:

print(f"Worker PID {pid} computed sum: {result}")

“`

Pool方法比较

方法	是否阻塞	返回值	最适合
`pool.map(f, iterable)`	是	结果列表	简单并行映射
`pool.imap(f, iterable)`	惰性	迭代器	大型可迭代对象，内存效率
`pool.imap_unordered(f, iterable)`	惰性	迭代器（无序）	顺序无关紧要时
`pool.starmap(f, iterable)`	是	结果列表	具有多个参数的函数
`pool.apply_async(f, args)`	否	`AsyncResult`	即发即忘或回调
`pool.map_async(f, iterable)`	否	`AsyncResult`	非阻塞批量提交

陷阱——池大小选择：将`processes`设置为高于`os.cpu_count()`对于CPU密集型任务很少能提高吞吐量，反而会增加上下文切换开销。一个常见的启发式方法是`processes = os.cpu_count() – 1`，为操作系统和主进程留出一个核心。

陷阱——序列化：主进程和工作进程之间传递的所有参数和返回值都使用`pickle`序列化。无法被pickle的对象（lambda函数、在其他函数内部定义的嵌套函数、文件句柄、数据库连接）将引发`PicklingError`。对模块级函数使用`pool.starmap`，或重构代码以避免传递不可pickle的对象。

示例3：使用Queue进行进程间通信

`multiprocessing.Queue`是建立在管道和锁之上的进程安全FIFO队列，是实现生产者-消费者模式的标准机制。

“`python

from multiprocessing import Process, Queue

import time

def producer(queue, items):

for item in items:

queue.put(item)

print(f"[Producer] Enqueued: {item}")

time.sleep(0.01)

queue.put(None) # Sentinel value to signal completion

def consumer(queue):

while True:

item = queue.get()

if item is None:

print("[Consumer] Received sentinel, shutting down.")

break

print(f"[Consumer] Processing: {item}")

if __name__ == "__main__":

q = Queue(maxsize=10) # Bounded queue prevents unbounded memory growth

data = list(range(20))

p = Process(target=producer, args=(q, data))

c = Process(target=consumer, args=(q,))

p.start()

c.start()

p.join()

c.join()

“`

关键设计说明：永远不要使用`queue.empty()`来判断是否停止消费。在multiprocessing上下文中，`empty()`检查不可靠——在检查和随后的`get()`之间存在竞态条件。始终使用哨兵值（如`None`或专用的`STOP`对象）来表示生产已完成。

示例4：使用Value和Array的共享内存

当进程需要共享简单的数值状态而不需要`Queue`的开销时，`multiprocessing.Value`和`multiprocessing.Array`提供了由`ctypes`支持的直接共享内存。

“`python

from multiprocessing import Process, Value, Array, Lock

import ctypes

def increment_counter(counter, lock, iterations):

for _ in range(iterations):

with lock:

counter.value += 1

if __name__ == "__main__":

counter = Value(ctypes.c_int, 0)

lock = Lock()

processes = [

Process(target=increment_counter, args=(counter, lock, 1000))

for _ in range(4)

]

for p in processes:

p.start()

for p in processes:

p.join()

print(f"Final counter value: {counter.value}") # Expected: 4000

“`

如果没有锁，由于读-修改-写周期上的竞态条件，最终值将不可预测地小于4000。始终使用`Lock`保护共享的可变状态。

对于复杂的共享数据结构（列表、字典、自定义对象），使用`multiprocessing.Manager`，它创建一个管理对象的服务器进程并提供代理访问。与原始共享内存相比，其代价是每次访问的延迟更高。

示例5：使用Pipe进行两进程直接通信

`multiprocessing.Pipe`创建一对连接对象。对于恰好两个进程之间的点对点通信，它比`Queue`更快，因为开销更少。

“`python

from multiprocessing import Process, Pipe

def worker(conn):

data = conn.recv()

result = [x ** 3 for x in data]

conn.send(result)

conn.close()

if __name__ == "__main__":

parent_conn, child_conn = Pipe()

p = Process(target=worker, args=(child_conn,))

p.start()

parent_conn.send([1, 2, 3, 4, 5])

result = parent_conn.recv()

p.join()

print(f"Cubed values: {result}")

“`

当涉及多个生产者或消费者时使用`Queue`。当恰好两个进程直接交换数据时使用`Pipe`。

示例6：使用`concurrent.futures.ProcessPoolExecutor`

对于现代Python代码（3.2+），`concurrent.futures.ProcessPoolExecutor`在`multiprocessing.Pool`之上提供了更高级、更简洁的API，并与`Future`对象自然集成。

“`python

from concurrent.futures import ProcessPoolExecutor, as_completed

def heavy_computation(n):

return sum(i * i for i in range(n))

if __name__ == "__main__":

inputs = [106, 2 * 106, 3 * 106, 4 * 106]

with ProcessPoolExecutor(max_workers=4) as executor:

futures = {executor.submit(heavy_computation, n): n for n in inputs}

for future in as_completed(futures):

n = futures[future]

try:

result = future.result()

print(f"Input {n}: result = {result}")

except Exception as e:

print(f"Input {n} raised an exception: {e}")

“`

`as_completed()`按完成顺序而非提交顺序产出future，当任务持续时间差异显著时非常有用。

生产陷阱与高级注意事项

守护进程

在调用`start()`之前设置`process.daemon = True`会使子进程成为守护进程。当父进程退出时，守护进程会自动终止，防止产生孤立的后台工作进程。但是，守护进程本身不能生成子进程。

工作进程中的异常处理

在使用`Pool.map()`时，工作函数内部引发的异常不会自动传播到父进程——它们会在调用返回值上的`result()`时或`map()`返回时重新引发。使用`apply_async`时，必须显式调用`AsyncResult`上的`.get()`来暴露异常。

“`python

from multiprocessing import Pool

def risky_function(x):

if x == 3:

raise ValueError(f"Cannot process value {x}")

return x * 10

if __name__ == "__main__":

with Pool(2) as pool:

try:

results = pool.map(risky_function, [1, 2, 3, 4])

except ValueError as e:

print(f"Caught worker exception: {e}")

“`

内存消耗

每个生成的进程都会复制父进程的内存占用（在`fork`上）或重新导入所有模块（在`spawn`上）。对于消耗2 GB RAM的父进程，在基于`fork`的系统上生成8个工作进程，在写时复制生效之前看起来会消耗16 GB。在扩展工作进程数量之前，请仔细分析内存使用情况。

避免全局状态

父进程中的全局变量在`spawn`之后不与子进程共享。在子进程中对全局变量所做的更改对父进程和其他子进程不可见。如果依赖全局配置，请将其作为参数显式传递或使用`Manager`。

为Pool效率分块

`pool.map()`接受一个`chunksize`参数。对于大型可迭代对象，设置适当的块大小可以通过每次pickle/unpickle周期批量处理多个项目来减少IPC开销：

“`python

results = pool.map(process_item, large_list, chunksize=500)

“`

为Multiprocessing工作负载选择合适的硬件

任何multiprocessing应用程序的性能上限最终由可用物理CPU核心数决定。在4核机器上拥有32个工作进程的进程池不会比4个工作进程的池性能更好——由于上下文切换开销，它反而会更慢。

对于CPU密集型Python应用程序的生产部署——数据管道、科学计算、批量ML推理——您需要专用计算资源。独立服务器配备高核心数处理器，消除了共享环境中固有的资源争用，使每个工作进程都能无竞争地访问物理核心。

对于开发、预发布或中等工作负载，适当规格的VPS托管实例提供了一个经济高效的环境，您可以根据可用vCPU调整工作进程数量。如果需要控制面板来管理Python应用程序环境，带cPanel的VPS可简化部署和进程监控。

对于Python multiprocessing与基于CUDA的库（如PyTorch或CuPy）结合使用的GPU加速工作负载，GPU托管提供了必要的硬件，可以在GPU计算管道旁边运行并行CPU预处理。

在部署通过HTTPS公开multiprocessing支持的API的应用程序时，为服务器配置正确的SSL证书是生产安全的不可妥协的基准。

实用决策矩阵

使用以下清单确定适合您工作负载的正确方法：

直接使用`multiprocessing.Process`的情况：

您有少量固定的异构任务
每个任务都有独特的生命周期并需要单独监控
您需要对进程属性（守护进程、名称、亲和性）进行细粒度控制

使用`multiprocessing.Pool`或`ProcessPoolExecutor`的情况：

您将同一函数应用于多个数据项
您需要自动工作进程生命周期管理
您需要以最少的样板代码收集结果

使用`multiprocessing.Queue`的情况：

您有生产者-消费者架构
涉及多个生产者或消费者
您需要通过`maxsize`进行背压控制

使用`multiprocessing.Pipe`的情况：

恰好两个进程直接通信
每条消息的延迟比灵活性更重要

使用`multiprocessing.Value` / `Array`的情况：

您在多个工作进程之间共享简单的数值状态
访问频率高且Manager代理开销不可接受

使用`multiprocessing.Manager`的情况：

您需要共享复杂的Python对象（列表、字典）
一致性比原始访问速度更重要

完全避免multiprocessing的情况：

瓶颈是I/O（网络、磁盘）——使用`asyncio`或`threading`
任务生命周期非常短（< 1 ms）——进程生成开销将占主导地位
代码库严重依赖不可pickle的对象

常见问题

问：为什么在Python multiprocessing脚本中必须使用`if __name__ == "__main__":`？

在Windows上以及使用`spawn`启动方法时，Python会在每个子进程中重新导入主模块。如果没有`__main__`守卫，子进程将尝试递归地生成自己的子进程，导致无限fork炸弹。此守卫在Windows上是强制性的，在所有平台上都是最佳实践。

问：`pool.map()`和`pool.imap()`有什么区别？

`pool.map()`立即消耗整个可迭代对象，序列化所有项目，将它们分发给工作进程，并阻塞直到所有结果收集到列表中。`pool.imap()`是惰性的——它增量提交项目并返回迭代器，使其对非常大的数据集具有内存效率。当输入可迭代对象无法舒适地放入内存时，使用`imap`。

问：Python multiprocessing进程可以共享数据库连接吗？

不能。数据库连接不可pickle，无法在进程之间传递。每个工作进程必须建立自己的连接。在工作函数内部（而非父进程中）使用连接池库（如`SQLAlchemy`配合`pool_pre_ping=True`）进行初始化。

问：如何在multiprocessing池中优雅地处理键盘中断（Ctrl+C）？

将`pool.map()`调用包装在`try/except KeyboardInterrupt`块中，并在`except`子句中调用`pool.terminate()`，然后调用`pool.join()`。此外，如果希望在父进程被杀死时工作进程自动终止，可以将工作进程设置为守护进程。如果没有显式处理，在父进程被中断后，工作进程可能会继续作为孤立进程运行。

问：在macOS上使用`fork`时Python multiprocessing是否安全？

自Python 3.8起，macOS上的默认启动方法从`fork`更改为`spawn`，原因正是`fork`与macOS的Objective-C运行时以及某些C扩展（包括NumPy和PyTorch使用的扩展）结合会导致死锁。在macOS上始终使用`spawn`或`forkserver`，并明确设置启动方法，而不是依赖在不同操作系统上有所不同的默认值。

所有托管服务节省

Python 多进程：并行执行完整技术指南

为什么GIL使多线程不足以处理CPU密集型工作

GIL的影响：一个具体示例

Multiprocessing vs. 多线程 vs. Asyncio

核心架构：Python如何生成进程

导入模块

关键原语及其作用

示例1：生成单个进程

示例2：使用`multiprocessing.Pool`的进程池

Pool方法比较

示例3：使用Queue进行进程间通信

示例4：使用Value和Array的共享内存

示例5：使用Pipe进行两进程直接通信

示例6：使用`concurrent.futures.ProcessPoolExecutor`

生产陷阱与高级注意事项

守护进程

工作进程中的异常处理

内存消耗

避免全局状态

为Pool效率分块

为Multiprocessing工作负载选择合适的硬件

实用决策矩阵

常见问题

所有托管服务节省

相关常见问题解答