pickle 模块¶

pickle 模块是 Python 标准库中的一个模块，用于将 Python 对象序列化（序列化是指将对象转换为字节流）和反序列化（反序列化是指将字节流还原为对象）。pickle 模块非常有用，当你需要将 Python 对象保存到文件中，或者通过网络传输对象时，可以使用它。

1. 基本概念¶

1.1 序列化（Pickling）¶

序列化是指将 Python 对象转换为字节流的过程，这样可以将对象保存到文件中或通过网络传输。

import pickle

data = {'key': 'value', 'number': 42}

# 序列化对象
with open('data.pkl', 'wb') as f:
    pickle.dump(data, f)

1.2 反序列化（Unpickling）¶

反序列化是指将字节流转换回 Python 对象的过程。

import pickle

# 反序列化对象
with open('data.pkl', 'rb') as f:
    data = pickle.load(f)

print(data)

2. `pickle` 模块的主要方法¶

2.1 `pickle.dump(obj, file, protocol=None)`¶

将 obj 序列化到 file 中。protocol 参数可以指定使用的序列化协议，默认为最高协议。

obj: 要序列化的对象。
file: 一个打开的文件对象，必须以二进制写模式 (wb) 打开。
protocol: 可选的协议版本，默认为 None，表示使用最高版本。

import pickle

data = {'key': 'value'}
with open('data.pkl', 'wb') as f:
    pickle.dump(data, f, protocol=pickle.HIGHEST_PROTOCOL)

2.2 `pickle.load(file)`¶

从 file 中读取字节流并反序列化为 Python 对象。

file: 一个打开的文件对象，必须以二进制读模式 (rb) 打开。

import pickle

with open('data.pkl', 'rb') as f:
    data = pickle.load(f)

print(data)

2.3 `pickle.dumps(obj, protocol=None)`¶

将 obj 序列化为字节流，而不是直接写入文件。

obj: 要序列化的对象。
protocol: 可选的协议版本。

import pickle

data = {'key': 'value'}
byte_data = pickle.dumps(data, protocol=pickle.HIGHEST_PROTOCOL)
print(byte_data)

2.4 `pickle.loads(bytes)`¶

将字节流 bytes 反序列化为 Python 对象。

bytes: 一个字节流，通常来自于 dumps()。

import pickle

byte_data = b'\x80\x04\x95\x17\x00\x00\x00\x00\x00\x00\x00}\x94\x8c\x03key\x94\x8c\x05value\x94s.'
data = pickle.loads(byte_data)
print(data)

3. `pickle` 的协议版本¶

pickle 提供了不同的协议版本，每个版本在序列化对象时会采用不同的方式：

协议版本 0: 原始的文本协议，支持较旧的 Python 版本。
协议版本 1: 较早的二进制协议。
协议版本 2: Python 2.3 引入，支持新式类（new-style classes）。
协议版本 3: Python 3.x 的默认协议，支持字节对象。
协议版本 4: Python 3.4 引入，支持大型对象和更高效的序列化。
协议版本 5: Python 3.8 引入，支持out-of-band数据和其他优化。

通常情况下，使用 protocol=pickle.HIGHEST_PROTOCOL 来选择最高的协议版本，以获得最佳的性能和兼容性。

4. 自定义对象的序列化和反序列化¶

如果你需要序列化自定义类的对象，pickle 可以处理这类情况，但有时你需要自定义序列化和反序列化的过程。通过在类中定义 __reduce__() 或 __getstate__() 和 __setstate__() 方法，你可以控制如何序列化和反序列化对象。

class MyClass:
    def __init__(self, value):
        self.value = value

    def __getstate__(self):
        # 返回要序列化的状态
        state = self.__dict__.copy()
        return state

    def __setstate__(self, state):
        # 从反序列化状态中恢复对象
        self.__dict__.update(state)

import pickle

obj = MyClass(10)
with open('myclass.pkl', 'wb') as f:
    pickle.dump(obj, f)

with open('myclass.pkl', 'rb') as f:
    loaded_obj = pickle.load(f)

print(loaded_obj.value)

5. `pickle` 模块的限制¶

安全性: pickle 反序列化任意对象时存在安全风险，因为它会执行对象中的任意代码。因此，除非信任数据来源，否则不要反序列化不可信的数据。
跨版本兼容性: pickle 序列化的格式可能在不同 Python 版本之间不完全兼容。
效率: 对于大型数据集，pickle 的性能可能不如其他序列化格式，如 JSON 或 MessagePack。

6. 使用场景¶

持久化存储: 将 Python 对象保存到文件中，以便在后续运行中恢复使用。
进程间通信: 在多进程环境中，通过 pickle 序列化对象以便在不同进程之间传输数据。
网络传输: 在网络中传输对象时，可以先序列化为字节流，然后通过网络传输，再反序列化为对象。

7. `pickle` 与其他序列化方式的比较¶

JSON: 适合人类可读的简单数据结构，主要用于文本数据。JSON 不支持复杂对象的序列化，如自定义类实例。
msgpack: 二进制序列化格式，速度和效率都优于 pickle，但支持的 Python 数据类型较少。
cPickle: pickle 的 C 实现版本，在 Python 2 中使用。Python 3 中已经合并到 pickle 模块中，自动选择最快的实现。

8. 总结¶

pickle 模块是 Python 中用于对象序列化和反序列化的强大工具。虽然存在一些限制，如安全性和跨版本兼容性，但它在需要持久化复杂数据结构或在进程间传递数据时非常有用。掌握 pickle 的使用，可以让你的 Python 程序在数据存储和传输方面更加灵活。

pickle 模块¶

1. 基本概念¶

1.1 序列化（Pickling）¶

1.2 反序列化（Unpickling）¶

2. pickle 模块的主要方法¶

2.1 pickle.dump(obj, file, protocol=None)¶

2.2 pickle.load(file)¶

2.3 pickle.dumps(obj, protocol=None)¶

2.4 pickle.loads(bytes)¶

3. pickle 的协议版本¶