模块 E：风险价值（The Value-at-Risk）

Abyssus abyssum invocat（深渊召唤深渊）。 —— 拉丁谚语

导读：本模块要解决的问题

Taleb 用一句拉丁谚语开场，定下了全篇的批判基调。这一模块讲的是 VAR（value-at-risk），但它更像一份针对 VAR 的检方陈词。Taleb 把它和组合保险（portfolio insurance）并列：这是一种只有在少数人使用时才有效的方法，一个悖论是，它只有在不成功时才能成功，一旦人人都用，它就会反噬自己。

VAR 的定义很干净：在给定置信水平、并假设已知支配各成分的过程的前提下，估计一个组合的最大损失。对一个已经熟悉协方差矩阵、二次型、厚尾分布、自反性（reflexivity）的读者，本模块的计算层面没有新东西，VAR 就是一个二次型 $E^{T} ME$ 。值得停下来体会的是 Taleb 把七条批评一条条钉在 VAR 的假设上，而这七条几乎逐一对应着前面各章的理论命题：

VAR 把复杂风险压缩成一个不带标准误的数字，最大的危害是让从未接触过市场风险的人也能对风险发表意见，并把无辜的投资者哄进虚假的安全感里。
它依赖市场同方差（homoskedasticity）和正态性，于是 $σ t$ 法则、相关性稳定、联合尾部可建模，全都在压力下失效。
它忽略流动性，而流动性在某些市场里就是最大的风险。
它的普遍使用本身制造了一个动态系统：人人持有相似组合、按相同规则去杠杆，触发雪球效应。
它有严重的计算问题：和的 VAR 不等于 VAR 之和，大矩阵会因估计误差失去半正定性。

笔记沿原文顺序展开：定义与批判总论、三个简化算例（无分散、交叉头寸、两个可选交易）、七个问题、结论、以及 VAR 的矩阵公式。每处把 Taleb 的批评接回它对应的理论命题。

一、定义与批判总论

VAR 在银行和企业里越来越流行，既用于风险资本配置，也用于风险调整后资本回报的量化。把整体敞口披露成一个简单数字，对多数公司董事会成员和监管者很有吸引力，他们中许多人并不了解金融市场风险的细微与复杂，很容易被"科学"工具打动。

Taleb 的核心批评是：把复杂因子压缩成一个数，不只损害度量的精度，还可能扭曲到使度量本身失去价值，甚至滑向江湖骗术。操作者面对的是不稳定的参数，不像物理科学里那样，所以风险度量本就该被理解成一个模糊、不精确的估计。VAR 最恶劣的效果，是让从没有过市场风险敞口的人也能对此发表意见。

简言之，VAR 不能用来说："在 99.7%（或 90% 之类）的把握下，你下个月的损失预计不超过 100 万美元。" 无辜的司库或公司高管会以为自己在听一个类似空难统计那样的科学统计。但它可以用来说："在 66% 的准确度下，假设你不试图清算头寸、且其他类似公司没有相同的组合，你预计在未来两小时内损失不超过 10 万美元。"

理论映射：VAR 是一个分布的分位数，而分位数恰好坐落在分布最不可知的地方

把这段批判接回统计，VAR 在数学上就是损益分布的一个分位数： $VAR_{α} = - in f {x : P (L \leq x) \geq α}$ 。问题在于，分位数越往尾部（ $α \to 1$ ），它越依赖分布尾部的形状，而尾部恰恰是样本最稀、估计方差最大、模型假设最不可靠的区域。Taleb 那句"它不能用来说 99.7% 把握"的精确含义是：高置信分位数的标准误极大，把一个带巨大估计不确定性的数字报成一个确定的硬数，本身就是误导。他刻意把例子降到 1 个标准差（66%），正是因为只有在分布主体附近，正态近似和参数估计才勉强可信。这与第 15 章"风险在尾部、而尾部最不可知"是同一句话。

二、三个简化算例

这一系列例子里，VAR 对应 1 个标准差的风险（66% 的时间），而非常见文献里的 3 个标准差。设交易台面对四个工具：USD-DEM、USD-JPY、国债期货（CBOT）、SP500 指数期货（CME）。数据为 1995 年 5 月 23 日。九个月历史年化波动率：USD-DEM 12.1%、USD-JPY 12.3%、Bonds 8.5%、SP500 9.33%。波动率定义为对数收益标准差（不加权）。九个月相关性矩阵：

	USD-DEM	USD-JPY	Bonds	SP500
USD-DEM	1.00	0.74	0.30	0.23
USD-JPY	0.74	1.00	0.26	0.30
Bonds	0.30	0.26	1.00	0.45
SP500	0.23	0.30	0.45	1.00

例 1：无分散

交易员有 2000 万美元面值额度，决定做多四个工具之一，但不知道选哪个。净敞口按市场一个日标准差定义，理论上（除非分布改变）代表 67% 的事件，也接近组合的日均摆动。要看更宽的事件（如 3 个标准差），乘以 3 即可，给出 99.7% 置信下的最大可能损失。但该交易员的管理层听说过厚尾，宁愿用 1 个标准差作为比较基准。

头寸	仓位（百万美元）	净敞口
USD-DEM	20	$153,700
USD-JPY	20	$156,240
Bonds	20	$107,971
SP500	20	$118,514

（2000 万国债敞口对应 182 张合约：20,000,000 / (100,000 面值 × 1.10 价格)；2000 万 SP500 对应 77 张：20,000,000 / (523 × 500)。）

例 2：交叉头寸

交易员想做交叉头寸，能否从正相关里获益？由于美元/马克与美元/日元变动的高相关（0.74），交叉货币头寸的 VAR 只相当于单一美元/马克头寸风险的 71%。

头寸	仓位（百万美元）	净敞口
USD-DEM	5	$38,425
USD-JPY	-5	$39,060
VAR		$27,944

分散显然起作用了。既然没用满总额度，他可以分散地把剩余 1000 万也用上：

头寸	仓位（百万美元）	净敞口
USD-DEM	5	$38,425
USD-JPY	-5	$39,060
Bonds	5	$26,993
SP500	5	$29,628
VAR		$54,868

整体头寸相比例 1 大幅下降：1 个标准差的在险资本，至少只有最初任一单一头寸风险的一半。

例 3：两个可选交易

USD-DEM 与 USD-FRF 是两个高度相关的货币（相关性 0.97），波动率分别 12.1%、11%。交易员可以做其中之一，或做交叉。交叉头寸风险：

头寸	仓位（百万美元）	净敞口
USD-DEM	-80	$614,798
USD-FRF	80	$558,908
VAR		$154,080

交叉头寸的风险只相当于各腿的 25%。同样的头寸也可以通过合成出来的 DEM-FRF 货币对（波动率 3.03%）直接算：80（百万等价）× 对应净敞口 = $154,080，两种算法一致。

理论映射：VAR 就是二次型，分散收益就是相关性折扣

三个例子的全部数值，都来自同一个二次型 $VAR = E^{T} ME$ 。例 2 里 long DEM、short JPY，净敞口向量 $E = (38425, - 39060, 0, 0)$ ，代入相关性矩阵：

VAR^{2} = E_{1}^{2} + E_{2}^{2} + 2 ρ_{12} E_{1} E_{2}

因为 $E_{2} < 0$ （short）而 $ρ_{12} = 0.74 > 0$ ，交叉项 $2 ρ_{12} E_{1} E_{2}$ 为负，把 VAR 压到 27,944，约为单腿的 71%。这正是第 12 章 stacking、以及 Module D 相关性三角的同一套数学：合成 DEM-FRF 波动率 3.03% 由余弦定理 $v^{2} = σ_{DM}^{2} + σ_{FF}^{2} - 2 ρ σ_{DM} σ_{FF}$ 给出， $12. 1^{2} + 1 1^{2} - 2 \times 0.97 \times 12.1 \times 11 \approx 3.03$ 。所以"交叉头寸风险只有 25%"和"用合成对直接算"必然一致，二者是同一个二次型的两种写法。VAR 在平静期作为短期对冲工具的价值正在于此，它能快速量化相关性折扣。Taleb 不否认这一层，他否认的是把这个二次型当成"最坏情况风险"的度量。

★风险管理规则

VAR 是一个出色的短期对冲工具，但绝不是一个风险管理装置。

三、七个问题

问题 1：假设市场同方差

模型严重依赖市场的"正态性"（价格变动服从钟形曲线，这极其罕见）。厚尾和高峰，是任何深刻理解模型弱点的期权交易员都熟悉的。正态假设对某些应用（如平值期权定价）也许可接受，但用来度量"最坏情况"风险就不合适，因为风险在尾部，而尾部恰是分布最不可知的地方。

假设市场波动率不恒定， $σ t$ 法则就不再成立。结果：在异方差市场里，方差不是时间跨度的倍数。一周（5 天）美元波动率不等于一天的 $5 = 2.23$ 倍。此外相关性也不恒定，多个资产的"联合尾部"更难建模。

理论映射： $t$ 失效与 variance ratio

这一条直接接回 Module A 的 $t$ 法则和它的前提。 $σ t$ 成立的充要条件是增量独立同分布、方差有限且恒定。一旦波动率本身随机（异方差），方差不再与时间线性，variance ratio $\frac{Var ( r _{t, t + k} )}{k \cdot Var ( r _{t, t + 1} )} \neq = 1$ ，把日 VAR 乘 $k$ 推月度 VAR 就系统性出错。更深的问题是尾部：VAR 取的是高分位数，而正态分布的分位数随 $α$ 增长得太慢，厚尾分布（如幂律、学生 t）的真实分位数远在正态预测之外。所以正态 VAR 在分布主体附近还凑合，越往尾部偏得越离谱，而 VAR 的全部卖点恰恰在尾部。

问题 2：流动性风险

VAR 完全不考虑流动性可能是某些市场最大的风险。在一些不够成熟的工具里，流动性成本与市场风险变得难以区分。大宗证券的抛售，尤其在被迫清算时，可能导致整个市场崩溃。Taleb 补一句很锋利的话：不关心组合清算价值的人，才不必担心它的市场价格风险。

理论映射：VAR 假设价格外生，而大额清算让价格内生

这一条接回第 4 章。VAR 把价格过程当成外生给定的随机过程，对冲者是价格的接受者。但大额头寸在清算时会移动价格，价格变成头寸的内生函数。被迫清算时，bid/offer 不是固定的，深度会蒸发，实际成交价远低于标记价。VAR 用历史波动率度量的是"小额、可立即成交"假设下的风险，它结构性地漏掉了清算冲击这一项。

问题 3：压力期参数的行为

VAR 的精髓是相关性和分散。这些技术的广泛使用，导致在市场极度承压时两者同时崩溃。通常，资产间的低相关在压力事件后趋于上升，从而削弱分散效应。1994 年"债市崩盘"是个严重例子，所有债券市场一起沉没。同样，高相关会在这类事件面前骤降、有时甚至转负，跨期限对冲失效，收益率曲线在高波动时常出现无法预测的变形。

多资产风险模型与压力测试方法之间有显著冲突：前者依赖已知关系，后者扎根于一个无统计的世界。只靠前者会在不确定时严重误导，只靠后者会让公司无法交易。

理论映射：相关性是状态依赖的，压力下矩阵 $Σ$ 整体漂移

这一条接回第 6、22 章的"有偏资产"与状态依赖相关性。VAR 用一个静态相关性矩阵 $M$ ，但真实相关性在恐慌中跳变：分散性头寸赖以成立的低相关上升（分散消失），对冲赖以成立的高相关下降甚至转负（对冲失效）。这是一个 common-jump（共同跳跃）结构，平时扩散主导、相关性低，恐慌时跳跃主导、相关性趋 1。用一个测出来的 $M$ 喂进二次型，等于假设矩阵在你最需要它的时候保持不变，而它恰恰在那时整体漂移。Taleb 指出的多资产模型与压力测试的张力，本质是参数化（依赖 $M$ ）与非参数化（无分布假设）之间的取舍。

问题 4：普遍使用的危险

假设人人都用 VAR，而市场突然移动。VAR 成为基准这件事本身会导致雪球效应。链条如下：在一个少数同质杠杆玩家的简化世界里，所有人因分散方案（最优组合）最终持有近乎相同的组合构成与权重 ${A, B, C}$ 。假设 A 价格下跌、波动率上升，为维持恒定 VAR，权重需向下调整，于是操作者要卖出一些 B 和 C。这些数量虽小，却足以把价格推低，让操作者们竞相奔向近乎破产的状态，并推升成分间的相关性，以意想不到的方式削弱分散效应。若某个权重为负、操作者在"对冲"，同样的效应也会发生。

★风险管理规则

市场会走那条让最多可能的对冲者落空的路径。

理论映射：VAR 制造了一个反身性反馈环

这是全模块最深的一条，接回 Soros 式的自反性（reflexivity）。VAR 模型假设价格过程外生，但当所有人按同一个 VAR 规则行动时，"为维持恒定 VAR 而去杠杆"这个动作本身成了价格过程的一部分：A 跌 → A 波动率升、组合 VAR 升 → 集体减仓 B、C → B、C 跌、相关性升 → 分散效应消失、VAR 进一步升 → 再减仓。这是一个正反馈环，把外生模型变成内生动态系统。Taleb 那句"对冲只在不被群体识别为对冲时才有效"是精确的博弈论陈述：一旦对冲行为成为共同知识、人人在相似情形下被迫相似行动，价格就会朝挤兑这些对冲者的方向走。组合保险在 1987 年的崩溃正是这个机制。

问题 5：计算问题

大公司不会把所有头寸集中在一处便于及时取回。漏掉一个简单头寸就可能造成足以使度量失效的扭曲。VAR 的算法要求把所有单个头寸合并，而非把各部门各分支的 VAR 相加。再次强调，和的 VAR 不是 VAR 之和。尽管操作者很老练，多数活跃公司仍存在数据采集滞后，复杂的运营让他们用一层层净额金字塔来记账，而 VAR 要求处理每个分支的每一个头寸，对庞大网络的机构并不容易。

另一个问题是工具太多时矩阵变大，估计协方差会产生舍入和估计误差，误差累积会使矩阵无法保持正定，这让大矩阵不可行。

理论映射：VAR 不次可加，大矩阵丢失半正定性

"和的 VAR 不是 VAR 之和"是 VAR 一个著名的理论缺陷：VAR 一般不满足次可加性（subadditivity），即可能出现 $VAR (A + B) > VAR (A) + VAR (B)$ ，分散反而"增加"了度量出的风险，这违反一个理性风险度量该有的公理（Artzner 等人的相干风险度量框架正是为修这个缺陷而提出 Expected Shortfall）。这也是为什么必须合并底层头寸、在分布层面算，而不能把部门 VAR 相加。后半段则接回 Module D 的 Gram 矩阵：相关性矩阵必须半正定才能对应一个真实的点配置，但当维数很大、协方差靠有限样本估计时，估计误差累积会让矩阵出现负特征值，失去半正定性，二次型 $E^{T} ME$ 可能算出负数（相当于负方差），VAR 无法计算。这是高维相关性估计的根本困难。

问题 6：什么是波动率

到目前为止，波动率一直被当作某种可观测的物理现象在讨论。但它不稳定，交易员必须考虑建模及由此产生的全部问题：用哪个波动率？隐含还是历史？哪个时间跨度？

理论映射：波动率不可观测，VAR 的输入本身是个模型输出

VAR 把波动率当成一个已知常数代进二次型，但波动率是潜变量，不可直接观测。历史波动率依赖窗口和加权，隐含波动率依赖期权市场和模型，两者在压力下分道扬镳。所以 VAR 的输入 $σ$ 本身就是一个带估计误差的模型输出，把它当确定参数会低估总不确定性，这是"参数风险叠加在模型风险之上"。

问题 7：想都别想用在衍生品上

本书主题反复强调，期权头寸因其多维非线性，参数之间的相互作用极难处理。高阶矩也表明，无法用一个简化的希腊字母去追踪复杂组合的风险。

理论映射：线性 VAR 抓不住凸性与高阶矩

VAR 的二次型 $E^{T} ME$ 本质是一个**线性（delta-normal）**近似：它假设组合价值是各风险因子的线性函数，损益因此正态。但期权是非线性的，gamma、vega、volga、cross-gamma 让损益分布偏斜、带厚尾，且这些敏感度本身随状态变化。一个 delta 中性但 short gamma 的组合，线性 VAR 会报出接近零的风险，而它在大移动下会巨亏。要把期权塞进 VAR，至少需要 delta-gamma 展开（二阶 Cornish-Fisher 调整）甚至全重定价 Monte Carlo，但即便如此也抓不全高阶矩和参数的联合不稳定。这正是 Taleb 全书的立场：复杂期权组合的风险无法被压缩成一个数。

四、结论与公式

许多努力正在修正这套系统的固有缺陷，最有希望的结果通常是用于压力测试的非参数方法，目前还不在公开领域。

VAR 的计算从相关性矩阵（而非更简单的协方差）入手，因为软件市场的惯例如此。设 $E$ 为净敞口 = 仓位（面值）× 1 个日标准差（把期权定价用的年化标准差除以 $252$ 得到）， $M$ 为 $m \times m$ 相关性矩阵，VAR 为 $n$ 个标准差下的在险金额：

VAR = n E^{T} M E

四工具情形下，波动率向量 $V = (σ_{1}, σ_{2}, σ_{3}, σ_{4})^{T}$ 、仓位 $P = (p_{1}, p_{2}, p_{3}, p_{4})^{T}$ ，净敞口为

E = \frac{1}{252} (p_{1} σ_{1}, p_{2} σ_{2}, p_{3} σ_{3}, p_{4} σ_{4})^{T}

相关性矩阵下三角是上三角的镜像（ $ρ_{12} = ρ_{21}$ ）。最后把 $E^{T} (1, 4)$ 乘 $M (4, 4)$ 得 $(1, 4)$ ，再乘 $E (4, 1)$ 得一个数，开方即 VAR。

理论映射：VAR 公式与 Module D、第22章是同一个二次型

这个 $E^{T} ME$ 与第 22 章多资产 total delta 的 $\nabla^{T} Σ\nabla$ 、Module D 的 Gram 矩阵是同一个对象，只是把对数收益向量换成净敞口向量、把协方差换成"波动率缩放后的相关性"。 $\frac{1}{252}$ 是把年化波动率折算成日波动率（ $t$ 法则的应用，也因此继承了它的全部脆弱）。整篇模块的批评可以浓缩成一句：这个二次型在数学上完全正确，问题全在它的三个输入， $E$ （线性化漏掉凸性）、 $M$ （压力下漂移、且大矩阵丢失半正定）、 $252$ （异方差下 $t$ 失效），以及它作为基准被普遍使用后制造的反身性反馈。

五、本模块综述：理论与实务的对照

Taleb 的实务命题	对应的理论命题
VAR 是出色的短期对冲工具，不是风险管理装置	二次型 $E^{T} ME$ 在平静期度量相关性折扣
不能报成"99.7% 不亏超过 X"	高分位数标准误极大，尾部最不可知
交叉头寸风险只有单腿的 71%/25%	交叉项 $2 ρ E_{i} E_{j}$ ；余弦定理合成波动率
同方差假设、 $σ t$ 失效	异方差下 variance ratio ≠ 1，厚尾分位数远超正态
忽略流动性	VAR 假设价格外生，大额清算让价格内生
压力期相关性同时崩溃	状态依赖相关性、common jump， $M$ 整体漂移
普遍使用触发雪球	反身性正反馈环，外生模型变内生动态系统
市场走挤兑最多对冲者的路径	对冲只在不被群体识别时有效（博弈论）
和的 VAR ≠ VAR 之和	VAR 不满足次可加性；相干风险度量需 ES
大矩阵不可行	估计误差累积使相关性矩阵丢失半正定
波动率是什么？	波动率不可观测，输入本身是带误差的模型输出
别用在衍生品上	delta-normal 线性近似抓不住凸性与高阶矩

核心观点

第一，VAR 在计算上无可指摘，它就是一个二次型，与多资产 delta、相关性三角同源。它在平静期作为快速量化相关性折扣的短期对冲工具是有用的。

第二，VAR 的全部问题都在它的假设，而非它的代数。同方差、相关性稳定、价格外生、波动率可观测、损益线性，这五个假设在压力期一并失效，而压力期正是风险管理唯一真正要紧的时刻。

第三，VAR 最危险之处是它的普遍使用制造了反身性。当所有人按同一规则去杠杆，模型本身成为价格动态的一部分，触发挤兑。对冲只在不被群体识别时有效。

第四，VAR 不能用于衍生品。线性近似抓不住凸性和高阶矩，复杂期权组合的风险无法被压缩成一个不带标准误的数字。

一句话收束

本模块最该记住的一句：VAR 的代数 $E^{T} ME$ 是对的，错的是把它当成最坏情况的科学度量——它假设市场同方差、相关性稳定、价格外生、损益线性，而这五条恰好在你最需要风险数字的压力时刻一起失效，更糟的是，所有人都用它这件事本身就会把市场推向挤兑对冲者的那条路。

模块 E：风险价值（The Value-at-Risk）

导读：本模块要解决的问题

一、定义与批判总论

理论映射：VAR 是一个分布的分位数，而分位数恰好坐落在分布最不可知的地方

二、三个简化算例

例 1：无分散

例 2：交叉头寸

例 3：两个可选交易

理论映射：VAR 就是二次型，分散收益就是相关性折扣

三、七个问题

问题 1：假设市场同方差

理论映射：t​ 失效与 variance ratio

问题 2：流动性风险

理论映射：VAR 假设价格外生，而大额清算让价格内生

问题 3：压力期参数的行为

理论映射：相关性是状态依赖的，压力下矩阵 Σ 整体漂移

问题 4：普遍使用的危险

理论映射：VAR 制造了一个反身性反馈环

问题 5：计算问题

理论映射：VAR 不次可加，大矩阵丢失半正定性

问题 6：什么是波动率

理论映射：波动率不可观测，VAR 的输入本身是个模型输出

问题 7：想都别想用在衍生品上

理论映射：线性 VAR 抓不住凸性与高阶矩

四、结论与公式

理论映射：VAR 公式与 Module D、第22章是同一个二次型

五、本模块综述：理论与实务的对照

核心观点

一句话收束

理论映射： $t$ 失效与 variance ratio

理论映射：相关性是状态依赖的，压力下矩阵 $Σ$ 整体漂移