图文详情

一、一次失败的预报

前天4月10日，纠结中发了一个强对流预警，预测环渤海有强对流大风加持冷空气大风的危险（详见《昔日重来：大风沙尘还有强对流？——又一次纠结的预报》）。结果证明：这是一次很失败的预警。相当于空喊了一次“狼来了”：警示环渤海可能会出现类似21年4.15那样的飑线强对流，然而并没有。

2021年4月15日飑线强对流天气雷达组合反射率动画

2023年4月10日20时至11日01时雷达探测组合反射率动画（中央气象台）

2023年4月10日20时至11日01时卫星探测红外动画（中央气象台）

在环渤海内的大部分区域，几乎没有出现强对流，有一些弱的降雨云，大部分雨都化作了风没多少掉到海面。把雷达图放大了看，发现这些弱云雨中裹挟着两个空间尺度约在20公里，生命史在半小时左右的小个儿强雷暴，位置在辽东半岛和山东半岛中间，对应海岛测站出现了最大11级的阵风，这，就是全部了。距离原来担心的，类似21年4.15的长飑线相差甚远。

2023年4月11日1时36分雷达组合反射率和1-2时8级以上阵风

再放大一点，用更原始更精细的雷达拼图资料看得更清楚些，如下图：

2023年4月10日20时至11日01时雷达探测组合反射率动画（中央气象台、大气探测中心）

如果说这次预报失败还能有什么值得安慰的事情的话，可能就是“没出危险天气也算是好事”了。

作为类似事情经历过很多的一个老预报员，很难说此时的心态到底是懊恼多一些，还是无怨无悔多一些。

二、什么样的预报才是好的预报？

答案并不简单你可能会说：废话，准就是好的，不准就是不好啊。——这是当然的。但这个问题其实远没有你想的那样简单，在气象学中，这看似简单的问题“如何科学的检验天气预报”实际上已经发展为一门分支学科了。下面我从易到难举几个最简单的例子，让您略微感受这个不为人知的难题所在。

1、单点单次简单预报

这个最简单，比如预报一个点某段时间内有雨或无雨的问题。用科学规范的语言描述大致如下：

预报：北京未来24小时有无雨

检验：以北京气象观测站（不是庞大的北京市）未来24小时是否观测到降雨量为检验依据。

结果一：预报有雨测站有雨——有雨预报准确

结果二：测站有雨测站无雨——降雨空报

结果三：预报无雨测站有雨——降雨漏报

结果四：预报无雨测站无雨——无雨预报准确

好预报坏预报很容易看出来对吧，那么假如我抛出一个很简单问题：“问北京天气预报的准确率有多少？”单次评价结果回答不了，这就要多次预报统计了。

2、单点多次简单预报

比1复杂些了，多次预报，但仍是简单问题：有无雨。

预报：北京100天内的24小时有无雨。假设：100天内预报下雨15天，实际下雨10天。

请问天气预报准确是多少呢？15%？10%？肯定不是，66.7%？

答案是不知道，因为并未给出预报下雨的15天与实际下雨的10天之间的对应关系。那好，我们假设预报下雨的15天中有8天实际下雨，预报无雨的85天中有有2天下雨，那天气预报准确率是8/10=80%吗（下雨的10天报准了8天）？

哪有这么简单呢，谁来定义天气预报准确啊？上面的答案仅仅是从下雨天数的角度来考虑的，我们姑且称为“有雨-预报准确率”，有这个角度就还有其它角度，那么类似的，我们起码可以有下面这些：

有雨-预报准确率：（下雨的10天中报准了8天）=8/10=80%

预报有雨-准确率：（预报15天下雨，成功了8次）=8/15=53.3%

预报无雨-准确率：（预报不下雨的85天中有2天下雨，报准83次）=83/85=97.6%

无雨-预报准确率：（没下雨的90天中报了7天下雨，报对83天）=83/90=92.2%

这就四个准确率了，严格说来都是某种准确性，都没毛病，但有哪一个是“天气预报准确率”呢？显然哪一个都是片面的，都不能代表天气预报准确率，那么把这四个平均起来？得到80.8%？就能代表了吗？

当然还可以有一个似乎更贴近本意的：预报—准确率=（报对有雨天数8+报对无雨天数83）/总预报天数100=91%这些准确率哪个更合适呢？能代表天气预报准确率了吗？回答是能也不能：能，在于其有合理性，只要合理，只要你做出了定义就能这么说；但是你做出的这个定义能不能被广泛接受呢，如果别人不接受，专业领域内和学术界不接受，就不能。

针对这个问题，专业内有一个评价方法叫做TS评分，应用在本例的有无雨问题，其计算如下：分子——预报有雨实际有雨天数即8，分母——预报有实际有的8天+预报有雨实际无雨天数7+预报无雨实际有雨天数2。即这100天北京的晴雨天气预报TS评分=8/（8+7+2）=0.47=47%。

是的，这个就是我们最常用的预报评价指标，这个指标能够衡量预报准确率，但是却不能被叫做“准确率”。

类似的，我们常用的其它辅助评价标准还有

空报率：（报了15天下雨报空了7次）7/15=46.7%

漏报率：（10天下雨有2天没报出来）2/10=20%

关于TS评分和空漏报率，如果用公式表达就是下面这样的：

这个定义，也适用于：

3、多点单次简单预报

假设要做100个站点的预报，有一次降雨过程，预报员画了一个预报有雨的圈，圈内有80个站点，其中60个站点下雨还有20个没下，圈外20个站点中，有15个没下而5个下雨了。则应用上述定义我们可以求得TS评分=60/(60+20+5）=0.701，漏报率=5/(60+5)=7.7%，空报率=20/80=25%。

再复杂一些的，还有“多点多次简单预报”，比如全中国今年的有无雨预报问题。我们就不举例了。

实际上，我们预报员在面对"天气预报准确率是多少"这样的问题的时候，是很无奈的，看似很简单的问题，其实没有固定答案。因为“天气预报准确率”这个用语的意思还是过于宽泛了，上面所有这些的答案最多只是反映了“晴雨（更准确的应该叫有无雨）”预报准确率，并不反映“天气”预报准确率。

广为流传的天气预报准确率百分之八十多（有说84%），其实大体上是针对单点多次有无雨预报的平均状况来说的。其实并不能代表“天气预报准确率”

究其根本，在于有无雨预报只是天气预报中最常用也是最简单的描述，不全面，天气预报不是简单问题，是复杂问题，我们继续前进：

4、单点单次复杂预报：

需求：有雨的时候，我们需要报出有多大的雨，这就比有无雨预报复杂一些了，还是来举例，看看下雨问题：

预报：明天北京有暴雨（24小时降雨量>50毫米）。

结果：北京测站降中雨24毫米（定义：24小时雨量10~24毫米为中雨，25~49为大雨）。

该如何评价这次预报呢？简单讲，预报下雨对了，预报暴雨错了，而定量的降雨量预报评价就复杂些了：你觉得报50下了24是好预报还是坏预报呢？这个问题我们就不展开了。

但是假如问题是：明天北京下雨不？答案真的是：预报准确---吗？

也不一定啊，假如北京测站下了，城区没下呢？这就是多点单次复杂预报问题了，可以用TS评分来衡量，同理多点多次复杂预报也一样，只是需要好多个TS评分来衡量，比如有无雨TS评分，小雨以上TS评分，中雨以上TS评分、、、暴雨TS评分等等。

这就让我想起来一个很久以前的故事：

5、一个耐人寻味、令人无奈的故事（误会）

多年以前，有媒体问：“暴雨预报的准确率是多少？”，看着是多么简单的问题呀。可是我们要怎么来回答呢？回答前难道要先上一堂“天气预报检验”的课吗？记者懂了难道要给观众读者也上这课吗？

显然不能，阴差阳错之下，给出了暴雨的TS评分0.25（大约），于是“暴雨预报准确率25%”的说法就出来了，公众岂能答应！：“老子就是扔硬币都比你准！！！”。。。。。。。

类似的小故事还有：“啥？晴雨预报准确率80%？老子这里一年365天只有5天下雨，天天报无雨都能99%以上！”。。。。。

实际上，晴雨预报准确率的说法来自有无雨TS评分，如前所述，TS评分并不是预报准确率。如果非要往预报准确率上说，可以近似理解为：这个80%，不是你365天无脑报不下雨有360天准确的那个准确率，而是你报那5天下雨时候的准确率，你还觉得你能有99%吗？

看到了吧，仅仅是评价有无雨预报就有这么多名堂，那考虑到天气预报不止是有无雨预报呢？有雨要报雨量，报起止时间，报最大降雨时段，最大降雨区域，降雨有无雷电，有无龙卷冰雹；无雨有晴、多云、阴的区别，温度、风力和能见度等等也需要预报，您觉得这个预报评价会简单吗？“天气预报准确率”这个问题还是一个简单问题吗？

所以我一直在表达一个观点：预报准确只是相对的，预报不准确才是绝对的。

6、TS评分就科学了吗？就完美了吗？

讲到这里，相信大家已经对预报评价有了更多的理解。但这仅仅是入门而已，TS评分作为一个普遍采用的评价标准，确实基本上可以衡量预报质量了，但也只是基本和大概，它的毛病多着呢，限于专业度，我仅仅举一个最简单的例子来说明它也有不能很好体现预报质量的方面。

还是先用简单的多点单次简单预报来打比方吧：

假设：某片区域经历了一次大范围的降雨过程，实况观测上100个站点有50个站下雨50个没下。

预报员甲：预料到了降雨过程的存在，也预料到了只有一半的地方会下，于是他呕心沥血的试图“精准预报”，奈何天意岂是你想知就能知啊。最后他全预报偏了，结果既空又漏，也就是预报下雨的地方没下，预报没下雨的地方反而下雨了。惨遭TS评分0分。

预报员乙：完全没有预料到有这样一场降雨，100个站点全都报无雨。最后，美滋滋喜提TS评分0.5.

预报员丙：预料到了下雨过程，但是不想分析也无能力分析哪里下哪里不下，100个站点全都报雨，最后也美滋滋喜提TS评分0.5

您觉得，哪个预报结果更好呢？哪一个预报员水平更高呢？

在实践中，这个问题其实没有标准答案，您细品吧。

再换个角度，用单点多次预报来看这种情况，比如：

某个重大活动，提前5天需要知道某段时间的天气（比如7月28日预报8月2-3日期间有无降雨，必须给出逐日的有无雨的确定预报）

预报员甲：准确预料2-3日左右定有一场雨，但是只能选一天，这超出了预报科学现实水平，最后他给出2日下雨3日无雨。

预报员乙：完全没有意识到未来下雨的危险，给出了两天均无雨。

实况：有一场雨，但是下在3日，2日没下。

评价：乙两天中报对了一天，甲两天都报错了。

您觉得哪个预报结果更好呢？

结语：讲这些，当然不是想要为我前天的预报失误开脱，错了就是错了，要认。只是我突然想起来，开号两年多，聊了很多天气，聊了很多预报的科学难题，但是好像还没有聊到过预报评价这个问题，这个看似简单的问题，其实并不简单。于是就简单的聊几句。

真的，上面聊到的只是最简单的部分，仅仅是预报质量评价的最初级阶段，是对确定预报的评价。我之前提到过，虽然未来的天气是确定的，但科学对这个确定答案的预报却永远是不确定、近似、概率的，因此概率而非确定的预报结果才是最科学的预报结果。而概率预报的评价问题就比上面的TS评分更加复杂多了，有些我知道但说不好，有些我则完全不懂，本文就不聊了。

现在您大概可以理解：为什么面对有些公众简单的提问，而我们真不知道怎么回答，或者回答出来反而误会重生。只因没有任何简单的答案可以又准确又科学。天气预报准确率这么简单的问题都如是，其它很多更复杂的问题就更不用说了。

---全文完---

欢迎关注公众号：涛淘风云

来源: 涛淘风云

从一次失败的预报聊聊预报评价的事

科普中国系列品牌网站

入驻科普号

合作机构