算法治理第一关:算法备案监管现状与实务解读(下)

【前言】

随着算法备案逐步进入合规视野,许多企业都面临着算法备案的合规需求。但实际上大量企业尚未着手准备算法备案的相关程序,一方面是由于关于算法备案的合规义务仍未普及,一部分企业对于算法备案的认识存在不足或偏差,另一方面,企业对于算法备案的具体流程难以把控。本文上篇主要解读了算法备案的整体监管状况、实务流程,下篇则针对“具有舆论属性或者社会动员能力”展开分析与探讨,从实践视角展开,以算法备案为抓手,通过对算法备案现状进行分析、统计,以期为企业提供算法备案的合规参考与实务帮助。

目前,对于算法备案义务作出明确规定的规范性文件主要有《互联网信息服务算法推荐管理规定》(以下简称《算法推荐规定》)、《互联网信息服务深度合成管理规定》(以下简称《深度合成规定》)、以及《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),算法备案的义务主体范围则界定为“具有舆论属性或者社会动员能力的算法推荐服务/深度合成服务提供者”。

主体范围:

“具有舆论属性或者社会动员能力”关注谁?

这一表述容易使人产生误解之处在于,“具有舆论属性或者社会动员能力”究竟形容“算法服务”还是“算法服务提供者”?

最新出台的《暂行办法》对这一问题作出了相对确切的解答。不同于《生成式人工智能服务管理办法(征求意见稿)》中只是要求“利用生成式人工智能产品向公众提供服务”的提供者按照相关条款履行算法备案义务。《暂行办法》进一步明确履行算法备案义务的主体为“提供具有舆论属性或者社会动员能力的生成式人工智能服务的”提供者,也就是说,“具有舆论属性或者社会动员能力”应指向算法服务,而非提供算法服务的主体。这将在很大程度上为企业减负,缓解算法备案的压力。

主体特征:

何为“具有舆论属性或者社会动员能力”?

(一)现行规范的模糊性

企业主要填写的内容包括主体基本信息、证件

在算法备案的主体方面,更重要的问题是如何理解“具有舆论属性或者社会动员能力”?“具有舆论属性或者社会动员能力”是判定相关主体所提供的算法服务是否需要履行算法备案义务的一个关键性因素,但其确切含义始终含糊不清。

《算法推荐规定》《深度合成规定》均未对此有所界定,2018年11月30日施行的《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》第二条则规定,“具有舆论属性或社会动员能力”的互联网信息服务包括以下情形:

(一)开办论坛、博客、微博客、聊天室、通讯群组、公众账号、短视频、网络直播、信息分享、小程序等信息服务或者附设相应功能;

(二)开办提供公众舆论表达渠道或者具有发动社会公众从事特定活动能力的其他互联网信息服务。

由于法律规范存在较大的可解释空间,我们不妨把视角转向算法备案实践,对目前已经完成算法备案的算法进行统计分析,尽可能找出各算法类型的共通性,希望能够为面临算法备案问题的企业提供帮助。

(二)算法备案实践统计

1. 总体概况

对目前已完成备案的算法进行数据统计后,我们认为在算法备案中,“具有舆论属性或者社会动员能力”的认定范围极其广泛,具体而言,如果企业提供的算法最终面向的服务对象为社会公众,则该算法便会被认定为“具有舆论属性或者社会动员能力”,企业需要承担算法备案义务以满足合规要求。针对算法备案中的个性化推送类、深度合成类等典型算法类型,我们根据算法备案现状,从中抽象出各个类型算法的常见应用、典型适用场景、常用技术、算法运行逻辑等内容,为企业提供参考。

目前,算法备案主要适用于算法推荐技术与深度合成技术,其中,算法推荐技术已经有四批、262个算法完成备案程序,深度合成技术则是在6月完成第一批、41个算法的备案程序。具体的数据统计如下表(表一、二)所示。

如图一所示,针对算法推荐类服务,我们统计了个性化推送类、检索过滤类、排序精选类、以及调度决策类的数量与占比,在《深度合成规定》生效以后,生成合成类与深度合成类算法归并,因此,生成合成类一并纳入深度合成类算法进行统计。

对于深度合成类算法,《深度合成规定》中则列举了六种典型的深度合成技术类型:

• 篇章生成、文本风格转换、问答对话等生成或者编辑文本内容的技术;

• 文本转语音、语音转换、语音属性编辑等生成或者编辑语音内容的技术;

• 音乐生成、场景声编辑等生成或者编辑非语音内容的技术;

• 人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等生成或者编辑图像、视 频内容中生物特征的技术;

• 图像生成、图像增强、图像修复等生成或者编辑图像、视频内容中非生物特征的技术;

• 三维重建、数字仿真等生成或者编辑数字人物、虚拟场景的技术。

我们根据理解将已经完成备案的深度合成类算法按上述六类进行归类统计,如图二所示。其中,有多个算法的生成结果包含文本、语音内容、图片等多种形式,占深度合成类算法总备案数的17%,此类包含多种形式的内容生成、编辑技术的模型多应用于智能客服场景、多视频制作场景等。例如,在智能客服场景下,算法运行的大模型能够根据用户咨询内容,生成文本或语音智能回答。

2. 个性化推送类算法

个性化推荐类算法的主要功能在于通过对用户兴趣和需求进行分析和预测,为用户提供个性化的商品或服务推荐。在已完成备案的算法推荐服务类别中,合计136个算法均为个性化推送类,占比54%,如表三所示,本文将列举十个涉及不同行业领域的典型示例以供参考。

通过对收集淘宝、美团、微信等企业公示的算法备案信息进行分析,此类算法的适用场景多为内容推荐,基于用户的历史行为、用户基础信息、设备服务日志等相关数据,通过内容标签系统、用户画像系统、以及推荐引擎等系统,使用召回、过滤、排序等一系列的技术手段,最终为用户提供其可能感兴趣的信息。

3. 检索过滤类算法

检索过滤类算法的典型适用场景为搜索推荐和内容审查两种,该算法通过一系列技术手段,对内容进行检索、过滤,实现内容安全的风险识别,或满足用户搜索需求。具体示例如表四所示。

在搜索推荐场景下,算法运行逻辑通常为:

(1)对搜索词进行分词与意图识别;

(2)基于用户在功能界面所选择的内容标签、内容画像以及用户自身在平台内的行为画像,匹配符合要求的搜索结果;

(3)去除部分无需推荐的内容,减少排序模型压力,完成过滤步骤;

(4)按照算法模型计算内容得分,通过排序机制优化用户使用体验;

(5)在排序过程中引入多样性打散机制,拓展展示内容,避免同类型内容过度集中。

内容安全风险识别场景下,算法则通过深度学习等风险分类模型对平台上文本、图片、音频、视频等信息进行安全风险识别,形成不同的风险置信度等级,对于高置信度的信息通常由算法直接完成审核,对于低置信度的信息则将引入人工审核,最后完成对违规信息的处置决策。

4. 排序精选类算法

排序精选类算法通过特定的算法因式将数据按照既定的模式或规则进行重新排序,在用户访问产品内相应功能界面时,算法首先根据用户在功能界面所选择的内容标签,匹配符合要求的内容;其次以用户的点击率/阅读率/阅读时长等作为优化目标,使用统计口径计算内容得分;最终,根据运营或者策略需求,通过重排机制调整结果列表的顺序,并最终以排行榜等形式向用户呈现各类清单。具体示例如表五所示。

5. 调度决策类算法

目前,调度决策类已经完成算法备案的较少,共计由5家企业为7个算法完成备案手续,具体如下表六所示。此类算法所适用的典型场景为派单与配送两种,通过智能调度模型、配送市场预估模型,在外卖、快递的配送,网约车的派单等情境中实现效率提高。

6. 深度合成类(生成合成类)

深度合成类算法的应用场景更为多元化,在不同的应用场景中,各类APP运用前述不同种类的深度合成技术为其功能实现赋能,以满足用户需求。如下表所示,我们选取了十类典型场景,通过应用场景、适用APP、使用技术、以及主要功能的一一对应,为提供类似产品、服务的企业提供参照。

算法的应用在给经济、社会发展注入新动能的同时,其不合理应用所导致的算法歧视等问题也深刻影响着正常的传播秩序、市场秩序和社会秩序,给维护意识形态安全、社会公平公正和网民合法权益带来挑战。互联网信息服务领域出台的具有针对性的算法备案等规范性制度,是互联网关联企业在当前的发展环境下所不能忽略的合规焦点。切实履行合规义务,方为企业健康发展的基石。

作者:王渝伟 陆钇潼

来源: 中国科技新闻学会