编者按
关于我国对人工智能技术和应用的监管发展,本公号发布过以下文章:
近日,网信办等四部分决定开展【关于开展“清朗·网络平台算法典型问题治理”专项行动的通知】。通知中的“算法专项治理清单指引”给出了核验项目、核验要点、核验内容。为了据此开展算法优化工作,显然需要对通知所指向的推荐算法和决策算法有详细的了解,才能知道从哪些方面进行干预。本篇文章的目的就在于此。
关于开展“清朗·网络平台算法典型问题治理”专项行动的通知 算法专项治理清单指引 | |||
序号 | 核验项目 | 核验要点 | 核验内容 |
1 | 信息茧房 | 用户兴趣选择 | 1.平台不得强制用户选择兴趣标签,允许用户跳过标签选择页面。 |
2 | 用户标签管理 | 2.平台应提供兴趣标签查看功能,向用户展示用于内容推送的个人兴趣标签。 3.平台应向用户提供用于个性化推荐服务的个人兴趣标签管理功能。 4.平台应向用户提供便捷的关闭算法推荐服务的选项。用户选择关闭后,平台应立即停止算法推荐服务且不影响用户正常使用,不得频繁通过弹窗等方式提醒用户开启。 | |
3 | “不感兴趣”功能设置 | 5.平台应向用户提供“不感兴趣”等功能选项,如“对话题不感兴趣”“对内容质量不满意”“此类内容过多”“重复推荐”等。用户操作后,平台应减少同类内容推送频率。 | |
4 | 防沉迷举措成效 | 6.平台应构建用户沉迷防范机制,及时总结相关成效,配合有关部门的监督检查工作。 7.平台应具备针对“信息茧房”“同质化推荐”等网民重点关注问题的防范举措,通过内容去重、打散干预等策略提升推送内容多样性丰富性,及时总结相关成效,配合有关部门的监督检查工作。 | |
5 | 个人信息权益保障 | 8.平台应向用户告知用于内容推送的收集处理的个人信息种类,并征得用户同意。 | |
6 | 热搜榜单 | 算法规则公示 | 9.平台应公示榜单排序机制机理,如基本原理、排序依据、主要因素等详细信息,并通过事例予以说明。 |
7 | 日志留存核验 | 10.平台应留存榜单相关网络日志,日志内容包括时间、榜单排名、热度值计算相关数据等信息,配合有关部门的监督检查工作。 | |
8 | 水军账号识别 | 11.平台应健全异常账号监测机制,防范违规操纵榜单、控制热搜等现象,总结相关成效,配合有关部门的监督检查工作。 | |
9 | 新就业形态劳动者权益 | 算法优化效果 | 12.平台应统计算法升级后订单超时率、平均配送超时率、交通事故发生率等相关数据,留存相关数据及日志,配合有关部门的监督检查工作。 |
10 | 规则透明度 | 13.平台应公示配送时间预估、路线规划、配送费用计算明细等相关算法机制机理。 | |
11 | 申诉渠道 | 14.平台应向用户提供申诉和公众投诉、举报入口,及时处理用户反馈。 15.平台应说明申诉处理流程、反馈时间等信息,公开近期申诉成功案例,留存处理日志,配合有关部门的监督检查工作。 | |
12 | 大数据“杀熟” | 差异化定价 | 16.平台不得存在相同商品不同用户原始定价不一致情况。 |
13 | 优惠规则公示 | 17.平台应说明优惠促销规则,如适用范围、参与条件、特定限制等。 18.对于使用优惠券的场景,平台应说明优惠券发放范围、用户身份限制、发放数量、使用条件等信息。 19.在订单结算页面,平台应展示优惠券、满减规则等优惠明细。 | |
14 | 优惠券领取失败原因 | 20.平台应向用户说明优惠券领取失败的真实原因,如领取截止时间、领取要求等。 | |
15 | 算法向上向善 | 未成年人保护 | 21.平台应及时总结防范未成年人网络沉迷、过度消费所采取的优化算法推荐服务措施及成效,配合有关部门的监督检查工作。 |
16 | 老年人保护 | 22.平台应持续优化完善面向老年人的算法推荐服务,便利老年人获取有益身心健康的信息。 | |
17 | 优化内容生态 | 23.鼓励平台坚持主流价值导向,利用算法提升优质内容推送、识别违法网络谣言等信息。 | |
18 | 生成合成信息标识 | 24.平台应对由自身提供算法的生成合成信息作出显著标识,及时总结检测识别生成合成信息、发现处理违法违规生成合成信息的措施及成效,配合有关部门的监督检查工作。 | |
19 | 落实算法安全主体责任 | 算法机制机理审核 | 25.平台应及时总结建立算法机制机理审核的管理制度和技术措施的机制及成效,配合有关部门的监督检查工作。 |
20 | 算法模型安全评估 | 26.平台应定期对算法模型开展安全评估,及时总结评估成效,配合有关部门的监督检查工作。 | |
21 | 数据安全 | 27.平台应及时总结建立数据安全管理制度和技术措施的机制及成效,配合有关部门的监督检查工作。 |
从上述算法专项治理清单可见,治理主要针对两类算法:推荐算法和决策算法。
决策算法在现代社会中扮演着关键角色,广泛应用于金融、医疗、交通、物流、招聘等领域。它们通过分析大量数据,帮助企业和机构做出高效、准确的决策,从而提升运营效率、优化资源配置。然而,随着算法在社会生活中的影响力日益增强,政策制定者和公众需要深入了解这些算法的工作原理、应用场景以及可能带来的影响和挑战。以下将对决策算法的主要类型和工作原理进行详细论述。
一、规则引擎(Rule-Based Systems)
规则引擎是一种基于预先设定的规则和逻辑条件来执行决策的系统。它按照“如果……那么……”的方式,对输入的数据进行评估和处理。这些规则通常由领域专家或业务人员根据经验、业务需求和政策法规制定。规则引擎的特点在于透明性高,规则明确,易于理解和解释,可控性强,业务人员可以直接管理和调整规则,灵活应对业务变化。
在实际应用中,规则引擎的工作过程主要包括四个阶段。首先是规则设定,确定一系列业务规则,每条规则包含条件和动作。例如,在金融机构的信贷审批中,可能设定规则:“如果申请人的信用评分低于600分,那么拒绝贷款申请。”
其次是数据输入,系统收集需要处理的输入数据,包括用户信息、环境数据、交易记录等,并确保数据格式符合系统要求。
接下来是规则匹配,系统逐一检查数据是否满足每条规则的条件。当多条规则条件同时满足时,按照优先级或预设策略处理。
最后是执行动作,如果条件满足,系统执行对应的动作,如批准、拒绝、提醒等,并将决策结果反馈给用户或其他系统。
规则引擎的优势在于透明性高,业务规则清晰明了,方便解释和审计,用户和监管机构可以理解决策依据。同时,规则引擎具有灵活性强的特点,可以根据业务需求、政策变化快速添加或修改规则。然而,它也存在一些可能的问题,例如规则冲突,大量规则可能导致冲突,需要精心管理和测试。此外,规则引擎难以处理复杂情况,对于非线性或复杂模式的决策能力有限,无法自动学习新的模式。
二、机器学习决策算法
机器学习决策算法通过从历史数据中学习模式和规律,建立预测模型,用于对新数据进行预测、分类或决策。与规则引擎不同,机器学习算法不依赖于人工设定的规则,而是通过数据训练自主学习,能够处理复杂的非线性关系,具有自我学习和适应的能力。机器学习主要分为监督学习、无监督学习和强化学习三种类型。
以监督学习为例,其工作过程包括数据收集、数据预处理、模型训练、模型验证和模型应用五个阶段。
首先,收集大量的历史数据,包括输入特征和对应的输出标签。
然后,对数据进行预处理,处理缺失值、异常值,提取和选择对模型有用的特征。
接下来,选择合适的算法,如决策树、支持向量机、神经网络等,使用训练数据拟合模型。
模型训练完成后,需要使用验证数据集测试模型的性能,根据评估结果,调整模型参数以提高性能。
最后,将训练好的模型应用于新数据,生成预测结果或决策建议。
举例来说,在招聘过程中,公司希望通过机器学习模型预测应聘者是否适合某个职位。通过收集历史招聘数据,包括应聘者的教育背景、工作经验、技能、面试评分,以及最终的录用结果,对数据进行预处理,提取重要特征,训练模型,并在新一轮招聘中使用模型对新应聘者进行评估,辅助人力资源部门做出决策。
机器学习决策算法的优势在于能够从数据中自动提取规律,减少人为主观偏见,提高决策客观性。模型可以根据新数据进行更新,适应业务和环境的变化。然而,它也存在一些可能的问题,如数据偏见,如果历史数据存在偏见,模型可能继承并放大这些偏见,对特定群体造成不公平。此外,某些复杂模型(如深度学习)难以解释,影响透明度和可解释性。
三、优化模型
优化模型通过数学方法,在满足一定约束条件的情况下,找到目标函数的最优值(最大或最小)。它广泛应用于资源配置、计划安排、成本控制等领域,帮助企业和机构做出高效的运营决策。优化模型的工作过程包括确定目标、建立模型、求解模型和结果应用四个阶段。
首先,明确需要优化的指标,如最小化成本、最大化利润、最短时间、最佳效率等。例如,物流公司希望最小化配送总距离,以降低燃油成本和提高配送效率。
接着,定义决策变量,构建目标函数,用数学表达式表示需要优化的目标,并设定约束条件,包括资源限制、政策法规、物理条件等。
然后,根据模型的特性,选择合适的优化算法,如线性规划、整数规划、动态规划、遗传算法等,使用算法求解目标函数的最优值。
最后,将数学解转换为实际的决策方案,在业务中应用最优解,执行决策,并监控效果。
在物流配送中,某快递公司需要为一天的配送任务制定最优路线。通过确定优化目标、建立车辆路径规划模型、求解最优解,得到各车辆的最优路线安排,分配给司机执行。优化模型的优势在于精确性高,在明确的条件下,能够找到最优或接近最优的解决方案,提高资源利用效率。但它也存在模型复杂度高、数据依赖性强等问题。
四、深度学习决策算法
深度学习是一种基于人工神经网络的机器学习方法,具有多层结构,能够从大量数据中自动学习复杂的特征表示。它在处理非结构化数据(如图像、语音、文本)和复杂模式识别任务中表现出色,已经成为人工智能领域的重要技术。深度学习决策算法的工作过程包括数据准备、模型构建、模型训练和模型应用四个阶段。
首先,收集大量相关数据,如图像、音频、文本、传感器数据等,为数据打上标签,以便进行监督学习。接着,根据任务选择合适的神经网络结构,如卷积神经网络(CNN)、循环神经网络(RNN)、Transformer模型等,设置网络的层数和参数。
然后,使用训练数据拟合模型,通过正向传播计算输出,比较输出与实际标签,计算损失函数值,通过反向传播调整网络参数,优化模型。
最后,将训练好的模型集成到业务系统中,实时提供决策支持。
以医疗诊断为例,医院希望利用深度学习模型辅助医生进行疾病的早期检测。通过收集大量医学影像数据,由专业医生进行标注,选择卷积神经网络模型,训练模型,让其学习影像特征与疾病之间的关系。评估模型在测试集上的诊断准确率,确保其性能达到临床要求,将模型部署在医院的诊断系统中,医生在查看影像时,可以获得模型的辅助诊断结果。
深度学习决策算法的优势在于特征自动学习,无需人工提取特征,模型能够自动学习重要特征,处理非结构化数据,拓展了应用领域。然而,它也存在数据需求量大、可解释性差、计算资源消耗大等问题。在医疗领域,决策的可解释性尤为重要,需要提供模型决策的依据。
总结
决策算法在各行各业中发挥着越来越重要的作用,通过自动化和智能化的方式,帮助人们做出更有效的决策。然而,随着算法的广泛应用,也带来了新的挑战,包括数据隐私、算法偏见、可解释性等问题。
DPO线下沙龙的实录见:
域外数据安全和个人信息保护领域的权威文件,DPO社群的全文翻译:
传染病疫情防控与个人信息保护系列文章
关于数据与竞争政策的翻译和分析:
健康医疗大数据系列文章:
网联汽车数据和自动驾驶的系列文章:
网络空间的国际法适用问题系列文章:
《网络数据安全管理条例(征求意见稿)》系列文章:
关于我国数据跨境流动监管体制变革的系列文章:
关于新加坡数字化(包括个人信息、网络安全、人工智能等)方面的改革,本公号发表的文章:
关于健康医疗数据方面的文章有:
针对美国的人工智能监管政策发展,本公众号发表过如下文章: