编者按
关于我国对人工智能技术和应用的监管发展,本公号发布过以下文章:
近日,网信办等四部委决定开展【关于开展“清朗·网络平台算法典型问题治理”专项行动的通知】。今天,公号君试图对通知中提到的排名算法做进一步的整理和介绍。
在通知中,对热搜榜单提出的要求是:
提升榜单透明度打击操纵榜单行为。全面公示热搜榜单算法原理,提升榜单透明度和可解释性。完善榜单日志留存,提高榜单算法原理可验证性。健全水军刷榜、水军账号等违规行为、账号检测识别技术手段,严管不法分子恶意利用榜单排序规则操纵榜单、炒作热点行为。
算法治理专项指引对热搜榜单提出:
细分起来,热搜和榜单是两类形式,但其本质都是向个体用户展示当前正在受其他用户高度关注的话题、人物、事件等的列表。高度关注可进一步分解为:搜索热度、讨论热度、传播热度、高互动率等。
因此,热搜榜单本质上是个排名算法。
排名算法与推荐算法的区别
排名是指对项目进行选择、筛选、评分和排序,然后以列表的形式呈现给用户。排序可以基于不同的因素,包括重复性、流行度或与用户的相关性。排序可以根据用户的特定请求进行,例如用户在搜索栏中搜索特定项目时,或在没有搜索栏的情况下搜索特定项目时。
而推荐系统【详见之前发表的本系列文章】则是向人们推荐他们没有明确要求的内容的系统。推荐系统根据用户的明确评分或参与度来了解用户的喜好,并将其与项目本身的元数据相结合,从而在未来推荐类似的项目。这些系统还可以学习用户的偏好模式,并对内容的多样性或偶然性进行优化,从而使用户不会重复看到相同类型的内容。
排名算法的主要考量因素
排名算法在内容分发和推荐系统中扮演着至关重要的角色,它通过多种因素综合决定哪些内容应该被展示给用户。理解这些因素及其相互作用有助于更好地认识平台如何对信息进行筛选、排序和推荐。以下将详细论述影响排名算法的几个主要因素。
搜索热度是指某个关键词或话题在一定时间内的搜索频次。在搜索引擎中,搜索热度直接决定了搜索结果的展示顺序。对于社交平台而言,用户对某一话题的高频搜索也常常与内容的广泛关注度密切相关。当某个关键词或主题的搜索热度突然飙升时,平台会优先将相关内容展示给更多用户,以回应用户的关注需求。
讨论热度则关注内容在社交媒体或论坛等平台上的互动量,它通常通过用户的评论、分享、点赞等行为来衡量。讨论热度反映了一个话题或事件在社交圈中的讨论程度,也能反映出该内容的社会话题性。平台通常会将高讨论热度的内容作为优先展示对象,尤其是在涉及社会热点事件时,内容的讨论量可以直接影响其排名。
与此类似,传播热度衡量的是内容的传播速度和广度。这一因素往往通过用户的分享、转发等行为来计算。当内容迅速在用户之间传播开来时,平台会认为这类内容具有较强的社会影响力,因此会给予较高的排名。在现代社交平台中,内容的传播不仅仅依赖于内容本身的吸引力,还受到了社交网络结构和用户间传播链的影响。
最后,互动率指的是用户与内容的互动频率,包括点赞、评论、分享等行为。高互动率意味着内容能够激发用户的积极参与,通常也意味着该内容具有较高的用户吸引力和传播潜力。因此,平台算法会优先展示互动率高的内容,这也是社交媒体平台推广内容的重要依据。
时间排序是一种非常直观且常见的排名方式,特别适用于新闻、实时事件更新或其他具有时效性内容的展示。其基本原理是优先展示最新发布的内容,确保用户能够获得与当前事件或话题最相关的信息。
这种排序方法的主要优点在于其简单性和对时效性内容的优化。当某个新闻事件、社会热点或突发情况发生时,时间排序会根据发布时间将这些内容迅速推送到用户的时间线上,确保用户获取到实时的更新信息。典型应用场景包括:
新闻类平台和社交媒体:如Twitter、Facebook和微博等平台,这些平台通常使用时间排序算法来展示最新的消息和动态。例如,当一个突发新闻发生时,平台会优先展示相关的报道和用户讨论,确保信息的及时传播。
实时事件追踪:比如体育赛事、选举结果、天气灾害等,所有这些都是高度依赖时间因素的内容。时间排序确保用户可以在第一时间看到相关的更新和评论。
然而,时间排序也有其局限性。虽然它能确保最新内容的优先展示,但它并不总能保证这些内容是最相关或最有价值的。因此,单纯依靠时间排序有时会让一些质量不高但发布时间最新的内容占据显著位置,影响用户的体验。
社交信号排序基于用户的互动行为来调整内容排名,是社交媒体平台中最常见的排名方式之一。社交信号包括点赞、评论、分享等用户互动行为,这些行为可以反映出内容的受欢迎程度、热度和社会影响力。
社交信号排序的核心思想是:用户的互动越多,内容就越可能被视为有价值的,应该被推荐给更多用户。因此,社交平台通常会通过计算内容的社交信号来评估其热度,并根据这一热度进行排名。具体来说,社交信号排序包括以下几个方面:
点赞:当用户为内容点赞时,平台会认为该内容得到了正面的反馈,可能符合用户的兴趣或情感,因此会优先展示类似的内容。
评论:评论不仅代表内容的互动性,还能反映出用户对内容的情感反应。讨论热烈的帖子通常会被更多用户看到。
分享:分享是社交信号中最强的一项,内容被分享意味着用户认为该内容对他们自己或他们的社交圈有价值。因此,分享次数较多的内容往往会被平台认为更有社会价值,从而获得较高的排名。
转发与推荐:尤其在平台如Twitter或Facebook中,转发或推荐的行为可以显著提高内容的曝光度。大量的转发可能意味着该内容在用户群体中产生了广泛的影响力,因此会提升其排名。
社交信号排序的优点在于能够通过用户的行为反馈来反映出内容的受欢迎程度和社会影响力,确保平台上展示的内容是那些被用户积极参与和认同的。它增强了平台内容的互动性,提升了用户的参与感和粘性。
然而,这种方法的缺点在于,社交信号也容易受到网络效应的影响。例如,某些内容可能因为具有“病毒式传播”的特性(比如搞笑视频、极端观点等)而迅速获得大量社交信号,即便它们的实际质量或相关性并不高。因此,平台需要谨慎设计社交信号排序算法,避免“点击诱饵”内容或低质量信息占据主导地位。
内容相关性排序是一种根据用户的兴趣和需求对内容进行定制化排序的算法。平台通过分析用户的历史行为(如浏览记录、搜索记录、点击行为、点赞、评论等)来预测他们可能感兴趣的内容,并在信息流中优先展示这些内容。
内容相关性排序的关键在于个性化。社交媒体平台会基于用户的过往行为建立其兴趣模型,并利用这些数据来推测用户的当前兴趣。这包括以下几个方面:
历史活动分析:用户过去浏览、点击、点赞的内容能够帮助平台建立用户的兴趣画像。例如,用户频繁浏览科技新闻,平台就会在其推荐流中增加与科技相关的内容。
社交网络:社交媒体平台还会分析用户的社交网络,推荐用户朋友或关注的人的内容。社交关系越紧密,推荐的内容就越可能与用户的兴趣和需求一致。
相似用户行为:通过协同过滤技术,平台还可以基于与某个用户行为相似的其他用户的行为模式,推荐他们喜欢的内容。比如,如果A和B经常对相同类型的内容表现出兴趣,平台就可以把B喜欢的内容推荐给A。
内容相关性排序的最大优势是能够为每个用户提供个性化的体验。通过深入分析用户的行为和兴趣,平台能够不断调整和优化推荐内容,从而提升用户的参与度和满意度。
然而,内容相关性排序也有其局限性。过度依赖用户的历史行为可能导致信息茧房的现象,即用户只会看到与其兴趣高度匹配的内容,忽视了其他潜在的有价值信息。这种个性化推荐可能限制了用户接触多元化内容的机会。
混合排序算法是当前许多大型社交媒体平台采用的主流排名方法,它结合了多种排名策略,以应对复杂的内容推荐需求。混合排序算法能够整合时间敏感性、社交信号、内容相关性等多个因素,综合评估内容的优先级,从而为用户呈现最合适的内容。
混合排序算法通常会结合以下几个因素:
时间因素:对于新闻事件或实时更新,时间排序仍然至关重要。最新的内容通常会优先展示。
社交信号:社交信号仍然是排名算法的重要参考,尤其在涉及广泛用户参与和社会话题时。平台会根据点赞、评论、分享等信号来判断内容的热度。
个性化推荐:个性化推荐确保内容与用户的兴趣和需求高度契合,平台会根据用户的历史行为和互动来优化推荐。
内容相关性:内容的质量和主题相关性依然是排名的重要因素,平台会根据内容的标签、关键词和主题来决定其是否符合当前的热门话题或用户兴趣。
混合排序算法的最大优势在于其灵活性和适应性。它能够在多变的信息环境中,综合考虑多个因素,确保平台展示最符合用户需求的内容。无论是时效性强的新闻报道,还是基于用户兴趣的个性化推荐,混合排序都能够高效整合和优化。然而,混合排序算法也面临着一定的挑战,特别是在如何合理加权不同因素之间的权重。不同类型的内容和用户需求可能对时间、社交信号或相关性的依赖不同,如何平衡这些因素以实现最佳推荐,仍然是平台面临的技术难题。
DPO线下沙龙的实录见:
域外数据安全和个人信息保护领域的权威文件,DPO社群的全文翻译:
传染病疫情防控与个人信息保护系列文章
关于数据与竞争政策的翻译和分析:
健康医疗大数据系列文章:
网联汽车数据和自动驾驶的系列文章:
网络空间的国际法适用问题系列文章:
《网络数据安全管理条例(征求意见稿)》系列文章:
关于我国数据跨境流动监管体制变革的系列文章:
关于新加坡数字化(包括个人信息、网络安全、人工智能等)方面的改革,本公号发表的文章:
关于健康医疗数据方面的文章有:
针对美国的人工智能监管政策发展,本公众号发表过如下文章: