湘江理论·师大社科 | 大模型时代的信任重塑:小模型实现超级对齐的机制与模式

湘江瞭望 | 2024-07-13 16:01:18
星辰在线 | 作者:喻国明 卞中明 | 编辑:王闻扬

  编者按:为深入学习贯彻习近平总书记关于哲学社会科学工作的重要论述,打造理论特色鲜明、湖湘特色突出、新媒体特色明显的网络理论宣传品牌,湖南省重点新闻网站星辰在线特色网络理论平台《湘江理论》特联合CSSCI来源期刊、全国中文核心期刊《湖南师范大学社会科学学报》推出《湘江理论·师大社科》专栏。希望通过权威期刊与重点网络理论平台的联合,刊发推荐一系列优秀的学术研究作品,推动优质哲学社会科学研究成果发出最响亮的声音。

  作者简介

  喻国明

  教育部长江学者特聘教授、第七届国务院学位委员会新闻传播学学科评议组成员、现为北京师范大学新闻传播学院学术委员会主任、北京师范大学传播创新与未来媒体实验平台主任,兼任北京市社会科学联合会副主席、中国新闻史学会传媒经济与管理专业委员会理事长、《中国传媒发展指数(蓝皮书)》主编、《中国社会舆情年度报告(蓝皮书)》主编、《中国互联网营销年度报告(蓝皮书)》主编等,是我国传播学实证研究的领军者、传媒经济学的奠基人及认知神经传播学的开创者之一。迄今为止,独著、合著出版的学术专著、教材、蓝皮书共40余本,论文1000余篇,在新闻传播学科的论文总被引文数居全国第一位。

  卞中明

  北京师范大学新闻传播学院传播创新与未来媒体实验平台研究助理。

大模型时代的信任重塑:

小模型实现超级对齐的机制与模式

核心提示

  针对大模型运行中的内容信任危机、价值信任危机和模型信任危机,“对齐”被视为解决危机的可行路径,但以人类反馈为主的“对齐”工作难以应对可能出现的人类智力范畴之外的“超人模型”,“以小督大”“以弱应强”式的“超级对齐”则有助于增加“超人模型”的无害性与可信任度。在“超级对齐”中,小模型成为重塑信任的关键角色。具体而言,场景小模型作为“有能力”的小模型,对齐垂直领域而缓解内容信任危机;私域小模型打造“可信赖的”小模型形象,实现实时对齐;“可依靠的”边缘小模型对齐边缘价值并维稳对齐环境;“可连接的”大小模型联动,在辩论中达到模型间对齐。未来小模型重塑信任的进路将从个性化、透明性与可赋权入手,情感信任、技术信任与权力信任齐发力。

内容精选

  “如果我们使用一种机械装置来实现我们的目标,一旦启动,我们就无法有效地干预它的运行,因为它的动作非常快且不可撤销,我们没有足够的数据在行动完成之前进行干预,那么我们最好确保放入机器中的目的真的是我们想要实现的目标,而不仅仅是一个华丽的外表。”维纳的这段话在警醒世人自动化技术隐含的风险时,也提示了问题解决之策,孕育了对齐思想的萌芽——确保机器所实现的目标是我们想要实现的目标,这恰是我们即将探讨的对齐技术。

  诸如ChatGPT的大语言模型问世,深深震动了社会:一方面,“十八般武艺样样精通”的“全才”大模型重塑着社会方方面面,赋能行业变革并展现出超越人类智力的潜能;另一方面,落地实践面临的诸如内容、价值与模型方面的信任问题引发社会忧虑与怀疑,对齐工作迫在眉睫。未来,大模型性能臻于完善,演变为“超人模型”,人类又该如何对齐超出能力范畴之外的智能体?“以小督大”的“超级对齐”成为可行路径。本文认为,在“超级对齐”中,从表面上看,小模型是解决信任危机的枢纽,是重塑信任的关键角色;从深层次上看,小模型作为新型媒介打通对齐权力落地的“最后一公里”,赋能对齐权力回归于无数个体,是以人为本的深刻体现与落地实践。

  一、大模型生态下的信任危机

  大模型(big model),也被称为基础模型(foundation model),通常是在大规模数据上预训练,包含百亿及以上参数且能通过微调(fine tuning)、上下文学习(in context learning)、零样本(zero shot)等方式广泛应用于下游任务上的模型。随着大模型参数量攀升,模型量级超过某一尺度,大模型具备涌现性,即生成预料之外的能力,同时也具备了上下文学习、推理判断、处理复杂语言任务等能力,其逐渐靠拢人类水平。2018年图灵奖得主约书亚·本吉奥在2023年4月5日提出,ChatGPT“目前已经通过图灵测试,故而能够欺骗人类,令后者相信自己正在与同伴而不是一台机器交谈”。当大模型的智能程度无限逼近人甚至表现出超越人的潜能时,人类开始忧虑,也开始怀疑大模型是否值得信任。拥有人类信任将是大模型获得长远、稳定发展与广泛应用的前提与根基。然而,大模型发展面临信任危机,这种信任危机具象为内容信任危机、价值信任危机与模型信任危机。信任的危脆,将桎梏大模型发展的持恒性,如何妥善处理信任危机是必须直面的问题。

  (一)内容信任危机

  大模型问世是自然语言处理技术的重大突破,但模型生成的幻觉倾向与之共生,大模型幻觉问题易造成内容信任危机。通俗地讲,大模型幻觉即模型“一本正经地胡说八道”。已有研究将幻觉定义为产生无意义或与源内容不一致的内容,根据与源内容的矛盾关系,幻觉分为内在幻觉和外在幻觉。大模型在各种不同的自然语言处理任务中表现出显著的多样性和卓越性,特别是在开放域应用中,相比于特定任务模型,其显著的多功能性放大了幻觉的可能性。并且,幻觉难以根本消除——大语言模型本质上是一种概率模型,概率意味着不确定性,意味着即便幻觉是小概率事件,但也可能发生,更意味着幻觉存在模型难以拥有人类真正且完全的信任。

  除了幻觉问题,大模型预训练数据源易造成内容信任危机。模型信息数据源或来自人类现实世界,或来自计算虚拟构想。取自人类现实世界的数据不仅携带包括各种刻板印象、歧视偏见等在内的“毒性内容”,而且涉嫌侵犯他人隐私信息;源自计算虚拟构想的数据则暗含与现实相偏颇的风险,或与事实有出入,或价值观难以对齐。

  (二)价值信任危机

  一方面,这种价值信任危机源自大模型对现实价值偏态的映射与放大。大模型作为人类社会的产物,不可避免地打上现实烙印,人类社会隐含的歧视偏见与价值偏态传导至大模型,在人机交互的循环往复中不断放大、交错与叠加,从而带来价值风险传导的“乘数效应”,大模型由此成为偏狭价值的“传声筒”与“放大器”。同时,在“技术中立”话语的遮蔽与模型算法的黑箱化之下,偏狭价值的生产、传递、复制与解释具有不透明性与不可见性,个体往往难以觉察,价值信任危机据此而生。

  另一方面,价值信任危机源自大模型对齐人类价值观的复杂性与不确定性。人工智能系统不仅应与价值中立的人类偏好(如人工智能系统执行任务的意图)保持一致,还应与道德和伦理考虑保持一致,这些努力被称为价值对齐。价值对齐概念的提出和实践在一定程度上强化了人对“可信赖的大模型”的信心,但同时价值对齐实践的复杂性与不确定性也削弱了人的信任,当下的价值对齐面临的困境既包括技术维度的伪对齐、过度对齐所带来的性能退化的对齐税问题,也包括伦理维度的人类价值标准的多元化、情境性与变动性。

  (三)模型信任危机

  所谓模型信任危机,既指向单个大模型,也关乎作为整体的大模型生态。

  作为单个具体的大模型应用,大模型自身编码一致性不足会削弱用户信任。一则体现为大模型与外部事实的不一致,另一则体现为大模型内部的不一致,如多模态大模型生成的文字内容与图片内容不符,对同一问题的回答存在前后出入等。

  不同科技公司推出的各种大模型应用构成了整体的大模型生态,在这个生态中,一方面不同的大模型之间存在共识缺失的现象——相同的问题,在不同的大模型中可能得到相异的回答。不可否认多元化回答拓宽了个体认知边界上的价值,但涉及事实与人的伦理共识时,大模型的差异化回答可能加剧认知撕裂,造成模型的信任危机。而真正以人为本的大模型绝不该自说自话,不同模型间也应达成事实与价值维度的共识。另一方面,信任关系是一种典型的社会关系,信任传递过程是信任通过主体间的社会关系在多个主体间传递的过程。个体之间的交互行为会形成信任在不同主体之间的传递。换言之,个体对大模型的不信任可通过关系网络与社交互动传递。同理,个体对某一个大模型产品的不信任也可能导致对其他同类大模型产品的不信任,从而掣肘良性大模型生态的打造。

  二、从对齐到超级对齐:小模型成为重塑信任的关键角色

  针对大模型时代的内容信任危机、价值信任危机、模型信任危机,“对齐”被广泛提及,并被视为解决人工智能所引发的危机与风险的可行对策,而当大模型展现出无所不能和无所不及的生成与涌现能力时,一种社会怀疑油然而生:大模型是否会发展为超越人类智力水平的超级AI。当超级AI出现,仅依靠人类手动监督对齐超级AI不切实际,因为人类既没有能力也没有这么多精力。基于此,用AI监督AI、“以小督大”、“以弱督强”式的“超级对齐”应运而生,成为解决超级AI衍生危机的关键。在“超级对齐”中,小模型扮演了至关重要的角色。

  据此,本文不仅聚焦“对齐”与“超级对齐”的概念定义,也追问在“超级对齐”中,小模型扮演何种角色?“以小督大”的“超级对齐”未来如何塑造可信任的传播生态?

  (一)对齐的概念定义

  “对齐”最早可追溯到“控制论之父”维纳于1960年发表的论文《自动化的道德和技术后果》,维纳指出,“假如我们期望借助机器达成某个目标,而它的运行过程是我们无法有效干涉的,那么我们最好确认,这个输入到机器的目标确实是我们希望达成的那个目标”。简言之,机器目标需要与人类目标一致。即便关于对齐的讨论早已有之,但很长一段时间内,在“人工智障”的戏谑表达和技术有限的发展下,提升机器智能水平与表现力的当务之急和商业化的迫切需要遮蔽了伦理道德维度的考量,对齐未能得到足够关注与重视。雨后春笋般问世的大语言模型展现出强大的生成与控制能力,赋能应用场景、深度嵌入生活,有望成为基础设施式的存在,大模型本身潜隐的伦理与信任危机显露,大模型对齐迫在眉睫。

  目前学界关于“对齐”的定义存在一定分歧。一方面,不同学者从不同角度出发界定“对齐”的概念,保罗·克里斯蒂亚诺(Paul Christiano)基于意图将其定义为“如果A试图做H想做的事情,A与H对齐”。也有学者指出:对齐意味着让机器学习模型“捕捉”人类的规范或价值观。另一方面,该领域的术语存在混用的情况,“对齐”“AI对齐”“人机对齐”“价值对齐”是对齐领域常见的术语,很多情况下表示同等意义。本文所强调的对齐,特指大模型领域的对齐,强调大模型需要实现三个维度的对齐:大模型生成内容需与事实对齐、大模型需与人类普适的价值观念对齐、大模型需要实现不同模型之间的对齐而非自说自话。

  当下,主流的对齐方式包括以下几种:(1)外部对齐(outer alignment),指选择正确的损失函数或奖励函数,确保人工智能系统的训练目标与人类的价值相匹配,即人类价值或预期目标与AI模型之间的对齐;(2)内部对齐(inner alignment),确保人工智能系统经过训练,能够实现设计者设定的目标,即AI模型代理真实优化的目标与设计者设计的训练目标的对齐;(3)可解释性(interpretability),广泛地指促进人类理解人工智能系统的内部工作、决策和行动的方法、模型和工具,包括透明性和可解释度;(4)AI治理(AI governance),除了技术解决方案外,治理、规则的创建和执行,对于确保人工智能系统的安全开发和部署都是必要的。

  (二)超级对齐的概念定义

  尺度定律(scaling law)和能力涌现(emergent abilities)共同表明,随着模型参数量级增加,大模型的能力提升,智能水平逼近人类,有望成为超级AI。面对超越人类水平的强人工智能,能否有效对齐成为人类信任大模型的关键。

  目前广泛使用的对齐技术,如基于人类反馈的强化学习(RLHF),是人类对AI模型的输出进行评级反馈,再由研究人员将带有人类价值偏好的反馈告知模型以强化其对人类偏好的学习,从而生成更合理且符合人类价值观的输出。而当人类面对的是智力水平高于自己、内部机制复杂、规模庞大的超级AI时,人类的反馈能力是失灵的,最糟糕的是,人类甚至可能无法给予即时有效的反馈。此时,最有效的解决方式是用技术来解决技术的问题,换言之,用模型来监督模型,用AI来监督AI。体量巨大且成本高昂的大模型终归有限,灵活轻便的小模型却人人皆可拥有,“以弱督强”“以小督大”的“超级对齐”大有可为。OpenAI最近的研究表明,用弱模型微调强模型的表现始终优于弱主管,这种由弱到强泛化,也称“超级对齐”。而这种“弱学生”监督“强老师”的超级对齐方式强化了小模型在对齐中的角色与地位。

  (三)超级对齐:小模型成重塑信任的关键角色

  1.小模型的概念定义

  小模型是基于通用大模型参数“瘦身”后针对特定场景、私域数据、部署边缘而训练的模型,分为场景小模型、边缘小模型、私域小模型三类。场景小模型指自我收缩智能化处理问题的边界,从而实现在特定场景中的任务深化的模型,可分为产业场景小模型和用户场景小模型;边缘小模型相对于云端部署与中心计算而言,是部署和计算直接发生在设备本地或离用户较近的模型;私域小模型是基于区块链技术,解决个人隐私和行业隐私问题的模型。相比于大模型,小模型复杂度低、易于理解与调试、灵活轻便,也更易普及。

  2.小模型成重塑信任的关键角色

  从对齐到超级对齐,既是大模型能力提升演变至“超人模型”的过程,也是人类重塑对大模型信任的过程,更是小模型作为重塑社会信任的关键角色的彰显过程。对齐背后的本质问题是信任,关乎人类如何信任“超人AI”。对齐阶段,大模型虽引发诸如内容信任危机、价值信任危机等问题,但瑕不掩瑜,人类仍有能力监督微调大模型,使大模型发展相对可控而不至于脱轨。但面对超人模型,人类监督者作为弱势的一方,缺乏对模型的控制力时,信任从何谈起呢?“超级对齐”出现后,小模型成信任重塑的关键,为人机信任提供了新的可能。

  三、超级对齐中小模型塑造信任的机制分析

  无论是对齐还是超级对齐,它们的本质均涉及信任。在“以小督大”的超级对齐中,小模型成为解决信任问题的关键纽带。

  肯·布兰佳(Ken Blanchard)在《高境界领导力如何打造赋能型团队》(2020)中提出“ABCD信任模型”,这一模型指出建立信任需要四个条件,即有能力的(able)、可信赖的(believable)、善沟通的(connected)、靠得住的(dependable)。“超级对齐”中,场景小模型作为“有能力”的小模型,对齐垂直领域专业问题,有效缓解内容信任危机;私域小模型打造“可信赖的”小模型形象,无论是单边留存抑或联盟信息共享,均有效保障隐私,实现信息高效对接与实时对齐;边缘小模型在边端数据的即时收集与内存扩充中实现稳定与诚实对齐,塑造“可依靠的”小模型形象;最后,在多种小模型的沟通连接中,大小模型联动构建模型社交网络,不同模型在辩论中自证与互证,有效实现模型间的对齐。

  (一)有能力:对齐个性偏好,聚焦垂直领域

  “参数轻量级,性能重量级”的场景小模型既深入用户场景,精准捕获用户需求,化身私人管家与智能助理,亦能聚焦垂直领域,实现专业问题的加细加密加厚,担任行业专家角色,实现用户个性偏好与专业内容的双重对齐,在塑造有能力的小模型形象的过程中增强用户信任。

  1.对齐个性偏好,精准捕获需求

  个人层面,场景小模型作为“私人管家”与“智能助理”,深入私人场景,动态捕获用户需求,精准对齐用户个性偏好,在“懂你”的模型印象打造中累积用户信任。拉扎斯菲尔德的选择性接触理论指出,受众对信息的接触并非不加选择的,而是倾向于接触与自身既有立场、观点、态度等相一致的内容,而小模型在交互中捕获、肯认甚至迎合用户偏好,更易成为用户“选择性接触”的对象。一方面,小模型收集生理、心理、精神三个维度数据,描摹微粒个体的“用户画像”与“情绪曲线”;另一方面,小模型在“场景五力”加持下,观照处于具体时空场景中的用户,把握环境数据,细颗粒解剖用户场景。在全方位、多维度、宽层次的用户把握中精准对齐偏好,获取用户信任。

  2.对齐专业知识,解决垂直问题

  行业层面,场景小模型在垂直领域的专业信息搜集能力赋能其“行业专家”角色,在对齐专业知识上,相比于基础通用而精度和深度不足的大模型,小模型更具专业权威性,更令人信服。大模型在算力、算法、数据的三重束缚下难以深入行业场景,使用范围受限,而场景小模型的部署能拓宽模型应用范围,打开垂直领域的行业市场。同时,针对大模型幻觉所导致的内容真实性信任危机,小模型嵌入行业场景学习专门知识,弥补行业知识的稀疏性与匮乏性,反哺大模型缺失的精深知识,通过扮演“小而美”的“行业专家”角色,提升内容真实可信性,以扎实的专业回答减少“一本正经地胡说八道”,增强用户对模型的信心。

  (二)可信赖:对齐隐私价值,诚实对齐现实

  私域小模型既基于私有链搜集与保护隐私数据,又依靠联盟链打造实时更新的“信息公告板”,在保护用户隐私与诚实的信息更新过程中塑造可信赖形象,实时对齐隐私价值与变动不居的现实。

  1.对齐隐私价值,强化用户信任

  基于私有链的私域小模型,既面向个体用户收集个性数据以提升模型丰富性与表现力,又能有效保护个人隐私,给予用户安全感及在透明的数字化环境中生存的尊严感,从而强化用户信任。同时,面对大模型背景下无差别式的隐私考量,私域小模型通过与个体用户深入交互,基于个体对隐私界定与隐私侵犯感知的差异,廓清个体隐私边界,考虑到隐私价值的个性张力,反向微调大模型均质化且“大一统”式的隐私考量。尊重个性化的隐私价值观亦是小模型以人为本的价值遵循的彰显,信任由此产生。

  2.诚实对齐信息,深刻勾连现实

  基于联盟链的私域小模型,在信息高效共享中实现诚实性对齐。诚实性对齐(alignment for honesty)是指在给定一个知识密集型问题时,如果对齐模型具备相关知识,则应给出正确回答,反之,则拒绝回答这个问题,表明自己的无知。借用孔子之语,所谓诚实性对齐,即“知之为知之,不知为不知,是知也”。基于联盟链的私域小模型可被视为公开的“信息公告板”,这一方面保障信息透明性与可证伪性,只有与客观事实相符合的信息才可通过区块链的共识机制验证进而传播,倘若涉及知识盲区,“信息公告板”允许展现空白、承认相关知识的缺乏;另一方面,在多元用户的参与中,私域小模型实时更新相关领域知识,补足缺失视角,构建有机真实,并借助区块链技术的可追溯性和不可篡改性确保信息共享的可行性和安全性,达到实时对齐已有信息、深刻勾连现实的效果,最终确立用户信任。

  (三)可依靠:完善对齐数据,优化对齐环境

  边缘小模型通过端侧数据存储,优化云端内存,提升推理速度,减少响应时延,优化个性体验及对齐环境,彰显可依靠的特质。

  1.对齐边端数据,补充小众价值

  基于云端数据的对齐强调大众性与公共性,许多端侧数据即便包含人类的价值偏好、个性取向、伦理规则等,由于未曾上传云端,无法在对齐中予以体现,从而带来对齐工作的疏漏与偏颇,当大模型应用于社会决策时,则不可避免地产生某种程度的偏见与忽视。边端小模型搜集以往被忽视的端侧数据,盘活端侧资源,解决对齐数据稀疏性问题,实现全面多元对齐,弥补以往对齐中缺失的微粒价值与小众偏好,平衡对齐偏向性。在大众与小众兼具的价值对齐中塑造“可依靠的”形象,建立用户信任。

  2.优化工作环境,保障稳定对齐

  对齐工作关乎大模型的安全性和无害性,可以说,大模型运转与大模型对齐是齐头并进的两项工作,以人类反馈学习为重的对齐工作可能存在时延而导致对齐环境不畅,边缘小模型可有效缓解该难题,优化对齐环境。聚焦于端侧的边缘小模型一方面缓解了基于云端运作的大模型的数据存储压力和软硬件运行时的资源能耗,通过缓解中心数据过载和内存压力解决对齐中的卡顿和时差现象,以更经济的方式优化用户体验;另一方面可结合实时端侧数据,处理此时此地的端侧对齐任务,最终达到流畅、连续、稳定的对齐。稳定的对齐环境是小模型“可依靠”的形象的重要体现,更是捕获用户信任的关键。

  (四)可连接:模型联动互证,关系网络嵌入

  最后,多样化小模型在“人—模型”以及“模型—模型”的连接中构成海星式的联动关系网络,于交流中形成良好辩论氛围,在连接中自证与互证,探讨协作方式从而达成共识。辩论过程中,“小模型—小模型”辩论达成对齐编码一致性以提升可靠性,“小模型—人—大模型”构成关系网络,共演模型智能。

  1.小模型对齐互证,缓解黑箱效应

  异质化小模型并非孤立运行处理对齐任务,而是相互协同实时交流,在不同模型的“辩论”中自证与互证,单个小模型可增强内部可信度和运行透明性,缓解黑箱效应,众多小模型则达成模型间对齐编码一致性。算法、数据、算力过于庞大甚至臃肿的超级大模型对于个体而言或许不可理解,但体量有限的小模型却具备可解释性与透明性,模型辩论过程本质上是模型解释与辨析自身运行机制和内部规律的过程,在自证与互证下,小模型越辩越明,利于缓解大模型的黑箱效应,从而增加信任。作为整体的小模型,辩论可以实现多智能体对齐,达成对齐编码一致性与稳定性。在辩论中,一个代理(或多个代理)首先对一个问题提出一个答案,然后交替地扮演辩论参与者的角色,提出支持和反对所提出的论点。一个人会充当法官,利用这些论点来选择一个他们认为最准确和最合适的答案。

  2.对齐人际网络,演进模型智能

  与人际网络类似,小模型具备一定社会性和关系性,小模型内部组成“小模型-小模型”式关系网络,小模型外部则可组成“小模型-大模型”或“小模型-人”式关系网络。研究发现社交机器人本身具有社会性,它们采取自组织的方式,依靠自身的行为逻辑,观察自己所处的环境来与邻近的同类进行局部交互,编织关系网。这种人机或机机关系网络的搭建与编织有利于信任的孕育,因为信任嵌于关系并且信任的构建与维系离不开交互。同时,这种不同智能体之间的交互催动小模型智能演进进程,因为模型自证与互证要求小模型锻炼与强化自我解释的能力、与他人沟通的能力、理解他人意义的能力和自我批评并纠偏的能力,这些能力的培养锻炼将促进模型能力的优化与精进,也是模型人性化发展的体现。此外,关系网络的建构孕育双向对齐的可能——机器对齐人类价值,人也在互动中借助机器感知自身价值取向与目标,最终在协作中达成共识。

  四、情感化、透明化、关系化:小模型重塑信任的未来进路

  (一)情感计算打造个性化小模型,塑造情感信任

  “人工智能之父”马文·明斯基曾指出:“如果机器不能够很好地模拟情感,那么人们可能永远也不会觉得机器具有智能。”换言之,倘若大模型无法准确感知、识别、理解并回应个体情感,那么人与机器之间难以实现深层交互及构建信任。未来,情感计算技术会“赋魂”小模型,打造出人性与个性兼具的小模型,以此实现情感化信任的塑造。

  1997年,Rosalind Picard在Affective Computing中提出情感计算并将其定义为关于情感本身、情感产生以及影响情感方面的计算。未来,小模型可从多模态交互与情感建模出发为自身“赋魂”,塑造情感信任。

  多模态情感计算通过提取图像、视频、音频、文本和生理信号等多种模态数据中的情感信号,完成情感的分类、回归、检索任务。相比于广而泛的大模型,更具针对性和个性化的小模型与人类更为亲近,能收集更精细化、多维化的情感信号,对不同模态之间的信息进行互补并用于消歧,使情感分析更为准确,具有更高的鲁棒性,也更贴合人类的自然表达。同时,以公域数据为训练源的大模型倾向于识别群体性情感而对个性化情感观照不足,小模型则兼顾个体情感与集体情感的差异性,小模型聚焦于个性化情感表达和精准回应用户情感需求时,也将人类社会普适的价值观嵌入考量,寻求二者咬合点。不同的情感数据输入促成不同人格和情感表达的小模型,人格化的小模型因而有了一定私人订制和私人专属的色彩,可针对性捕获用户信任。例如,北大ChatLaw团队和FarReel AI Lab合作将迈尔斯·布里格斯性格分类指标(MBTI)融入模型以解决模型人格一致性和个性化问题。

  同时,情感计算的核心在于建模。情感计算的建模过程是通过对生理特征和行为特征的测量,来推测情感状态。人类情感具有波动性和易变性,并非僵化固定的成品,基于大模型的情感建模虽规模庞大,但难以有效兼顾与实时更新情感状态,小模型轻便灵活易调整,基于端侧且面向私域,动态捕获生成中的情感,基本实现与个体情感的同步转化与演变,达至共情状态。在此过程中,小模型一方面拥有一定人格特质,另一方面在情感交互中突破机器身份局限,“智商”与“情商”兼具,未来有望拥有人类不同程度的信任与情感依恋。

  (二)对齐DAO打造透明化小模型,塑造技术信任

  DAO(Decentralized Autonomous Organization),即“去中心化自治组织”。DAO相较于其他社会组织,在区块链算法基础上革命性地赋予普通成员以权力,并以自我驱动的形式激发组织内部的共治架构,更能激发效率和个体积极性,具有更强创造力。分布性、自治性和秩序性是DAO的三大典型特征。大数据、大算力、大能耗和复杂算法作为大模型的技术特征,先天决定了大模型易导致垄断以及技术存在不透明性,故难以此为中心,形成去中心化的DAO模式。相比之下,小模型成本低廉、模型简易、微调灵活,有望成为个人基本配置,换言之,小模型的技术本质特征决定了小模型有形成“对齐DAO”的潜能。因此,未来,围绕小模型形成“对齐DAO”成为小模型重塑信任的可行路径。

  一方面,DAO作为建基于区块链上的社会组织模型,先天被赋予了区块链所拥有的技术信任的特质,基于该组织模式,利用小模型对齐大模型这一路径更易被用户理解与接受。同时,传统的对齐方式只是少部分人类道德专家与技术专家的特权,“以小督大”的“超级对齐”实现对齐权力向普通用户回归。DAO组织的去中心化与人人参与所具有的民主与赋权色彩,进一步意味且确保人人都是小模型对齐大模型工作的参与者、推进者与负责人,这种参与的公开透明即成为信任塑造的关键。

  另一方面,DAO组织的成立为不同小模型间的辩论提供适宜环境,从而缓解“对齐税”问题并达成模型间对齐共识。“对齐税”指经过对齐的大模型尽管具有较强的能力,但其语言建模能力比原始模型或未对齐的模型更弱,对齐效果和模型性能难以平衡。大模型对齐之后损耗的部分性能将由无数小模型补足与完善,无数小模型对齐大模型,调适并完善大模型性能时,小模型内部也在辩论对齐、自我提升,在这种小模型提升大模型与小模型内部提升的双重进程中,“对齐税”问题得到缓解。具体而言,DAO组织内部,小模型间展开交流辩论,辩论的过程也是小模型之间对齐的过程,如果说小模型由于靠拢个体而具备浓厚私人色彩和高度个性特质,那么小模型之间的交互即是一种“信息偶遇”的方式,在辩论中获得他者的观念与判断,拓宽知识集的丰富度与广域度,提升自身表现力与性能。此外,这种交互也是一种“寻求共识”的方式,一个小模型难以穷尽世上所有价值观念,更难以具足这些价值观念,面向私人的小模型往往只能内在对齐与用户相似的某种价值观念,却难以外在对齐所有人的价值观念,而这不可避免地导致某种偏狭与固执。小模型的交互中,每种模型的价值观念在对话、激荡、碰撞,小模型既需要阐明自己的观念,即提升自身可解释性和透明性,也需要识别与理解他人并准确回应,即提升识别、理解与对话的能力。在此过程中,小模型越辩越明,透明性不断提升,不断精化的小模型再反向弥补大模型对齐后的性能折损,最终达到提升技术信任的效果。

  (三)自我治理打造用户赋权型小模型,塑造权力信任

  杜骏飞在谈及对齐问题时曾指出:“一种AI越是强大,越是需要更为强大的来自人的驾驭力。换言之,在‘价值对齐’的另一面,我们要看到更具有决定性、全局性和初始性的问题:‘权力对齐’”,并将“权力对齐”定义为“AI的交往行动力有多大,人对AI的控制就必须有多大;AI迭代过程有多久,人对AI的控制就必须有多久”。人存有对大模型及可能出现的超人模型的不信任,实则是对自身能否拥有控制权力的忧虑。这启发我们:未来重塑信任的关键并非强大且易垄断的大模型,而是人人皆可拥有的小模型——这是对齐权力向个体回归的表现。

  一方面,小模型通过自我治理的形式赋予个体自主权与控制权。未来,小模型实时、连续、稳定地收集并覆盖个人生理、心理等各方面的数据,丰盈的、细颗粒度的、动态的数据打造出个体的“数字化自我”,在某种维度上,小模型可被视为个体的数字孪生。用户通过小模型产生的数据透视自身的学习、工作、生活、健康等各个方面,在个体数据化、外在化的过程中反向微调与控制自身、优化自身,使自己成为更好的自己,这种个人自愿的自我改善和自我提高,将自我追踪视作一种数字权力,也将小模型变为“自我治理”小模型,赋予个体控制感与主体性。

  另一方面,小模型实现对齐权力向个体的回归,其本质是个体的深层赋权。当下的对齐是少部分的、粗颗粒的、语焉不详的,大模型对齐部分人的价值观与偏向性,人类道德专家或技术拥有者等少数精英群体成为对齐工作的定义者与阐释者,但广泛的、普适的、成本低廉的小模型是对个体偏好、价值观的细颗粒度的描摹与深入刻画,人人都可通过微调对齐小模型抵达“超级对齐”。

  结语

  在人类监督者对大模型尚有控制力与监督力时,社会已然存有对大模型的内容信任危机、价值信任危机与模型信任危机。未来,大模型演化至“超人”阶段,人类难以对齐超出自身能力范畴之外的模型,信任将进一步危脆。此时,“以弱督强”“以小督大”的“超级对齐”成为信任重塑之策,小模型更是成为重塑社会信任的关键与要义。

  “有能力的”场景小模型、“可信赖的”私域小模型、“可依靠的”边缘小模型、“可连接的”大模型与小模型协同联动,共同编织模型信任网络。场景小模型对齐垂直领域,解决专业问题;私域小模型对齐个性价值取向,实现与用户同步对齐;边缘小模型对齐边端价值,维稳对齐环境,优化对齐体验。无数小模型与有限大模型连接联动,协同编织信任之网。

  未来,小模型在情感化、透明化与关系化三个维度齐发力,进一步加固社会对模型的情感信任、技术信任与关系信任。质言之,媒介为桥发挥连接作用,以人为本彰显人文考量。在“超级对齐”中,一方面小模型在人与大模型甚至超级大模型之间“牵线搭桥”,借助人性化、轻量化赋予个体对齐权力,为捕获用户信任建立前提;另一方面,小模型的可操作、易微调等优势促成对齐实践落地,培育、收获用户信任,在人机协同中打造可信任的大模型,推动构建可信任的数字传播生态,彰显以人为本的价值关怀与人伦追求。

  文献引用格式

  喻国明,卞中明.大模型时代的信任重塑:小模型实现超级对齐的机制与模式[J].湖南师范大学社会科学学报,2024,53(03):121-129.

  (《湖南师范大学社会科学学报》主编:李培超 副主编:尹金凤 本文责编:尹金凤)

【来源:湖南师大社科学报】

标签:理论