English 简体中文 繁體中文 한국 사람 日本語 Deutsch русский بالعربية TÜRKÇE português คนไทย french
查看: 9|回复: 0

首个个性化对齐大模型问世!可精准识别用户内在动机和偏好,还有百万用户画像开源数据集 | 蚂蚁&人大

[复制链接]
查看: 9|回复: 0

首个个性化对齐大模型问世!可精准识别用户内在动机和偏好,还有百万用户画像开源数据集 | 蚂蚁&人大

[复制链接]
查看: 9|回复: 0

243

主题

0

回帖

739

积分

高级会员

积分
739
K1qDZ7VzZ

243

主题

0

回帖

739

积分

高级会员

积分
739
2025-4-8 16:06:08 | 显示全部楼层 |阅读模式
<div id="container" data-v-1d7a5742="" data-element="root" contentScore="11704">如何让大模型更懂「人」?
虽然现有大模型经过了人类价值观对齐训练,但其对齐效果往往会让少数群体的声音被系统性淹没。
那随之而来的问题是,当大模型服务全球用户,标准化对齐范式是否正在制造新的数字鸿沟?
来自人大和蚂蚁的研究团队洞察到传统对齐范式的结构性缺陷:
基于普世原则(如无害性、有用性)的单一价值观体系,本质上是对人类复杂心理图谱的暴力降维。这就像用同一副滤镜处理所有影像,虽能保证基础画质,却抹杀了万千色彩的独特性。
更严峻的是,现有反馈系统收集的「集体智慧」,往往演变成主流偏好的回声室,使得教育背景、文化认同等关键差异项在数据池中悄然消融。
面对这一挑战,研究团队提出大模型应该转向个性化对齐训练
这首先需要构建一个全面而精准的人类偏好表征系统。受到认知科学的启发,研究团队构建了首个90维心理偏好空间,巧妙融合马斯洛需求层次理论、默里需求体系、前沿对齐研究维度与亿级社交平台兴趣图谱。
这个可解释的坐标体系如同数字罗盘,既能定位用户「偏好什么」(如知识获取倾向),更能揭示「为何偏好」(如自我实现需求)。
基于该框架,研究团队构建并开源了首个包含130万用户画像的AlignX数据集,以及基于大规模综合个性化训练的大语言模型AlignXpert。
该模型采用两种互补的个性化对齐方法:
一是通过上下文对齐(In-Context Alignment,ICA)将用户画像直接整合到上下文窗口中进行隐式偏好学习;
二是通过偏好桥接对齐(Preference-Bridged Alignment,PBA)将用户画像映射为结构化偏好分布,在保持对不同用户群体稳健泛化能力的同时,提升了模型的可解释性和可控性。
在4个具有挑战性的基准测试中,AlignXpert对用户偏好的预测准确率实现了平均17.06%的相对提升。
值得一提的是,研究团队同步发布了首篇聚焦个性化对齐的综述论文。
该综述系统性地探讨了大语言模型如何在保持普适伦理边界的同时,实现对个体偏好的精准适配。通过提出统一的技术框架,涵盖偏好记忆管理、个性化生成和基于反馈的对齐机制,为未来更具适应性的伦理对齐模型发展指明方向。这份综述与本文提出的AlignX形成优势互补:综述梳理了技术全景,而AlignX则是从理论到实践的突破性尝试。

该论文的第一作者是中国人民大学高瓴人工智能学院博士生李嘉楠,蚂蚁技术研究院副研究员关健为共同第一作者。
对齐幻象下的千人一面困局

在大模型对齐技术日益精进的表象之下,潜藏着一个被集体忽视的悖论:当开发者不断叠加「无害性」「诚实性」「帮助性」等普世原则时,模型的「价值熵减」现象却愈演愈烈。
这种矛盾集中体现在两大困境:
一是系统性排除效应,少数群体的文化观念、道德立场在默认对齐框架中遭遇静默擦除;
二是适配性塌缩,用户满意度因缺乏个性化响应而持续衰减。
这一危机直指对齐范式的根本缺陷:人类价值观的多元光谱与大模型开发者预设的单一道德坐标系之间,存在着无法弥合的认知鸿沟。

△对某个用户提示的生成空间进行可视化。
在大模型开发者预设的三个普世价值观维度下,现有大模型所对齐的社会偏好密集区域是所有个性化偏好密集区域的平均。
深入剖析现有方法,团队发现主流“一刀切”的对齐技术依赖两大脆弱假设:
一是将复杂的人类偏好压缩为几个单向度指标(如「帮助性(越高越好)」),二是将个体差异简化为同质化数据池中的统计噪声。这种粗放式建模犹如在数据荒漠中盲目绘制用户画像,既无法捕捉价值观冲突中的微妙平衡(如自由表达vs社会规范),更无力应对长尾群体的认知特异性。
尤为严峻的是,基于匿名聚合数据的对齐训练,实质上抹杀了用户画像与偏好维度间的因果纽带,导致模型始终在认知迷雾中摸索。

△AlignX个性化对齐数据示意图。
这个示意图中,包含一个帖子及其两个候选回答,三类人格表征包含行为模式和描述性特征,可实现精准偏好推断并促进偏好学习(右下)。值得注意的是,基于普世价值观对齐的大语言模型(如GPT-4)倾向于选择回答2,与用户倾向于回答1的个性化偏好形成对立。
正如综述论文所指出的,人类偏好并非单一维度的线性优化问题,而是动态、多维且受社会文化深刻影响的复杂系统。
如下图所示,个性化对齐的核心在于构建一个能够动态平衡普适伦理与个体需求的框架。通过引入偏好记忆管理、个性化生成和基于反馈的对齐机制,模型可以在保持伦理边界的同时,精准适配用户偏好。这不仅是技术的突破,更是对“千人一面”困局的深刻反思。

△个性化对齐框架
AlignX:构建可扩展的个性化对齐数据集

面对个性化对齐中多维度偏好建模的复杂性,研究团队提出了一套系统化偏好表征框架,其核心突破在于融合「直接偏好方向」与「间接用户画像」的双重认知架构,将人类需求的底层逻辑转化为可计算的科学语言。
这一创新建立在心理学与社会认知科学的坚实基础上。通过引入结构化表征方法,该框架为大规模用户偏好学习构建了一个「认知操作系统」。
系统通过两个层次建模用户偏好:
(1)全面的偏好空间映射,将90个关键偏好维度(如“安全感”、“社交归属”、“自我实现”等)编码为可量化的方向标签(正向/负向/中性);
(2)多源异构用户画像表示,整合行为模式(包括用户的生成内容、比较式反馈)与描述性特征(即人口统计属性)。
基于该偏好表示框架,研究团队开创了从海量交互数据中可扩展地提炼个性化对齐数据的新范式。从Reddit论坛16亿级真实讨论和现有的多个对齐数据集出发,研究团队构建了包含130万个用户画像的AlignX数据集。AlignX中每条数据被表征成一个五元组,包括用户画像、用户画像隐含的偏好向量、用户Prompt、用户偏好的回复和用户不偏好的回复。AlignX数据集的核心在于将个性化对齐任务形式化为一个条件策略学习问题,使模型能够基于用户画像生成与用户偏好相符的回复。
AlignXpert:解密用户行为中的隐式偏好

基于AlignX数据集,研究团队训练得到能够根据用户画像进行个性化生成的模型AlignXpert。该模型可以通过两种方案实现个性化对齐——上下文对齐(ICA)与偏好桥接对齐(PBA),分别对用户画像隐含的用户偏好进行隐式和显式的建模:ICA:上下文对齐直接将用户画像与用户Prompt拼接为上下文窗口,训练模型捕捉隐式用户偏好,实现零样本泛化能力。该方案巧妙利用大模型的上下文学习特性,从用户画像中隐式地学习隐含的用户偏好。
PBA:偏好桥接对齐引入隐变量显式建模用户偏好方,通过两阶段分解实现可解释的偏好传递:第一阶段将用户画像压缩为偏好方向向量,第二阶段将其转化为自然语言描述注入生成过程。
两大方法形成互补优势:

  • 隐显协同ICA擅长捕捉动态交互模式,PBA精于结构化偏好推理
  • 效率革命ICA利用现成上下文机制,PBA通过用户画像向量化压缩计算开销

△ 对齐方法概述
广泛提升模型对齐能力

实验结果令人振奋!研究团队在涵盖普世价值观对齐(UF-P-4)、真实用户个性化偏好对齐(PRISM、P-Soups)及综合对齐(AlignX-test)的四大具有挑战性的基准上,系统验证了AlignXpert的卓越性能。
1. 跨维度对齐:通用与个性化价值的双重征服
AlignXpert在通用价值观与个性化偏好场景中均展现卓越表现。虽然基准模型在普世价值观(UF-P-4)上表现良好,但它们在个性化偏好(P-Soups、AlignX-test)上表现欠佳。AlignXpert在两种场景下均保持卓越性能,并在分布外基准测试中展现出强大的泛化能力,在PRISM/ P-Soups上分别以9.83%/32.25%的优势超越基线。

△ 不同模型在含各类用户画像的偏好对齐任务中的对齐准确率(%)

△GPT-4胜率(M1:Llama-3.1-8B-Instruct;M2:AlignXpert-ICA;M3:AlignXpert-PBA)
2. 泛化未来:新偏好维度快速适配
研究团队探究AlignXpert在AlignX上的偏好对齐训练是否为适应新偏好维度提供了更优的初始化参数。基于两个新维度——“幽默”(诙谐vs严肃)与”实用主义”(实践导向vs理论导向),研究团队构建了包含6,355个训练样本和1,000个测试样本的数据集。

对比三种适应方法:(1) 在ICA框架下微调Llama-3.1-8B-Instruct,(2) 在ICA框架下微调AlignXpert-ICA,(3) 在PBA框架下微调AlignXpert-PBA。两种AlignXpert变体均显著超越Llama基线(p值
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

243

主题

0

回帖

739

积分

高级会员

积分
739

QQ|智能设备 | 粤ICP备2024353841号-1

GMT+8, 2025-5-2 10:09 , Processed in 2.844780 second(s), 24 queries .

Powered by 智能设备

©2025