独立开发者 / 大模型算法工程师(SFT + DPO)
Resona
个性化社交回复模型实验,使用真实社区语料、SFT 和 DPO 控制人格一致性。
持续迭代 更新:2026-05-05
- SFT
- DPO
- QLoRA
- LLM-as-a-Judge
技术栈:Qwen2.5 · LLaMA-Factory · HuggingFace · QLoRA · DPO
问题背景
通用大模型在社交回复场景中容易模板化,也容易忽略用户原本的表达风格。Resona 关注的是:在不同人格约束下,模型能否生成更一致、更有边界感的回复。
我的职责
- 负责数据构建、风格化样本合成、模型微调与效果评估。
- 从真实社区采集父评论与高赞回复对话对,以高赞数作为质量信号。
- 利用强模型做语义保持改写与 MBTI 风格化注入,构建覆盖人格、场景和意图的 SFT 数据。
- 使用 QLoRA 对 Qwen2.5-7B-Instruct 进行 SFT,并通过 DPO 抑制模板腔、说教味和人格漂移。
- 设计 LLM-as-a-Judge 盲测评估,关注人设一致性、边界感和意图达成。
技术架构
- 数据侧:真实语料采集、脱敏、去重、安全词过滤、场景 / 意图覆盖检查。
- 合成侧:MBTI 风格化注入,按 MBTI × 场景 × 意图构造训练样本。
- SFT 阶段:使用 MBTI 标签作为条件指令,通过 QLoRA 进行低成本微调。
- DPO 阶段:在同一 MBTI 标签下构造 chosen / rejected 对,避免模型把人格差异误学为质量差异。
- 评估侧:使用 LLM-as-a-Judge 做盲测,关注人设一致性、共情能力、边界感和情绪价值。
核心难点
- 真实高质量数据稀缺:纯 AI 合成数据容易模板化,需要从真实高赞回复中抽取人类社交直觉。
- 人格边界控制:模型容易在多轮对话中发生人格漂移,需要 DPO 惩罚偏离人设的回复。
- 偏好对构造:不能让模型把“外向回复更长”误学成“更好”,因此 chosen / rejected 必须在同一 MBTI 条件下构造。
证据入口
- GitHub:https://github.com/wanghong5233/Resona
- 训练报告 / 评估样例 / 模型卡:待补充
结果与复盘
- 真实语料和合成数据经过多层清洗,最终保留 4,500+ 条 SFT 样本。
- DPO 后有效抑制模型在多轮交互中的人格漂移,人设一致性胜率达到 82%。
- 在 1000 组真实职场与亲密关系高压冲突测试集中,微调模型经 LLM-as-a-Judge 评估平均分达到 8.9 / 10,同期 Base 模型为 6.2 / 10。
- 后续重点是补齐公开评估报告、样例对比和模型卡。
设计取舍与后续计划
- 使用 4 类代表性人格策略做降维,而不是一开始完整覆盖 16 型,优先保证数据质量和实验可控性。
- DPO 偏好对强制同标签构造,避免长度、人设差异等混杂因素干扰对齐效果。
- 后续需要将训练数据治理、评估协议和失败案例整理成更完整的公开复盘。