独立开发者 / 大模型算法工程师（SFT + DPO）

Resona

个性化社交回复模型实验，使用真实社区语料、SFT 和 DPO 控制人格一致性。

持续迭代更新：2026-05-05

SFT
DPO
QLoRA
LLM-as-a-Judge

技术栈：Qwen2.5 · LLaMA-Factory · HuggingFace · QLoRA · DPO

GitHub

问题背景

通用大模型在社交回复场景中容易模板化，也容易忽略用户原本的表达风格。Resona 关注的是：在不同人格约束下，模型能否生成更一致、更有边界感的回复。

我的职责

负责数据构建、风格化样本合成、模型微调与效果评估。
从真实社区采集父评论与高赞回复对话对，以高赞数作为质量信号。
利用强模型做语义保持改写与 MBTI 风格化注入，构建覆盖人格、场景和意图的 SFT 数据。
使用 QLoRA 对 Qwen2.5-7B-Instruct 进行 SFT，并通过 DPO 抑制模板腔、说教味和人格漂移。
设计 LLM-as-a-Judge 盲测评估，关注人设一致性、边界感和意图达成。

技术架构

数据侧：真实语料采集、脱敏、去重、安全词过滤、场景 / 意图覆盖检查。
合成侧：MBTI 风格化注入，按 MBTI × 场景 × 意图构造训练样本。
SFT 阶段：使用 MBTI 标签作为条件指令，通过 QLoRA 进行低成本微调。
DPO 阶段：在同一 MBTI 标签下构造 chosen / rejected 对，避免模型把人格差异误学为质量差异。
评估侧：使用 LLM-as-a-Judge 做盲测，关注人设一致性、共情能力、边界感和情绪价值。

核心难点

真实高质量数据稀缺：纯 AI 合成数据容易模板化，需要从真实高赞回复中抽取人类社交直觉。
人格边界控制：模型容易在多轮对话中发生人格漂移，需要 DPO 惩罚偏离人设的回复。
偏好对构造：不能让模型把“外向回复更长”误学成“更好”，因此 chosen / rejected 必须在同一 MBTI 条件下构造。

证据入口

GitHub：https://github.com/wanghong5233/Resona
训练报告 / 评估样例 / 模型卡：待补充

结果与复盘

真实语料和合成数据经过多层清洗，最终保留 4,500+ 条 SFT 样本。
DPO 后有效抑制模型在多轮交互中的人格漂移，人设一致性胜率达到 82%。
在 1000 组真实职场与亲密关系高压冲突测试集中，微调模型经 LLM-as-a-Judge 评估平均分达到 8.9 / 10，同期 Base 模型为 6.2 / 10。
后续重点是补齐公开评估报告、样例对比和模型卡。

设计取舍与后续计划

使用 4 类代表性人格策略做降维，而不是一开始完整覆盖 16 型，优先保证数据质量和实验可控性。
DPO 偏好对强制同标签构造，避免长度、人设差异等混杂因素干扰对齐效果。
后续需要将训练数据治理、评估协议和失败案例整理成更完整的公开复盘。

← 返回作品集