王鸿

独立开发者 / 大模型算法工程师(SFT + DPO)

Resona

个性化社交回复模型实验,使用真实社区语料、SFT 和 DPO 控制人格一致性。

持续迭代 更新:2026-05-05
  • SFT
  • DPO
  • QLoRA
  • LLM-as-a-Judge

技术栈:Qwen2.5 · LLaMA-Factory · HuggingFace · QLoRA · DPO

问题背景

通用大模型在社交回复场景中容易模板化,也容易忽略用户原本的表达风格。Resona 关注的是:在不同人格约束下,模型能否生成更一致、更有边界感的回复。

我的职责

技术架构

核心难点

证据入口

结果与复盘

设计取舍与后续计划

← 返回作品集