正在微调一个名为 Muice-Hunyuan-7B-Instruct 的模型。这个模型是基于 Qwen3-8B 进行微调的。在之前的讨论中,有人提到 Qwen3-8B 的上下文长度较小,可能不适合角色扮演。相比之下,Hunyuan-7B-Instruct 拥有原生的 256K 上下文长度,参数更小,但中文能力接近甚至超过 Qwen3-8B,数学能力也更强。因此,这次选择使用 Hunyuan-7B-Instruct 进行微调。预计大约1小时后完成。讨论可以在 (https:///t/topic/1014909) 上继续进行。

标签: none

评论已关闭