在开发漫画翻译与漫画分析项目时,我自制了一个谷歌NotebookLM,并以此为基础构建了一个RAG知识库。这个项目名为Saber-Translator,是一个能够一键翻译各种语言漫画并生成熟肉图的工具,同时还能对漫画进行剧情分析和智能问答。下面,我将分享我的开发思路和经验。

首先,我聚焦于如何用文字描述每一张漫画图片。我采用了多模态模型来读取图片,并进行了优化,比如在一次请求中发送多张图片(例如5张),让AI生成每张图片的剧情描述并总结这批图片的内容。为了增强AI分析的连贯性,我还会将前几个批次的小总结附送给AI,确保每次分析时AI都有至少10页的前文参考,从而获得剧情连贯、描述清晰的单页摘要。

获得文本形式的单页描述后,我利用这些文本构建了RAG智能问答系统和剧情概览功能。在RAG智能问答系统中,我使用了向量检索技术来快速检索与用户提问语义相近的文本片段,并将这些片段作为上文提供给LLM模型,以特定提示词进行限制,使LLM模型仅参考文本知识库进行回答。

在搭建RAG知识库时,我直接将每一页的摘要作为文本块,并引入了父子分块的功能,当检索到某页时返回该页所属批次的完整内容,为模型提供更丰富的上下文。对于用户的问题,我设计了推理检索功能,将复杂问题分解为多个子问题,分别检索后整合结果作为模型上文,对用户的问题进行回答。

关于剧情概览功能,我使用了大模型压缩的思路,将长文本分段发给LLM大模型,让模型输出每一段的总结,再拼成一个主要剧情基本不变但字数减少的剧情概要。为了适配不同篇幅的漫画,我制作了多种分析架构。此外,我还内置了多套提示词模板,以输出各种剧情分析概览。

以上就是Saber Translator的漫画分析功能的技术分享。对于漫画这一特殊领域,可以说基本实现了谷歌NotebookLM的效果和准确率。未来,我计划基于此自动生成漫画术语表以及生成漫画中每个角色的角色卡,能够直接导入到酒馆中与漫画主角聊天。感兴趣的朋友可以部署项目进行体验,或给项目点个star作为支持。

标签: none

评论已关闭