Magi模型,由牛津大学工程科学系的视觉几何组开发。这项研究的核心目标是通过人工智能技术自动为漫画生成文字剧本,使得视觉障碍人士(PVI)也能够享受漫画的乐趣。
它可以全自动地为漫画页生成剧本,包括谁说了什么以及何时说的。通过识别漫画页面上的面板、文字块和角色,以及如何将它们相互关联。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
SceneXplain,一个能讲述图片背后故事的API服务。我们把最新的大模型应用到图像上的每一个细节,为每一张图片生成细致的文本描述。