Ferret-UI是由苹果开发的一个专门理解和与移动用户界面(UI)互动的多模态大语言模型(MLLM)。
它把移动UI的视觉元素和语言元素结合起来,不仅能“看懂”屏幕上的内容,还能理解用户的指令和问题,进而执行任务或提供信息。它的目标是成为一个“通用UI助手”,让它在不同设备上都能理解屏幕上的内容,并根据用户的需求做出相应的操作。
发布时间:2024年11月05日
Ferret-UI是由苹果开发的一个专门理解和与移动用户界面(UI)互动的多模态大语言模型(MLLM)。
它把移动UI的视觉元素和语言元素结合起来,不仅能“看懂”屏幕上的内容,还能理解用户的指令和问题,进而执行任务或提供信息。它的目标是成为一个“通用UI助手”,让它在不同设备上都能理解屏幕上的内容,并根据用户的需求做出相应的操作。
如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。
通义千问大模型AI开放平台,覆盖语言、听觉、多模态等领域;致力于实现接近人类智慧的通用智能,让AI从“单一感官”到“五官全开”