埃隆-马斯克的人工智能公司 xAI 将推出一个可以处理视觉信息的 Grok 语言模型版本。
xAI 周五在其网站上发布了一份新闻稿,宣布推出 Grok 1.5V,即 Grok 1.5 Vision,这是该公司首个在处理文本的同时还能处理视频的人工智能模型。
这一消息意味着 Grok 现在可以处理文档、照片、图表等视觉信息,并使该模型与其他多模态平台竞争。
xAI在新闻稿中写道:“介绍一下我们的第一代多模态模型 Grok-1.5V。除了强大的文本功能,Grok 现在还能处理各种视觉信息,包括文档、图表、截图和照片。Grok-1.5V将很快向我们的早期测试者和现有的Grok用户提供。”
虽然 Grok 1.5V 尚未公开发布,但 xAI 表示,Grok 1.5V 将很快提供给早期测试者和现有的 Grok 用户。
帖子中还包含了详细的基准信息,将 Grok 1.5V 与 OpenAI 的 ChatGPT-4V、Anthropic 的 Claude 3 Sonnet 和 Claude 3 Opus 以及谷歌旗下的 Gemini Pro 1.5 等多模态竞争对手进行了比较。
此外,该版本还分享了 Grok 1.5V 如何使用视觉信息的七个不同示例,包括使用真实世界的图像或将图表转化为代码。
您可以查看下面的 Grok 1.5V 基准图,以及其中两个视觉处理示例。
马斯克在今年早些时候表示,xAI 正准备推出Grok 1.5,多模态模型随之问世。在本周早些时候举行的一次采访中,马斯克还表示,他相信到 2025 年底,我们将拥有比任何人都聪明的人工智能,同时他认为人工智能的计算能力将在短短五年内超过所有人。
上个月,xAI 正式将 Grok 的基础模型权重和网络架构开源,在此之前,马斯克曾多次批评甚至起诉前非营利组织 OpenAI 放弃非营利使命,避免将自己的 GPT 模型开源。
在 1 月份有报道称 xAI 一直在筹集资金之后,马斯克否认了这一指控,并补充说该公司目前没有筹集资金的计划。马斯克于去年 7 月首次推出了 xAI,同年 11 月,xAI 推出了 Grok 作为其首款产品。
原创文章,作者:特来讯,如若转载,请注明出处:https://teslaside.com/news/17314/