艾伦人工智能研究所(Allen Institute for AI)在周三推出了Molmo,一个开放的多模态AI模型家族。
艾伦人工智能研究所表示,Molmo能够理解来自日常物品和标志的视觉数据。
在一段视频中,这家非营利研究机构展示了Molmo模型如何理解并响应各种图像和物体。用户向Molmo展示一个停车标志,询问问题,模型能够理解该标志的含义。
Molmo模型还可以指向它们所感知的内容。这些模型可以指向开发者屏幕上的用户界面元素。
艾伦人工智能研究所表示,未来计划开放Molmo的语言和视觉训练数据、微调数据、模型权重和源代码。
不过,部分模型权重、推理代码和演示从今天开始已经可以使用。
这些模型有不同的尺寸,包括Molmo 72B、Molmo 7B-D、Molmo 7B-O和Molmo 1B-e。
Molmo-1B模型非常小,可以适配大多数设备,艾伦人工智能研究所表示。
开放模型
Molmo的推出突显了生成AI市场中开放模型与封闭模型之间的受欢迎程度差距很小。
Futurum Group分析师大卫·尼科尔森(David Nicholson)表示:“在AI领域,开放的起步非常迅速,而这在操作系统领域并没有如此迅速。”
在操作系统市场,开源系统如Android和Linux花了多年时间才赶上专有系统如Mac OS和Windows OS。相比之下,开源(即供应商发布源代码)和近似开源(或仅开放)在生成AI市场中已经赶上了封闭源,Meta和独立生成AI供应商Mistral的开放模型已获得了广泛的欢迎。
例如,根据艾伦人工智能研究所的数据,其72B Molmo模型在性能上与OpenAI的GPT 4o和Google的Gemini 1.5专有大型语言模型(LLMs)不相上下。
尼科尔森表示:“通常,如果供应商是真正开放的,它在性能上会有所妥协。”
他补充道:“除非他们完全编造了这些数据,否则他们愿意发布所有模型的信息,同时提供他们所声称的性能,这一点非常了不起。”
视觉数据
艾伦人工智能研究所愿意公开其数据也引人注目,Gartner分析师阿伦·钱德拉塞卡兰(Arun Chandrasekaran)表示。
他指出:“公司在这个领域的透明度越高,特别是像艾伦人工智能研究所这样的学术机构,情况就越好。”
尼科尔森表示,艾伦人工智能研究所专注于视觉,使Molmo模型能够指向和理解外部世界,这是AI模型变得更好、更聪明的途径。
他说:“训练这些系统理解它们‘看到'的东西,对于提升它们的智能至关重要。”
艾伦人工智能研究所还专注于模型作为自主代理的能力。
在另一段视频演示中,Molmo模型完成了一次食品订单并安排了提货。
尼科尔森表示:“如果这些人的说法属实,那么这是一套完全开放的工具,供人们用来构建自己的代理AI,而不仅仅是生成LLMs。”
一些挑战
钱德拉塞卡兰表示,艾伦人工智能研究所面临的一大障碍是需要围绕其模型创建一个生态系统,就像Meta和Mistral正在构建的那样。
他说:“让这些模型对开发者非常可及是一回事,但围绕它建立一个强大的社区,并真正考虑企业需求以及如何激励这个生态系统围绕企业需求运作,则是另外一回事。这是至关重要的。”
他补充说,市场上已经有很多优秀的模型。供应商现在必须考虑如何在这些模型之上构建,以便企业能够更高效地部署这些模型。
他说:“他们必须更深入地考虑可以与这些模型结合的平台工具,使其在广泛的用例中对企业有用。”
尼科尔森表示,目前尚不清楚企业是否会接受艾伦人工智能研究所及其模型。
他说:“这开始时有点像一种慈善努力,这非常有趣,也在当前抵消AI商业化的过程中极为重要。尚不清楚它是否会像Linux那样被接受。”
埃丝特·阿贾奥(Esther Ajao)是TechTarget的编辑新闻撰稿人和播客主持人,专注于人工智能软件和系统。