全国统一服务热线 0791-87879191

新闻资讯
产品中心
楼宇自控 智能照明 智能建筑管理 智能传感 智慧物联 智能组态 阀门自控 智慧监管
经典案例
楼宇 工厂 酒店 文博 枢纽 行业
关于我们

康沃思以数字、 物联、 数据、 AI为基础,以自主研发的DDC产品和自主领先的物联网框架,聚焦智能建筑和行业数字化转型,建设物联网基础设施。

0791-87879191

“通往类人智能的大门正在打开”

时间:2023-01-13

原观察者网 观察者网

► 专访观察者网周元芳编辑吕东

在人脑中,语义是最神秘的。

在神经科学实验中智能门,当看一张猴子的图片时,大脑视觉相关区域的神经活动会更加活跃; 当听到声音时,声音相关区域的神经活动会更加活跃。 但是当大脑在想象一只猴子时,大脑更大的区域被激活了。 语义是人工智能技术中最难表征和处理的。 实际上,它是人的多种感知模式相互融合、相互关联、相互协调、相互激活的结果。

目前,人工智能正在学习这种多模态交互的认知过程。

7月9日,在2021世界人工智能大会(WAIC)升华人工智能高峰论坛上,中国科学院自动化研究所所长徐波正式报告了跨模态通用人工智能平台。 该平台以全球首个图像、文本、音频(视觉、文本、语音)三模态预训练模型为核心,基于国产化自主AI基础软硬件平台(升腾)开发实现。 ,朝着更通用的人工智能迈出了一步。

会后,观察者网就人工智能发展的现实意义、多模态大模型的发展现状、中外人工智能的技术比较、应用三模态大模型的案例与未来展望,通用人工智能的路径探索等话题进行讨论。

徐波指出,人工智能是一项使能技术,将成为未来社会经济生活无处不在的“引擎”,“大数据+大模型+多模态”将改变当前人工智能研发范式在单一模型对应单一任务和产业范式中,多模态大模型将成为不同领域的通用平台技术,是对通向通用人工智能路径的探索。 全栈国产化通用人工智能平台的实践,对于我国实现人工智能领域技术创新、占领核心技术制高点具有重要战略意义。

徐波在升腾人工智能高峰论坛上发表演讲 图片来源:中国科学院自动化研究所

以下为采访实录:

观察者网:我们看到,中国目前正在不遗余力地投入人工智能技术研发。 作为人工智能行业的专家,您认为继续探索人工智能技术创新之路对整个行业和社会的发展有何意义?

徐波:人工智能本质上是一种使能技术。 随着社会的不断发展进步,人工智能作为社会经济生活的“引擎”,无处不在推动着众多行业的智能化发展。 在人工智能不断与行业融合创新的同时,也会出现各种形式的变化,呈现出百花齐放的现象。

人工智能作为新一轮科技革命和产业变革的重要推动力,改变了许多现有的流程、观念、生产方式和组织形式。 它将进一步解放和发展社会生产力,深刻改变人们的观念。 当前,人工智能正在全方位赋能商业、教育、医疗、制造、交通和社会治理,成为不可或缺的发展引擎。 然而,人工智能的发展与创新绝非一帆风顺。 在短时间内,相关技术将经历艰难攀登、突破临界点、遇到新瓶颈的螺旋式发展过程。

观察者网:自从国外公司的GPT3、华为的盘古等人工智能模型出现以来,无监督学习发展迅速。 预训练大模型发展到什么阶段了?

徐博:图灵奖获得者Yann LeCun曾经说过,如果说智能是一块蛋糕,那么蛋糕的主体是无监督学习,锦上添花的是监督学习,蛋糕上的樱桃是强化学习。 人类对世界的认识主要来自于大量未标记的信息。

“蛋糕学科”指的是无监督学习。 当今很多人工智能遇到的可信性和鲁棒性问题,本质问题是现有的人工智能缺乏语义层面的认知。 认知就像漂浮在海平面上的冰山。 自然语言是冰山一角浮出水面,理解自然语言的基础是大量的人类常识、背景知识、领域知识等世界知识。 这是冰山表面以下无法看到的部分。 这些统称为“语义空间”。 现有的人工智能系统很难完整准确地表达这些语义空间。 比如“张三吃大碗”、“张三吃食堂”、“张三吃面条”这三句话。 “张三吃大碗”不是说张三吃大碗,“张三吃食堂”不是说要吃食堂。 这个表达背后的逻辑可能是食堂是一个很多人吃饭的地方。 在食堂吃饭,张三家里可能不会做饭,就在食堂吃饭。 对于人工智能来说,需要具备这些相关的背景知识,才能理解人类容易理解的“张三吃食堂”这句话。 人工智能需要学习大量的背景知识才能理解自然语言。 这就是“认知冰山”的问题,而获得认知的关键是海平面以下的冰山。 一些人工智能专家将这种大量的背景知识称为人工智能的“暗物质”。 如何将这些“暗物质”挖掘出来,放入一个系统中? 无监督学习是一种途径。

这种“暗物质”隐含在我们的图片、日常对话和大量文本中。 然而,目前大多数预训练仍然是单峰的。 “百闻不如一见”。 一个潜在的复杂语义表达只能通过查看图片来理解。 同时,人声中也包含着情绪和感受。 只有准确地捕捉到这些细节,才有可能理解语言背后的真正含义,而不仅仅是文本表面的意思。 那么,如何才能有效地将声音、图片、文字等信息同时进行整合呢?

此次,我们在武汉人工智能计算中心的算力支持下,研发出全球首个三模态大型模型“紫动太初”,在实现图文音统一表达方面取得重要进展。 现有的多模态预训练模型通常只考虑图像和文本,或者视频和文本两种模态,不仅忽略了周围环境中无处不在的语音信息,而且模型在理解和生成能力上都不够好,很难在生成任务和理解任务上都取得了不错的表现。 我们首次引入语音信息,通过统一的语义空间网络表达生成三模态模型,可以学习到刚才提到的“认知冰山”或“暗物质”的巨大语义空间,可以更接近真实的人类情感和思维。 尤其是由于加入了主打交互功能的语音,让我们的大模型一下子“活”了起来,人工智能迈向了更高层次的通用人工智能。

“自动太初”三模态训练模型采用多层次多任务自监督预训练学习方法,论文已发表。 最重要的是提出了三模态数据的统一语义表达,可以同时支持三种或任意两种模态的多种数据预训练。 该模型不仅可以实现跨模态理解,还可以实现跨模态生成,在理解和生成这两种最重要的认知能力之间取得平衡,并首次实现了从图片生成声音和从声音生成图片的功能.

三模态大模型可以学习到人类许多与生俱来的东西,挖掘和表达“认知冰山”表层之下的东西。 此外,单峰预训练模型越大越好,但三峰模型的重点是探索如何让它更“聪明”。 要使三峰大模型正确,还有很多工作要做,但我们已经朝着正确的方向迈出了重要的一步。

睿祺智能门_智能门控制系统_智能门

观察者网:多模态大模型“紫动太初”的名字内涵是否包含某种开辟天地的寓意?

徐博:可以这样理解,人工智能向类人智能迈进智能门,相当于混沌的开始,也是感知智能向通用智能迈出重要的第一步。

一个比较有意思的话题是,人工智能领域之外的人,比如哲学、科幻小说,特别喜欢讨论人工智能的一些终极问题,比如机器人可能统治人类的可能性,同时涉及到一些更高等的问题。级伦理问题。 但绝大多数人工智能领域的科学家都非常清楚,现有的人工智能与真正的人类智能相差甚远。

“自动太初”三模态模型研制成功后,我们似乎感觉到,通向比现有人工智能更强大的通用人工智能的大门正在打开。 有时,我们甚至会思考如何让人工智能依附在一个好的身体上,更好地感知自然和社会环境中的信息,并进一步处理类似于情感和情绪的信息,AI会有更大的发展和更好的灵活性。 一旦突破这个门槛,人工智能的发展很可能会出现指数级增长。 这是一个即将爆发并呈现爆炸性增长的领域。

观察者网:这款多模态大模型的技术水平与国外同行相比如何?

徐博:“紫动太初”是世界上第一个三模态大型模型。 目前世界上研究单模态大规模模型(图像、文本)的人较多,而研究大规模语音模型的人相对较少。 我们是为数不多的同时拥有图文音频研究储备和基础的研究所之一。 此次,自动化所系统整理收集了多年积累的多模态数据库,将图形、文本、音频三种模态统一在一个共同的语义空间中进行相互转换、统一表达。 第一的。 通过巧妙地构建多模态大模型,我们的图像技术、语音技术和文本技术都超越了现有技术水平。 过去,业界习惯于使用监督学习,但我们的技术对标签数据的依赖较少,改变了人工智能训练需要标签大数据的固有模式。

首先,业界领先的中文预训练模型、语音预训练模型、视觉预训练模型是我们三模态模型的基础。 例如,视觉预训练模型首次实现了超越监督学习的性能,速度比其他方法快8倍。 在语义分割结果上,也超越了监督学习的水平。 在中文预训练模型中,提出了任务感知和推理增强模型,与GPT-3相比性能有显着提升。 语音预训练模型,针对语音领域语言多样化、标注成本高的问题,在基于语音预训练的多语言、多任务、低资源关键技术上取得突破,使我们能够用很少的标记数据实现语音。 识别性能有了很大的提高。

然后我们在统一的语义空间网络表达上实现了模态之间的高效协作和相互转换,在多任务中取得了更优异的表现。 在跨模态检索和图文语义转换方面,比两种模态具有更丰富的表达和生成能力。 添加语音加速后,我们的大模型可以自然流畅地与人类进行交互。 这意味着我们的人工智能技术在公共语义空间的表示上取得了重要进展。

观察者网:AI应用场景的碎片化需求正在成为AI算法落地的最大挑战。 三模态大模型可实现多模态对话、视频播报、声生图、图生音。 这很有趣。 未来是不是所有的问题都通过一个统一的大模型来解决?

徐波:我觉得很有可能。 我们人类主要有两种能力,一种是与生俱来的能力,到了一定的年龄,通过基础的学习,自然而然的就能学会说话走路。 另一个是专业技能。 如果你想学习弹奏钢琴、水墨画等,你仍然需要经过长期的专业训练才能实现,因为这改变了人的特定知识结构。

多模态大模型为通用人工智能的研究奠定了非常好的基础。 人类的基本知识、常识、看到的一些场景和物体,以及从物理世界看到的很多东西,都可以隐藏在这个大模型中。 比如你要做语音识别,现在可以用少量的数据,甚至可以逐步实现不需要监督的数据学习。

虽然预训练模型作为base model并不是万能的,但是人工智能的研究范式和产业范式都会发生一些变化。 比如现在业界都在讲开源算法,但是算法的维护成本非常高,尤其是现在人工智能人才稀缺。 未来,模型将在人工智能领域开放。 客户可以获得大型模型的接口并添加一点数据。 问题是可以解决的,就是“大模型+小数据”,这是我们未来希望看到的大模型给行业带来的赋能。 这种大模型技术从学术成果到产业的转化可能需要很长时间,但我认为不会太久。 这些新技术将在未来2-4年内逐步应用。

观察者网:能不能谈谈紫动太初这个多模态大模型利用声像和图像产生声音的应用案例?

徐博:以图生隐为例。 可以不经过文本直接在通用的语义空间进行转换,是语义到语音的直接合成。 对于声音生成图,它不是先识别语音再进行文本检索,而是直接将声音转换成语义空间中的图像。 那么为什么说这是通用人工智能路径的探索,即通过图形、文本和声音三种模态,我们可以固化一个非常模糊但对人类非常有用的语义空间表示,但是我们不知道人脑如何表达它。

图片中的声音

声音生成的图像

此外,我们还可以通过语义空间的直接转换,给出一个多模态大模型的交互演示,其中涉及到很多语音识别、语音合成,包括图像描述、汉语延续等。 结束。

人机对话演示。多模态大模型具备丰富的图文音频理解能力。 不同于单模态的GPT3,沟通更自然顺畅

这一系列的展示是非常人性化的多模态交互。 可任意输入语音、图像或文本,输出语音、图像、文本中的任意一种,真正实现三种模式的关联和协同。 其中就有我们所说的“统一语义空间”。

智能门_睿祺智能门_智能门控制系统

以下是三个主要观点。 一是大数据+大模型+多模态,将改变目前人工智能单一模型、单一任务的研发模式,多模态大模型将成为不同领域的通用平台技术。 其次,在目前的研究中,有一种惯性思维,认为人工智能一定要用大数据,当知识和数据混合驱动,来增强模型的可信度和可理解性,我相信随着这些技术的发展,人工智能学习将越来越不依赖于标记数据。

此外,国产化通用人工智能技术门槛高,需要大量资金和数据支持,将导致人工智能研究规律发生重大变化,是我国实现科技进步的重要战略。人工智能领域的创新和占据核心技术高地意义重大。 用图片生成声音,用声音生成图片,效果甚至超乎我们自己的想象,这也给我们带来了启发,让我们对未来的人工智能增添了无限的想象空间。 因此,多模态大模型人工智能值得我们进一步探索,值得我们进一步探索结构更巧妙、规模更大、理解能力更强的模型和相应的评价标准,也值得我们进一步探索。我们将此类技术与行业需求进行比较。 很好结合。

举一些更真实的例子。 例如,使用大模型可以实现欧洲杯转播的人工智能自动解说; 在影视拍摄领域,可根据剧本文字自动生成图片和场景,供导演再加工; 在教育领域,可以根据语义内涵自动生成图片和场景声音,甚至生成全新的音乐(而不是从已有的曲库中选择),类似于妈妈给孩子讲故事等功能的实现,使人工智能具有初步的想象力和艺术创造力。 其实这和人脑的工作机制很相似。

观察者网:紫动太初迅速上线的主要原因是什么?

徐波:这涉及到很多方面的原因。

首先,主要得益于非常强大的基础研究能力。 通过多模态实现更强大的人工智能一直是我们的梦想。 去年以来,在各课题组单模态大模型取得阶段性成果的基础上,联合组织内优势力量共同投入多模态研究; ,利用升腾芯片和全场景人工智能计算框架构建多模态通用人工智能平台,通过对外交流合作,大大加速了这一进程。 目前平台拥有三大关键技术(多模态理解与生成多任务统一建模、本地化软硬件高效训练与部署、多模态预训练模型架构设计与优化)、六大核心能力(多模态统一表示与语义关联、跨模态内容转换与生成、预训练模型网络架构设计、标签约束自监督模型学习、模型适配与分布式训练、模型轻量化与推理加速)。

在这里,应该纠正一个误解。 模型越大越好。 大模型发布后,如何降低权重加速推理是研究的重要方向之一。 相较于单一模式和图文两种模式,目前图文音频三模态大模型可以支持全场景的人工智能应用,包括视频配音、语音播放、标题摘要、海报制作、交叉-模态状态检索、图像生成等。

此外,三模态大模型与国产软硬件的技术合作非常重要。 未来,人工智能将成为人类社会的基础设施。 就像今天的水、电、煤一样,这些技术必须是自主可控的。 目前,国内已经具备全栈基础软硬件能力。 实现从“能用”到“很好用”的成熟生态系统,需要多方合作。

观察者网:作为人工智能领域的国家队,中科院自动化所的多模态大模型是如何布局的?

徐波:中科院自动化所以打造新时代智能科技战略科技力量为己任。 拥有模式识别国家重点实验室和复杂系统管理与控制国家重点实验室两大人工智能研究平台。 依托这两个国家级平台,在机器学习、图像与视频、语音与语言、智能机器人、智慧医疗、社会计算等领域取得了丰富的研究成果,并获得多项国家级奖项。

我们一直在探索更强大的人工智能,通过多模态实现更通用的人工智能是主要研究方向之一。 通用智能不同于强人工智能,但至少应该适应不同的环境和任务转移。 在现有语音、图像、视频、文本等单模态研究的基础上,重点研究多模态学习、多模态语义统一表示、大规模训练平台、多模态数据和评价的基础理论标准。 多团队联合研究。

同时,我们不断加强对外合作与交流。 通过我们和华为升腾、武汉人工智能计算中心的合作,我们终于把多模态大模型做出来了。 通用人工智能之路需要不断探索,不能坐以待毙。 只有做出一些阶段性的成果,才能对人工智能的技术发展路线和未来发展方向有更清晰的认识。

武汉人工智能计算中心

观察者网:在研究多模态大模型的时候,有没有考虑到AI的产业化和普惠性?

徐波:这个问题还需要进一步探讨。 现在市场上有很多音视频处理的需求,真的很适合我们多模态的信息处理能力。 《紫动太初》刚刚诞生,就已经开始在一些场景中使用。 下一步,我们计划继续优化这个平台,按照节奏计划对外开放。 同时,我们会把更多的精力放在多模态大模型上,让它更精准、更高效、更节能。 这将对当前的人工智能研发模式和产学研转化模式带来巨大变革。

观察者网:最后一个问题,为什么说跨模态人工智能平台的研究是对通用人工智能路径的探索?

徐博:大家比较关心的是通用人工智能,因为它会对现有的人工智能研发范式产生颠覆性的影响。 但什么是人工智能? 只是强人工智能吗? 难道只是像人类一样的人工智能吗? 这些都没有特别明确的定义。 但业内普遍认为,通用人工智能必须具备“泛化能力”,必须以更小的代价完成多任务的迁移和执行。

通用人工智能一直是技术界的梦想,不同的专家正在从不同的路径探索。 有人希望通过复制人脑或受人脑启发,实现通用人工智能; 他们希望通过进化博弈的方法,最终走向通用人工智能。 预训练大模型是基于数据自监督学习的智能探索。 不同路径解决的阶段性问题各有侧重,但最终一定会融为一体。 目前,多模态大模型走在前列。 “自动太初”是最新的尝试,尤其是在语义空间表示上的突破,将给人工智能的泛化带来巨大变革。

毫无疑问,门正在打开。

来源|观察者网

【安展网时事聚焦】消防行业智库此前发表的《应急行业“智能+”解析》一文提到,“智能+”将对应急行业的发展产生深远影响。

今年政府工作报告提到,要健全国家应急体系,提高防灾减灾救灾能力。 加强安全生产,防范和遏制重大事故。 做好地震、气象、水文、地质、测绘等工作。深化法制宣传教育。 加强国家安全。

完善国家应急体系无疑将为应急产业的发展带来更大机遇,尤其是在“智能+”的推动下,应急产业将为提升产业品质注入更多科技力量。 作为应急体系的重要组成部分,消防行业在政策利好、技术注入等因素的助力下,将如何发展?

我们从应用层面入手,分析智慧消防建设现状。

一是在智慧消防建设上,浙江走在了前列,主要表现在三个方面:

首先,浙江是全国开展智慧城市建设的省份之一。

浙江智慧城市建设始于2012年,全省分三批共启动20个智慧城市建设示范试点。 各示范试点责任单位开发了云、管(网)、端一体化的专用业务应用平台。

在这些示范试点项目中,包括智慧消防、智慧安监、智慧住宅等领域,已形成至少一个地级市试点布局。

二是浙江出台多项政策措施支持智慧消防建设。

除了《浙江省人民政府办公厅关于加强高层建筑消防安全综合治理的意见》和《浙江省人民政府办公厅关于贯彻落实实施办法的若干意见》 “消防安全责任制”,浙江省杭州市余杭区政府依托“城市大脑·社会治理二期工程”,积极推进消防物联网建设,每年投入资金3120万元安装独立光电烟雾探测报警器65万只。

此外,浙江省消防队与企业携手推进智慧消防落地。

消防队作为具体的执行者和建设者,积极与智慧企业合作,探索智慧消防建设之路。 例如,浙江省公安消防总队与中国电信浙江公司签署战略合作协议,共同推进“智慧消防”创新云平台建设。 该平台将综合运用物联网、云计算、大数据、移动互联网等新兴技术,加快建设“智慧消防”,实现“传统消防”向“现代消防”的转变。

二是在智慧消防建设中,建设重点呈现多元化,具体表现在:

首先,根据自身特点,搭建了以监管为主的智慧消防平台。 例如,山东省烟台市已有10000多个单位接入“智慧消防安全服务云平台”,达到了消防监管的目的,消除了部分火情。 隐患。 然而,这些平台在取得一定成效的同时,也逐渐暴露出管理智能化、集中化、标准化、不统一等问题。

其次,即使数据采集、数据分析、数据预警是建设的核心,不同地区也会建设不同。 以四川成都市为例,其智慧消防建设主要由全过程可视化灭火救援辅助决策系统、群防群控服务系统等组成,建设重点围绕“信息处理、数据预警、指挥。”

湖北省宜昌市智慧消防系统由公共服务系统、灭火救援系统、重点单位系统等部分组成,主要围绕“信息采集与反馈优化”。

广西壮族自治区南宁市将智慧消防纳入智慧城市建设总体战略规划。 在建设过程中,既强调消防救援系统的“纵向衔接”,又加强与政府相关职能部门的数据“横向互通”,形成对外数据采集传输的共治共享。

从以上内容不难看出,智慧消防的建设确实在路上,但因为要走的路太多,已经走出多元化之路。

那么,能否用“智能+”的思维打通智慧消防建设的所有道路呢? 即如何提升智慧消防施工质量,消防行业智库从智慧消防施工应用层面分析,目前存在哪些问题?

首先,在物联网技术方面,各种协议和解决方案的“割据”严重影响了多个不同网络之间数据的有效交换;

二是在数据处理方面,大量非结构化、杂乱冗余的“大数据”对物联网的数据挖掘、计算、降噪等造成了很大的技术障碍;

三是在资源方面,由于缺乏顶层建设标准,无法对多部门硬件系统和数据资源进行引导和协调,造成重复规划建设和资源浪费;

第四,在应用方面,“单兵作战”“就事论事”。 由于缺乏统一的标准接口,信息集成和综合应用困难,使得相关项目偏离了智慧消防发展的主线,对消防运行管理的支撑效率不高,现场不规范。宽的;

第五,在标准方面,没有科学适用和包容性的建设标准,就无法实现相关方在智能化层面的协调配合,并在此基础上实现与全市运行管理的融合。

基于以上内容,制定顶层建设标准是智慧消防建设的关键。

人工智能、互联网、大数据、物联网共同构成了智慧消防的技术核心。 “智能+”恰恰将人工智能与产业发展、经济转型、社会治理、文化消费、城市创新更紧密地结合在一起。 .

在此背景下,“智能+”不能简单理解为科技产业或平台,而应作为推进新型智能化管理的重要理念和重要手段,以推动和优化智能化消防标准为切入点,不断提升智慧消防新建工程质量。

要把“智能+”作为智能消防标准制定的重要内容,按照“加强顶层设计,完善法规标准”的要求,在具体研究制定中智慧消防,以应用为导向统筹规划,做到层次清晰、组织清晰、可操作性强,同时跳出技术和投资层面,进入技术集成、综合管理、需求捕捉和完整实现的系统层面,能引导全要素智慧消防全周期活动。

以“智能+”推动智慧消防重要标准制定。

一是智慧消防顶层设计标准。 用于确定智慧消防从理想目标到规划、建设、管理、服务的具体路径,建立智慧消防总体目标与具体措施之间的规律性联系,为开展工作提供指导。

二是智能消防评价标准。 类似国家已发布实施GB/T 33356《新型智慧城市评价指标》等评价标准和GB/T 36333《智慧城市顶层设计导则》等设计指导标准智慧消防,科学评价智慧城市发展轨迹消防和控制建设和发展的进度。 节奏和质量。

三是数据利用和共享标准。 建立多源数据挖掘、融合、共享所需的标准,可以降低数据生产成本,提高数据利用效率,有利于解决大量数据的浪费闲置和低效配置,实现数据有效用于特定火灾管理需求定义和挖掘,通过有针对性的数据处理操作,得出可靠的结论来指导应急决策,充分发挥大数据对应急管理的助推作用。

“智能+”的提出,将更容易整合科技资源,提升消防技术创新能力,促进创新成果应用,促进产业融合发展,逐步形成消防新业态。智能消防产业。 加快相关标准化建设,充分发挥标准在智慧消防发展中的作用。