华为重磅!

2024年06月23日 | 小微 | 浏览量:71271

华为重磅!
图片来源于网络,如有侵权,请联系删除

【导读】 实探“AI的盛宴”!华为开发者大会带来什么启示?

中国基金报记者 冯尧

华为重磅!
图片来源于网络,如有侵权,请联系删除

为期3天(6月21日至23日)的“华为开发者大会2024”,给业界带来了不少惊喜:被称为“纯血鸿蒙”的鸿蒙NEXT面世、“夸父”人形机器人亮相、盘古大模型5.0发布……

华为重磅!
图片来源于网络,如有侵权,请联系删除

其中,鸿蒙NEXT恐怕是迄今为止最“聪明”的鸿蒙系统,其最为重要的三大特点之一,便是原生智能能力。华为提出了“鸿蒙原生智能”概念,背后仰仗着大模型的支撑。

“夸父”的横空出世,展示了识别物品、问答互动、击掌、递水等能力,这同样离不开盘古具身智能大模型的加持。盘古具身智能大模型提升了机器人的智能及泛化能力。

而盘古大模型则在一年内从3.0版本进化为5.0版本,带来了全系列、多模态的变化。其参数覆盖面从十亿级到万亿级,而多模态能力令盘古大模型能够更精准地理解世界。

所有的蜕变都离不开人工智能。记者在此次一线实探中,深切感受到人工智能带来的科技“温度”。毫不夸张地说,此次华为开发者大会实际上更像是一场“AI的盛宴”。AI让一切变得更“聪明”,一切都离不开它。

但在参加此次华为开发者大会的业内人士看来,无论AI未来如何进化,其最终归宿将是跨入产业。“尽管国内算力受限、也没有算法优势,但国内拥有全球最全的工业门类,行业数据最全、场景最多,行业大模型大有可为”,业内人士如是表述。

“小艺”为何变聪明了?

在华为开发者大会的鸿蒙展示区域内,工作人员向记者展示了鸿蒙NEXT的原生智能能力,即用各类图片对“小艺”进行“投喂”。

例如,在识别人们并不熟悉的旅游景点建筑时,“小艺”在识别后会明确给出景点的详细资料,同时会附上相应的旅游攻略,供用户参考。

再如,当“小艺”识别人物照片时,甚至可以知悉人物着装的品牌,包括衣物、背包、鞋类等,同时“小艺”可以帮助用户识别衣物等物品所对应的商店、网店,更便于用户购物。

而当用户搜寻文档时,“小艺”甚至可以根据要求,提取其中重要内容并生成PPT,供用户使用。也就是说,只需将文字、图片、文档“投喂”给小艺,其即可便捷高效处理文字、识别图像、分析文档。

这依赖于鸿蒙NEXT与AI的融合升级,华为也提出了“鸿蒙原生智能”概念。

实际上,就在不久前的苹果全球开发者大会上,苹果就发布了其自研的Apple Intelligence(苹果智能),并宣布其Siri语音助手将接入GPT-4o,构成iOS+AI的智能体体系。

而华为也将操作系统层的鸿蒙和模型层的盘古联合起来,共同构建系统级原生智能,这在国内尚属首次。

盘古上身 “夸父”出道

另一边,在华为云的展示区中,人工智能的氛围更为浓厚。其中,人形机器人“夸父”身边聚集了众多参会者。

在6月21日的发布会上,“夸父”现场演示了复杂任务执行,包括与华为常务董事、华为云CEO张平安击掌,分辨位于它面前的与华为有关的物品,并在得知主持人口渴时,将面前桌上的水递给了主持人。

而在展示区内,“夸父”与参会者近距离接触。在展示现场区内,这款机器人通过理解工作人员的食物喜好,来搭配食材,并烹饪美食,同时展示了行动能力。

实际上,“夸父”并非新产物,其为乐聚公司推出的人形机器人。而乐聚是一家老牌人形机器人公司,创立于2016年3月,总部位于深圳。

资料显示,“夸父”发布于2023年12月,重约45kg,全身26个自由度,行走速度最高可达4.6km/h,可快速连续跳跃,跳跃高度超20cm。其搭载自研一体化关节和深度摄像头,可实现全方位视觉感知。

真正令“夸父”实现进化的是人工智能。据工作人员介绍,盘古具身智能大模型令“夸父”的智能及泛化能力得以提升。

该模型具备多模态(文本、图像、视频)能力,使机器人能够模拟人类常识进行逻辑推理,能够让机器人完成10步以上的复杂任务规划,并且在任务执行中实现多场景泛化和多任务处理。同时,盘古大模型还能生成机器人需要的训练视频,让机器人更快地学习各种复杂场景。

张平安展望了一个未来场景:AI机器人将帮助人们处理日常家务,如洗衣、做饭和扫地,从而让人们有更多时间投身于阅读、创作等更有意义的活动。

其实,人形机器人与大模型的结合是大势所趋。今年年初,英伟达展示了多模态人形机器人通用基础模型GR00T,其可作为机器人的大脑,驱动机器人理解自然语言,通过观察人类行为来快速学习协调、灵活性和其他技能。

而OpenAI与人形机器人独角兽公司Figure合作推出的Figure 01机器人,依托OpenAI的大模型,能仅利用独立神经网络,接收人类指令,并执行向人类传递苹果、整理垃圾、放置餐具的动作。马斯克近期也在特斯拉2024年股东大会上表示,特斯拉的人形机器人将采用大语言模型。

“大模型+人形机器人”蔚然成风。

盘古大模型的进化

其实不难看出,无论是鸿蒙NEXT系统还是人形机器人“夸父”,令其更为“聪明”的底座均为盘古大模型。而盘古大模型此次也迎来历史性的进化:从一年前的3.0版本,升级成为5.0版本。

盘古大模型5.0在全系列、多模态、强思维三个方面实现全新升级。

其中在全系列方面,其覆盖了十亿级到万亿级参数,从手机到企业云实现全覆盖。而多模态方面的升级,令盘古大模型5.0支持10K超图像识别,能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。

例如,当被问到“《清明上河图》中赵太丞家有多少人”,盘古大模型5.0可以在占全图1/200的画面中,识别出细小画面和汉字,并得出“4个人”这一正确答案。

但实际上,相较于盘古大模型“炫技”而言,更具有现实意义的是,盘古大模型已经开始扎根于各行各业。

在华为云的展示区内,更多的舞台留给了盘古大模型在各大专业化产业领域的融合,例如工业制造、生物医药、气象服务等。

而且,华为云在此次大会上一口气发布了六个专业模型:盘古钢铁大模型、盘古高铁大模型、盘古具身智能大模型、盘古工业设计大模型、盘古安全大模型及盘古媒体大模型。

工作人员告诉记者,例如在高铁行业,基于盘古高铁大模型,华为云为高铁检测装上了“盘古眼”,帮巡检工人减少了庞大工作量。“一列动车的3.2万个故障检测项点,本来需要4人花费2小时进行检查,而用盘古大模型,自动识别准确率可达99%。”

模型本身只是一张“白纸”

“当前,国内的大模型充满挑战,例如算力受限、没有算法优势等。”一位与会的业内人士对记者表示。

实际上,从GPT-3的1750亿参数规模,到GPT-4非官方估计1.8万亿参数,GPT-5参数量或将突破10万亿,OpenAI、Google等均沿着这条路径一路前行。

“如果参数无限向上,大模型最终是否能够通往通用人工智能,目前没有人能够得到确切答案。” 他表示,从当前现实情况来看,一个通用的大模型,尽管可能拥有千亿级别的参数,几乎可以回答任何问题,但是在专业领域的表现可能只是普通甚至难以胜任。

再加上随着模型规模不断增大带来的模型幻觉、居高不下的训练成本以及算力资源的稀缺等挑战,都成为摆在业内的现实问题。

“不止国内需要面对算力资源的稀缺问题,全球都会面对这一问题。所以,把有限的算力用好,汲取硬件资源提供的每一分能力,成为业内首要考虑的问题,这也是突破算力瓶颈的必然之路。”一位华为云人士表示。

“模型本身只是一张‘白纸’,上面画出什么样的一幅‘画’,由数据决定,需要高质量数据。”他如是表述,“国内拥有全球最全的工业门类,行业数据最全、场景最多。”

在多位受访人士看来,大模型的发展将趋向通用化与专用化并行,企业对于大模型的需求不仅仅是实现通识,更需要其成为特定领域的“最强大脑”。面向行业解决特定问题的专属大模型,将加速企业数据价值的释放、提高数据和知识的利用率。

根据IDC相关调研显示,目前有60%的企业使用大模型的公开版本,但两年后会迅速降至17%,更多的企业会将AI应用建立在私有、专属模型基础上。

“行业市场需要更丰富的、更多种类的行业大模型应用到具体场景里去产生价值,而不只是一个大模型无限泛化能力去解决所有问题。”上述华为云人士表示,“大模型只有融入企业运营、紧贴应用场景,才能真正发挥带动产业升级的作用。”

编辑:小茉

审核:许闻


版权声明

本文仅代表作者观点,不代表xx立场。
本文系作者授权xxx发表,未经许可,不得转载。

标签列表