探索新概念 | 7 多模态模型GPT-4.0，有望带动“数字人”等产业发展

2023-03-31 11:43:24来源：南方财经投教基地

美国人工智能研究实验室OpenAI发布了GPT-4模型，不仅能够完成编辑、翻译等文本处理任务，还能够识别、读懂图片。同时，中国版ChatGPT也终于上线，百度推出大语言模型“文心一言”，但未对所有用户开放，仅实行邀请测试。

（1）多模态大模型

总体而言，GPT-4模型进行了重大升级，增加了识图的能力，更具有常识，也提高了对话过程中回答的准确性。OpenAI在官网表示，GPT-4模型引入了多模态，能够接受图像、文本输入并输出文本。

多模态能力使得GPT-4模型能够识别图片内容，例如，模型能够详细描述上传的网页截图，包括截图中心、左侧、右侧的具体物品和场景。在识别内容的基础上，模型还能够展开联想。

在官方演示案例中，上传了一张松鼠拿着照相机的漫画，并询问GPT-4“这张图片有趣的点在哪？”它的大致回答是“图片的笑点在于，松鼠是吃松果的，不会像人类一样用照相机。”虽然回答不完美，但是能看出模型对幽默已有初步理解。

（2）“虚拟志愿者”应用

GPT-4能够描述并理解图片的能力，会为视障人士带来极大便利。Open AI公布了与Be My Eyes（成为我的眼睛）公司的合作。

该公司开发了同名的公益应用程序Be My Eyes（成为我的眼睛），通过模型的图像分析功能，为视障人士提供更便捷的“虚拟志愿者”，帮助他们完成日常生活任务，例如识别物品或导航路线。

除了软件Be My Eyes之外，Open AI表示，包括语言学习工具软件多邻国、移动支付公司Stripe、国际性金融服务公司摩根士丹利等多家公司已将GPT-4模型接入产品中。

（3）带动“数字人”等产业发展

升级后的GPT-4作为一种多模态大模型，在内容生成方面拥有不亚于人类的输出能力，包括输出文字、图像、音视频等等，能够辅助用户进行创意工作，提升内容创作的效率。

有券商研究机构认为，GPT-4有望带动游戏、文娱产业的发展，此外，“数字人”产业也将受益，利用GPT-4的交互能力，扩展“数字人”的多种用途，不限于主播、客服等，推动虚拟数字人在电商、教育、娱乐等场景的快速落地。

封面图.jpg

（南方财经投教基地邓炜晴）

相关推荐

凡来源为南方财经全媒体集团及其旗下媒体（包括但不仅限于21世纪经济报道、TVS1、投资快报等）的内容，其版权均属各子媒体所有。未经书面授权，任何媒体、网站以及微信公众平台不得引用、复制、转载、摘编或以其他任何方式使用上述内容或建立镜像。违反将被依法追究法律责任。

联系我们

南方财经全媒体集团

地址：广东省广州市越秀区广州大道中307号富力新天地中心C栋50楼邮编：510000

粤ICP备17098806号　互联网新闻信息服务许可证编号：44120180007

网站简介

南方财经全媒体集团成立于2016年11月，是经中央批准的国内首家全媒体集团，是广东贯彻落实习近平总书记关于媒体融合发展重要论述的标杆项目。目前，南方财经全媒体集团已初步完成“媒体、智库、数据、交易”的核心业务布局，在国内经济领域，特别是在金融行业、资本市场的影响力、公信力不断提升。