南财投教基地

探索新概念 | 7 多模态模型GPT-4.0,有望带动“数字人”等产业发展

2023-03-31 11:43:24来源:南方财经投教基地

美国人工智能研究实验室OpenAI发布了GPT-4模型,不仅能够完成编辑、翻译等文本处理任务,还能够识别、读懂图片。同时,中国版ChatGPT也终于上线,百度推出大语言模型“文心一言”,但未对所有用户开放,仅实行邀请测试。

(1)多模态大模型

总体而言,GPT-4模型进行了重大升级,增加了识图的能力,更具有常识,也提高了对话过程中回答的准确性。OpenAI在官网表示,GPT-4模型引入了多模态,能够接受图像、文本输入并输出文本。

多模态能力使得GPT-4模型能够识别图片内容,例如,模型能够详细描述上传的网页截图,包括截图中心、左侧、右侧的具体物品和场景。在识别内容的基础上,模型还能够展开联想。

在官方演示案例中,上传了一张松鼠拿着照相机的漫画,并询问GPT-4“这张图片有趣的点在哪?”它的大致回答是“图片的笑点在于,松鼠是吃松果的,不会像人类一样用照相机。”虽然回答不完美,但是能看出模型对幽默已有初步理解。

(2)“虚拟志愿者”应用

GPT-4能够描述并理解图片的能力,会为视障人士带来极大便利。Open AI公布了与Be My Eyes(成为我的眼睛)公司的合作。

该公司开发了同名的公益应用程序Be My Eyes(成为我的眼睛),通过模型的图像分析功能,为视障人士提供更便捷的“虚拟志愿者”,帮助他们完成日常生活任务,例如识别物品或导航路线。

除了软件Be My Eyes之外,Open AI表示,包括语言学习工具软件多邻国、移动支付公司Stripe、国际性金融服务公司摩根士丹利等多家公司已将GPT-4模型接入产品中。

(3)带动“数字人”等产业发展

升级后的GPT-4作为一种多模态大模型,在内容生成方面拥有不亚于人类的输出能力,包括输出文字、图像、音视频等等,能够辅助用户进行创意工作,提升内容创作的效率。

有券商研究机构认为,GPT-4有望带动游戏、文娱产业的发展,此外,“数字人”产业也将受益,利用GPT-4的交互能力,扩展“数字人”的多种用途,不限于主播、客服等,推动虚拟数字人在电商、教育、娱乐等场景的快速落地。

封面图.jpg

(南方财经投教基地 邓炜晴)

您还没登录

请先完成《满意度调查》,再浏览更多内容。谢谢支持!

您还没注册

请注册后进行发言

  • 验证码

忘记密码

重置密码

  • 验证码