2023-03-31 11:43:24来源:南方财经投教基地
美国人工智能研究实验室OpenAI发布了GPT-4模型,不仅能够完成编辑、翻译等文本处理任务,还能够识别、读懂图片。同时,中国版ChatGPT也终于上线,百度推出大语言模型“文心一言”,但未对所有用户开放,仅实行邀请测试。
(1)多模态大模型
总体而言,GPT-4模型进行了重大升级,增加了识图的能力,更具有常识,也提高了对话过程中回答的准确性。OpenAI在官网表示,GPT-4模型引入了多模态,能够接受图像、文本输入并输出文本。
多模态能力使得GPT-4模型能够识别图片内容,例如,模型能够详细描述上传的网页截图,包括截图中心、左侧、右侧的具体物品和场景。在识别内容的基础上,模型还能够展开联想。
在官方演示案例中,上传了一张松鼠拿着照相机的漫画,并询问GPT-4“这张图片有趣的点在哪?”它的大致回答是“图片的笑点在于,松鼠是吃松果的,不会像人类一样用照相机。”虽然回答不完美,但是能看出模型对幽默已有初步理解。
(2)“虚拟志愿者”应用
GPT-4能够描述并理解图片的能力,会为视障人士带来极大便利。Open AI公布了与Be My Eyes(成为我的眼睛)公司的合作。
该公司开发了同名的公益应用程序Be My Eyes(成为我的眼睛),通过模型的图像分析功能,为视障人士提供更便捷的“虚拟志愿者”,帮助他们完成日常生活任务,例如识别物品或导航路线。
除了软件Be My Eyes之外,Open AI表示,包括语言学习工具软件多邻国、移动支付公司Stripe、国际性金融服务公司摩根士丹利等多家公司已将GPT-4模型接入产品中。
(3)带动“数字人”等产业发展
升级后的GPT-4作为一种多模态大模型,在内容生成方面拥有不亚于人类的输出能力,包括输出文字、图像、音视频等等,能够辅助用户进行创意工作,提升内容创作的效率。
有券商研究机构认为,GPT-4有望带动游戏、文娱产业的发展,此外,“数字人”产业也将受益,利用GPT-4的交互能力,扩展“数字人”的多种用途,不限于主播、客服等,推动虚拟数字人在电商、教育、娱乐等场景的快速落地。
(南方财经投教基地 邓炜晴)
版权声明
凡来源为南方财经全媒体集团及其旗下媒体(包括但不仅限于21世纪经济报道、TVS1、投资快报等)的内容,其版权均属各子媒体所有。未经书面授权,任何媒体、网站以及微信公众平台不得引用、复制、转载、摘编或以其他任何方式使用上述内容或建立镜像。违反将被依法追究法律责任。
联系我们
南方财经全媒体集团
地址:广东省广州市越秀区广州大道中307号富力新天地中心C栋50楼 邮编:510000
粤ICP备17098806号 互联网新闻信息服务许可证编号:44120180007
请先完成《满意度调查》,再浏览更多内容。谢谢支持!