官方微信
登录
注册
搜索
搜索
本版
文章
帖子
用户
免费发布信息
首页
Portal
新闻资讯
论坛
BBS
分类信息
房源中心
租房
跳蚤市场
活动
新闻
加国
大多
美国
环球
经济
时政
娱乐
地产
信息
房源
新盘
家庭旅馆
跳蚤市场
拼车
折扣
机票邮轮
生活服务
社区
城事杂谈
旅游天地
大多生活
房产楼市
北美股票
房东信息
税务理财
健康锻炼
交友征婚
法律求助
加国新闻
大多新闻
美国新闻
环球新闻
经济观察
时政频道
财经资讯
娱乐八卦
生活百态
史海钩沉
健康养生
国际体坛
城事杂谈
大多生活
旅游天地
房产聚焦
税务理财
北美股票
子女教育
房东信息
健康锻炼
移民留学
体育娱乐
婚姻生活
宠物乐园
我爱我家
流行时尚
交友征婚
法律求助
便民信息
黄页
机票邮轮
求职招聘
换汇交易
拼车中心
商家折扣
二手车
非诚勿扰
周边游
扫一扫,关注我们
我的空间
我的消息
我的收藏
我的好友
我的相册
我的道具
帐号设置
退出登录
加国新闻
大多新闻
美国新闻
环球新闻
经济观察
时政频道
财经资讯
娱乐八卦
生活百态
史海钩沉
健康养生
国际体坛
城事杂谈
大多生活
旅游天地
房产聚焦
税务理财
北美股票
子女教育
房东信息
健康锻炼
移民留学
体育娱乐
婚姻生活
宠物乐园
我爱我家
流行时尚
交友征婚
法律求助
便民信息
黄页
机票邮轮
求职招聘
换汇交易
拼车中心
商家折扣
二手车
非诚勿扰
周边游
加国同城
»
论坛
›
多伦多华人论坛
›
北美股票
›
OpenAI发布旗舰AI模型GPT-4o:图文音频全搞定 完全免费 ...
发帖
查看
145
回复
0
OpenAI发布旗舰AI模型GPT-4o:图文音频全搞定 完全免费
秋收冬藏
秋收冬藏
当前离线
积分
21708
7075
主题
0
回帖
2万
积分
版主
积分
21708
发消息
发表于 2024-5-14 02:01:21
|
来自:加拿大
|
显示全部楼层
|
阅读模式
北京时间周二凌晨,OpenAI发布了一款新的旗舰生成式AI模型“GPT-4o”,其中的“o”代表“omni”(全能),
指的是该模型处理文本、语音和视频的能力。
它具有与人类相似的对话能力,令人印象深刻。
GPT-4o在保持GPT-4级别的智能的同时,
对文本、视觉和音频功能进行了改进。
OpenAI首席技术官(CTO)Mira Murati及其员工Mark Chen和Barret Zoph在现场演示时展示了新的音频对话和视觉理解能力。
OpenAI声称,GPT-4o对音频输入的平均反应时间约为320毫秒。根据2009年的一项研究,这与人类在对话中的反应时间相似,而之前的模型通常要延迟2-3秒时间。
除了响应速度,
GPT-4o似乎很容易捕捉到情绪
,并根据用户的要求调整语气和风格,甚至还在回应中加入了音效、笑声和歌声。
GPT-4o更像人类
GPT-4o在理解人类交流方面迈出了重要的一步,用户可以用一种接近自然的方式与其交谈。它伴随着现实世界中几乎所有的倾向,比如打断、理解语气,甚至意识到自己犯了一个错误。
在第一次现场演示中,主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气,而ChatGPT则诙谐地回应道:“你不是吸尘器。”它建议使用一种速度较慢的技术,展示其理解和回应人类细微差别的能力。
除了具有幽默感,ChatGPT也会改变回应的语气,在传达“思想”的同时用不同的语调来完成。就像人类对话一样,你可以打断它的对话并纠正它,让它做出反应或停止说话。你甚至可以要求它以某种语气、风格或机器人的声音来说话。
此外,它甚至还可以提供翻译服务。在现场演示中,舞台上的两名演讲者,一名说英语,一名说意大利语,通过Chat GPT-4o的翻译进行对话。它可以快速将意大利语翻译成英语,然后无缝地将英语回复翻译回意大利语。
据悉,Chat GPT-4o在50多种语言的速度和质量上都有所提高。OpenAI表示,这些语言覆盖了世界97%的人口。
除了语音理解,Chat GPT-4o还可以理解视觉效果。例如,对于视频中的一道方程题,它可以指导你如何求解。
另外,它还可以观看现场自拍,并提供描述,包括你的穿着,以及情绪。在演示中,Chat GPT-4o表示,主持人看起来很开心。
在整个演示过程中,Chat GPT-4o工作得很快,在理解方面并不费力,也没有提出询问。与输入查询相比,与Chat GPT-4o的交流更自然。你可以自然地对着手机说话,并得到想要的回应,而不是用谷歌去搜索。
电影《Her》中的萨曼莎
此时,如果想到了《Her》(一部和AI虚拟人萨曼莎谈恋爱的电影),或者其他与AI相关的未来主义反乌托邦电影,你不是唯一的一个。以如此自然的方式与Chat GPT-4o交谈,本质上就是OpenAI的《Her》时刻。考虑到它将在移动应用程序和桌面应用程序上免费推出,许多人可能很快就会拥有自己的《Her》时刻。
虽然并未在直播演示中现身,但OpenAI CEO 萨姆·奥特曼(Sam Altman)对这次演示做了重要的总结,称GPT-4o给人的感觉就像电影中的AI。
他说:“新的语音和视频模型GPT-4o是我用过的最好的计算机界面,这感觉就像电影中的AI。而且,对我来说,它真实的仍然有点令人惊讶,达到了人类级别的响应速度和表现。最初的ChatGPT显示出了语言界面的可能性,但GPT-4o这个新事物感觉本质上有所不同,它快速、智能、有趣、自然、实用。”
“对我来说,与电脑交谈从来都不是很自然的感觉;但现不同了,它变得自然了。随着将来不断地完善,我真的看到了一个令人兴奋的未来,我们能使用计算机做比以往任何时候都多的事情。”
奥特曼还称,在创建OpenAI时,最初的想法是创造AI,并用它来为世界创造各种裨益。但如今,创造AI后,希望让其他人使用它来创造各种令人惊叹的东西,所有人都会从中受益。奥特曼还表示:“OpenAI是一家企业,会找到很多收费的东西,这将帮助我们为数十亿人提供免费的、出色的AI服务。”
新的安全风险
这场令人印象深刻的语音和视觉演示,可能只是触及了Chat GPT-4o各种可能性的皮毛。尽管其总体性能,以及在各种环境中的日常表现仍有待观察,但很明显,通过现场演示可以看出,Chat GPT-4o已经对谷歌和苹果的未来挑战做好了准备。
OpenAI称:“Chat GPT-4o是我们第一个结合了上述所有技术的模型,我们目前只是触及到探索该模型的功能,及其局限性的皮毛。”
Murati承认,Chat GPT-4o的实时音频和图像能力在安全方面带来了新的挑战。她表示,OpenAI将继续研究安全性,并在未来几周的迭代部署期间征求测试用户的反馈。
OpenAI称:“Chat GPT-4o还与社会心理学、偏见和公平性等领域的70多名外部专家进行了广泛的合作,以识别新模型可能导致或放大的风险。我们利用这些经验来加强安全干预措施,以提高与Chat GPT-4o交互的安全性。一旦新的风险被发现,我们将采取措施降低它们。”
GPT-4o前景展望
在Google I/O大会开始的前一天,OpenAI发布了Chat GPT-4o,让我们见识到了人们想要的真正实用的AI体验。如果传闻中的与苹果的合作成为现实,那么Siri将如虎添翼。
对于谷歌而言,几乎可以肯定的是,将在5月14日的I/O大会上展示其最新的AI技术。它能足以抵抗Chat GPT-4o吗?
在不到30分钟的演讲中,OpenAI无法对Chat GPT-4o进行更多的现场演示。幸运的是,它将在未来一周向用户推出,且不需要支付费用。
回复
举报
发帖
快速回帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
精选推荐
联系客服
关注微信
返回顶部
返回列表
点击联系客服
在线时间:8:30-17:00
电子邮件
kefu@58.ca
扫一扫,关注我们
下载APP客户端