文章主题:OpenAI, ChatGPT, 人工智能, 语音识别
听说了吗?OpenAI又出新了!
ChatGPT 的新增功能使其更贴近我们的日常生活。您可以在旅途中轻松地记录下著名地标,然后立即与 GPT 进行讨论,了解其独特之处。回到家中,您可以随时拍摄冰箱和食品储藏室,询问今晚的晚餐菜单,甚至可以进一步探讨食谱的每个细节。此外,通过拍照并圈选题目,ChatGPT 还能帮助孩子们解决作业问题,并提供相应的解题提示。
在未来两周的时间里,我们的团队将向Plus和Enterprise用户提供ChatGPT的语音及图像两项功能。其中,语音功能即将在iOS和Android平台上线,用户只需在设置中选择即可加入使用;而图像功能则将在所有平台上全面开放。
与ChatGPT进行语音交互
您现在可以用语音与助手进行双向对话。在路上与其交谈,为家人请求一个睡前故事,或解决餐桌上的争论。
要激活语音功能,用户只需在移动应用的设置中添加新功能,然后选择开放语音交流选项。接下来,用户需点击主屏幕右上角的耳机图标,并在提供的五个声音选项中挑选自己喜欢的声音。
新近推出的这一语音功能,依托于一个创新性的文本转语音模型,能在短短几秒钟内将纯文本转换成与人类发音无异的声音。为了确保音质的独特性,我们的团队与资深配音艺术家携手合作,针对每种声音精心定制独特的音调。与此同时,我们还运用了自家的开源语音识别系统——Whisper,实现语音与文本之间的转换。
与ChatGPT分享图片
在向ChatGPT展示图片时,无论目的是解决烧烤架无法启动的问题,还是计划一顿美食所需的食材,或者是为了工作相关的复杂数据分析和呈现一张图表,都能轻松应对。此外,若需关注图片的特定细节,还可以通过OpenAI移动应用程序中的绘图工具进行联动。
在开始阶段,您可以选择通过按下拍照按钮来捕捉或选取一张图像。对于使用iOS或Android系统的用户来说,他们可以首先点击加号图标。另外,您还可以选择分享多张图片或者利用绘图工具来指导GPT完成特定的任务。
这项图片识别功能得益于多模态的GPT-3.5和GPT-4技术,它们的语言理解能力应用到各种图片上,如照片、屏幕截图和包含文本与图片的文件。
我们正在分步骤部署图像和语音功能
OpenAI的目标是构建既安全又有益的AGI。逐步提供这些工具对OpenAI来说无疑是良方,给开发团队充足时间加以改进,不断完善风险控制措施,同时准备更加强大的未来系统。对于涉及语音和视觉的先进模型,这种策略显得更加重要。
语音
新的语音技术可以从简短的真实语音样本中制作逼真的合成语音,为许多创意和辅助功能应用开辟了新途径。但同时,这些功能也带来了新的风险,例如有人可能会以此冒充公众人物或诈骗。
因此,开发团队仅为特定的使用场景提供这项技术支持,即语音聊天。语音聊天由团队与配音演员直接合作创建。同时,他们也与其他合作伙伴进行了类似的合作。例如,Spotify正在借此进行他们的语音翻译功能的试点,帮助播音员通过用自己的声音翻译播音内容,将他们的内容传达到其他语言的听众。
图像输入
基于视觉的模型也带来了新的挑战,这些模型可能会错误地“看到”不存在的人或物,或者在某些非常重要的领域中对图片的解释不准确。
为了确保模型在广泛使用之前是安全的,开发团队进行了大量测试。邀请专家来检测模型是否有可能被用于非法目的,比如传播极端思想或做有失偏颇的科学研究。他们还邀请了情况各异的测试者来测试这个模型。
使视觉既有用又安全
与其他ChatGPT功能一样,视觉功能旨在协助日常生活,而最佳的协助方式是能够看到人们所看到的。
这种方法直接受到OpenAI与Be My Eyes合作的启发,这是一个为盲人和视力受损的人提供的免费app。用户表示,他们发现与背景中偶尔出现的人进行关于图片的一般对话是有价值的,比如在尝试弄清楚遥控器设置时,有人出现在电视上。
而出于尊重个人隐私和ChatGPT有时不准确的特性,团队限制了ChatGPT分析和直接评论人的能力。
关于模型局限性的透明度
用户可能会依赖ChatGPT处理专业话题,例如在研究领域。针对这种情况,开发者对模型的局限性保持透明,并不鼓励在没有适当验证的情况下进行高风险的使用。此外,该模型擅长转录英文文本,但在处理其他语言,特别是使用非罗马文字的语言时,效果寥寥。因此OpenAI建议:非英语用户不要使用ChatGPT进行类似科研等专业要求较高的任务。
即将扩大使用权限
在接下来的两周内,Plus和Enterprise用户将体验到语音和图像功能。不久后这些功能将推出给其他用户群体,包括开发者。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!