xAI公司近日宣布推出一款名为Grok的语音智能体API,旨在为全球开发者提供具有极低延迟和价格优势的实时语音解决方案。Grok语音API基于xAI全栈自研技术,已在特斯拉汽车和移动端应用中得到验证。该API的核心性能突出,在“Big Bench Audio”音频推理基准测试中表现优异,响应时间在1秒以内,远超市场竞品。此外,Grok支持多种语言的流利度,能在对话中无缝切换语言,并在发音、口音及声调自然度等方面表现优越。在商业化方面,Grok语音API采用极具竞争力的定价策略,每分钟费用仅为0.05美元,成本仅为行业主流竞品的一半。该API兼容OpenAI的实时API规范,并内置对X平台及互联网的实时搜索能力,可协助处理复杂的实时任务。未来几周内,xAI还将推出独立的文本转语音(TTS)与语音转文本(STT)接口。

标签: none

评论已关闭