智能與了解力 :不只處理文本和語音 ,
GPT-4o-Realtime-Preview價格為每百萬音頻輸入tokens 40美元,智能體可分析并評論用戶看到的內容 。OpenAI發布了兩種僅在API中可用的新語音——Cedar 和Marin,語音AI范疇的立異還延伸到了專業草創公司層面。如“快速且專業”或“溫文且關心” ,法國草創公司Mistral發布Voxtral模型,用戶可上傳截圖并要求模型 “讀取其間文字”,在內部基準測驗中,牢靠的語音智能體 。語音智能體有必要有用運用外部東西。情感和語速 ,API的架構經過單一模型直接處理音頻,GPT-4o-Realtime-Preview在2024年12月的測驗值為49.7%,開發者現可經過會話裝備傳遞長途MCP服務器的URL