xAI ประกาศเมื่อวันที่ 1 กรกฎาคม เปิดตัว Voice Agent Builder เวอร์ชันเบต้า ซึ่งเป็นแพลตฟอร์มสร้างเอเจนต์เสียง AI แบบไม่มีโค้ดโดยสมบูรณ์ ช่วยให้ผู้ใช้สามารถสร้างเอเจนต์เสียงระดับองค์กรได้ภายใน 2 นาทีผ่านการป้อนข้อมูลภาษาธรรมชาติ โดยแพลตฟอร์มใช้เส้นทางเสียง Speech-to-Speech แบบ end-to-end เส้นทางเดียวที่เชื่อมโยงอย่างแน่นหนากับ Grok Voice ซึ่งในการทดสอบวัดประสิทธิภาพเหนือกว่า GPT
(ที่มา: เว็บไซต์ xAI)
ตามที่ xAI เปิดเผยอย่างเป็นทางการ Grok Voice Think Fast 1.0 ครองอันดับหนึ่งในตารางการทดสอบเสียง τ-voice Bench โดยเอาชนะ Google Gemini 3.1 Flash Live และ OpenAI GPT Realtime 1.5 โดยตรงในตัวชี้วัดด้านความเร็วตอบสนองและความสามารถในการใช้เหตุผล
xAI อธิบายว่า Grok Voice ได้รับการฝึกฝนโดยใช้สถานการณ์การโทรจริงที่ถูกออกแบบให้ "ยากที่สุด" ครอบคลุมเสียงรบกวนจากโทรศัพท์คุณภาพต่ำ สำเนียงหนัก การถูกผู้ใช้ขัดจังหวะกลางคัน และคำสั่งที่ไม่ชัดเจน และรองรับมากกว่า 25 ภาษาโดยกำเนิด
xAI อธิบายอย่างเป็นทางการว่า ระบบบริการลูกค้าด้วยเสียง AI ขององค์กรแบบดั้งเดิมจะต้องเชื่อมต่อระบบแยกอิสระสามระบบ ได้แก่ Speech-to-Text (STT), Large Language Model (LLM) และ Text-to-Speech (TTS) ซึ่งโครงสร้างแบบประกอบนี้เพิ่มความหน่วงหลายจุด และเพิ่มอัตราข้อผิดพลาดและต้นทุนการดำเนินงาน
Voice Agent Builder ใช้เส้นทางเสียง Speech-to-Speech แบบ end-to-end เส้นทางเดียวที่เชื่อมโยงอย่างแน่นหนากับ Grok Voice โดยไม่มีการสลับส่วนในกระบวนการประมวลผลเสียงทั้งหมด ซึ่งมีเป้าหมายเพื่อลดความหน่วงและลดข้อผิดพลาดจากการเชื่อมต่อ
ตามคำอธิบายฟังก์ชันอย่างเป็นทางการของ xAI รายละเอียดสเปกโมดูลฟังก์ชันหลักทั้งสี่ของ Voice Agent Builder มีดังนี้:
ฐานความรู้ (Knowledge Base): รองรับการอัปโหลดไฟล์รูปแบบ Word, Excel, PDF, JSON ฯลฯ สามารถจัดระเบียบเป็นคอลเลกชันที่แชร์ระหว่างเอเจนต์ได้ เพื่อให้แน่ใจว่าข้อมูลจำเพาะผลิตภัณฑ์และนโยบายสอดคล้องกัน
เครื่องมือและการเชื่อมต่อ (Tools & Connectors): มีปฏิทิน Google/Outlook ในตัว, ค้นหาเว็บ, ค้นหา X (Twitter) และ Notion; รองรับการโอนต่อไปยังเจ้าหน้าที่จริง, การสิ้นสุดการโทร และการแจ้งเตือนทีมแบบเรียลไทม์
เสียงและโทรศัพท์ (Voice & Telephony): มีเสียงในตัวมากกว่า 80 แบบ; รองรับการโคลนเสียงแบรนด์ที่ต้องใช้ไฟล์เสียงเพียง 2 นาที; สามารถรับหมายเลขโทรศัพท์ที่ xAI ให้บริการฟรี หรือเชื่อมต่อกับระบบ PBX ที่มีอยู่ผ่าน SIP
ราคาโปร่งใส (Pricing): ค่าใช้จ่าย API สำหรับพลังประมวลผล 0.05 ดอลลาร์ต่อนาที ไม่มีค่าธรรมเนียมแพลตฟอร์มเพิ่มเติม; เมื่อใช้หมายเลขโทรศัพท์ที่ xAI ให้บริการ จะมีค่าธรรมเนียมการสื่อสารเพิ่มเติม 0.01 ดอลลาร์ต่อนาที
ตามประกาศอย่างเป็นทางการของ xAI Voice Agent Builder มีกลไกการตรวจสอบ (Observability) และรั้วความปลอดภัย (Guardrails) สำหรับผู้ใช้องค์กร: การโทรทุกครั้งจะถูกบันทึกเสียงและสร้างข้อความถอดความอัตโนมัติ; ผู้ดูแลสามารถตรวจสอบบันทึกเครื่องมือที่ AI ใช้ระหว่างการโทรได้ตลอดเวลา; และสามารถกำหนดขอบเขตการสนทนาที่เข้มงวด เช่น ห้าม AI อ่านหมายเลขบัตรเครดิตของลูกค้า หรือห้ามพูดคุยหัวข้อการเมืองนอกประเด็นกับผู้ใช้
xAI กล่าวในประกาศอย่างเป็นทางการว่า: "การตัดสินด้วยหูนั้นแม่นยำกว่าการดูการทดสอบมาตรฐาน – สร้างเอเจนต์และโทรทดสอบด้วยเวิร์กโฟลว์ที่ยากที่สุดของคุณ"
ตามประกาศอย่างเป็นทางการของ xAI ค่าใช้จ่าย API สำหรับพลังประมวลผลคือ 0.05 ดอลลาร์ต่อนาที ไม่มีค่าธรรมเนียมแพลตฟอร์มเพิ่มเติม; หากใช้หมายเลขโทรศัพท์ที่ xAI ให้บริการฟรี จะมีค่าธรรมเนียมการสื่อสารเพิ่มเติม 0.01 ดอลลาร์ต่อนาที
ตามที่ xAI เปิดเผยอย่างเป็นทางการ Grok Voice Think Fast 1.0 เอาชนะ Google Gemini 3.1 Flash Live และ OpenAI GPT Realtime 1.5 ในการทดสอบมาตรฐาน τ-voice Bench โดยครองอันดับหนึ่งในตารางในตัวชี้วัดด้านความเร็วตอบสนองและความสามารถในการใช้เหตุผล
ตามประกาศอย่างเป็นทางการของ xAI Voice Agent Builder เวอร์ชันเบต้าได้เปิดให้บริการบน xAI Console อย่างเป็นทางการแล้ว พร้อมให้ทดลองใช้
news.related.news
กลไกการกำกับดูแลบนเชนของ Solana เปิดตัวแล้ว ข้อเสนอต้องได้รับการสนับสนุนจากการ Stake 15% จึงจะเข้าสู่การลงคะแนน
Claude Sonnet 5 เปิดตัวแล้ว ราคา API ถูกกว่า Opus 60%
AI เบราว์เซอร์ 6 ตัวถูกหลอกจากเกม '2+2=5' ทำให้ใบรับรอง SSH รั่วไหลทั้งหมด
Meituan โอเพนซอร์ส LongCat-2.0: พารามิเตอร์ 1.6 ล้านล้าน ไม่ต้องใช้ GPU NVIDIA