أعلنت xAI في 1 يوليو عن إطلاق النسخة التجريبية من Voice Agent Builder، وهي منصة لبناء وكلاء صوتيين بالذكاء الاصطناعي بدون أي كود برمجي، تتيح للمستخدمين بناء وكيل صوتي على مستوى المؤسسات في دقيقتين باستخدام مطالبات اللغة الطبيعية؛ تستخدم المنصة مسارًا صوتيًا واحدًا من الكلام إلى الكلام (Speech-to-Speech) مقترنًا بإحكام مع Grok Voice، وتتفوق في الاختبارات المعيارية على GPT.
(المصدر: موقع xAI)
وفقًا للإعلان الرسمي من xAI، احتل Grok Voice Think Fast 1.0 المرتبة الأولى في قائمة اختبارات τ-voice Bench الصوتية المعيارية، متجاوزًا Google Gemini 3.1 Flash Live وOpenAI GPT Realtime 1.5 في مؤشري سرعة الاستجابة والقدرة على الاستدلال.
أوضحت xAI أن Grok Voice تم تدريبه باستخدام سيناريوهات مكالمات حقيقية مصممة لتكون "الأصعب"، تغطي ضوضاء الهاتف منخفضة الجودة، واللهجات القوية، ومقاطعة المستخدم، والتعليمات الغامضة، ويدعم بشكل أصلي أكثر من 25 لغة.
أوضحت xAI رسميًا أن خدمة العملاء الصوتية التقليدية بالذكاء الاصطناعي تحتاج إلى ربط ثلاثة أنظمة مستقلة: تحويل الكلام إلى نص (STT)، ونموذج اللغة الكبير (LLM)، وتحويل النص إلى كلام (TTS). يزيد هذا البنية المجمعة من زمن الوصول متعدد القفزات، ويرفع معدل الأخطاء وتكاليف التشغيل.
يستخدم Voice Agent Builder مسارًا صوتيًا واحدًا من الكلام إلى الكلام من طرف إلى طرف مقترنًا بإحكام مع Grok Voice، دون تقسيم أو تبديل المراحل في عملية معالجة الصوت، بهدف تقليل زمن الوصول وتقليل أخطاء الربط.
وفقًا لوصف الوظائف الرسمي من xAI، فإن مواصفات الوحدات الوظيفية الأساسية الأربع لـ Voice Agent Builder هي كما يلي:
قاعدة المعرفة (Knowledge Base): تدعم تحميل تنسيقات Word وExcel وPDF وJSON وغيرها، ويمكن تنظيمها في مجموعات Collections مشتركة عبر الوكلاء لضمان اتساق مواصفات المنتج والسياسات.
أدوات الربط (Tools & Connectors): مدمجة مع تقويم Google/Outlook، والبحث على الويب، والبحث على X (Twitter)، وNotion؛ تدعم تحويل المكالمة إلى وكيل بشري، وإنهاء المكالمة، وإشعار الفريق الفوري.
الصوت والهاتف (Voice & Telephony): يوفر أكثر من 80 صوتًا مدمجًا؛ يدعم استنساخ الصوت للعلامة التجارية باستخدام دقيقتين فقط من الصوت؛ يمكن الحصول على رقم هاتف مجاني من xAI، أو ربط نظام الهاتف الحالي عبر SIP.
التسعير الشفاف (Pricing): رسوم API للحوسبة تبلغ 0.05 دولار للدقيقة، بدون رسوم منصة إضافية؛ عند استخدام رقم هاتف توفره xAI، تفرض رسوم اتصال إضافية بقيمة 0.01 دولار للدقيقة.
وفقًا للإعلان الرسمي من xAI، يحتوي Voice Agent Builder على آليات مراقبة (Observability) ودرابزين أمان (Guardrails) مدمجة للمستخدمين على مستوى المؤسسات: تسجيل تلقائي لكل مكالمة وإنشاء نص حرفي؛ يمكن للمسؤولين عرض سجل الأدوات التي استخدمها الذكاء الاصطناعي أثناء المكالمة في أي وقت؛ ويمكن تعيين حدود صارمة للمحادثة، مثل منع الذكاء الاصطناعي من قراءة أرقام بطاقات الائتمان الخاصة بالعملاء، أو منع مناقشة مواضيع سياسية خارجة عن الموضوع مع المستخدم.
وقالت xAI في إعلانها الرسمي: "الحكم بالأذن أدق من النظر إلى الاختبارات المعيارية — ابنِ وكيلًا، واتصل بأصعب سير عمل لديك وجرّبه."
وفقًا للإعلان الرسمي من xAI، رسوم API للحوسبة هي 0.05 دولار للدقيقة، بدون رسوم منصة إضافية؛ إذا تم استخدام رقم الهاتف المجاني الذي توفره xAI، فإن رسوم الاتصال الإضافية هي 0.01 دولار للدقيقة.
وفقًا للإعلان الرسمي من xAI، تفوق Grok Voice Think Fast 1.0 في اختبار τ-voice Bench المعياري على Google Gemini 3.1 Flash Live وOpenAI GPT Realtime 1.5، محتلاً المرتبة الأولى في مؤشري سرعة الاستجابة والقدرة على الاستدلال.
وفقًا للإعلان الرسمي من xAI، النسخة التجريبية من Voice Agent Builder متاحة الآن على xAI Console للاختبار.
أخبار ذات صلة
تم إطلاق آلية الحوكمة على سلسلة Solana، حيث يحتاج الاقتراح إلى دعم 15% من الرهانات للدخول في التصويت.
تم إطلاق Claude Sonnet 5، وسعر API أرخص بنسبة 60% من Opus.
6 متصفحات ذكاء اصطناعي خُدعت بلعبة "2+2=5"، وتم تسريب جميع شهادات SSH.
Meituan LongCat-2.0 مفتوح المصدر: 1.6 تريليون معلمة بدون GPU من NVIDIA