xAI با راهاندازی APIهای گفتاری Grok رقبا را ۶۰٪ پشت سر میگذارد
زک اندرسون ۱۴۰۵/۰۱/۲۹ ۰۰:۵۳
xAI ایلان ماسک، APIهای تبدیل گفتار به متن و متن به گفتار Grok را با قیمت ۰.۱۰ دلار در ساعت منتشر میکند و ادعا میکند کمترین نرخ خطا را در معیارهای رونویسی سازمانی دارد.
xAI ایلان ماسک در ۲۷ فروردین دو API صوتی مستقل را منتشر کرد و فناوری گفتاری Grok را به عنوان رقیبی مستقیم برای ElevenLabs، Deepgram و AssemblyAI با قیمتهای تهاجمی معرفی کرد.
API تبدیل گفتار به متن Grok برای پردازش دستهای ۰.۱۰ دلار در ساعت و برای پخش زنده ۰.۲۰ دلار در ساعت هزینه دارد. تبدیل متن به گفتار ۴.۲۰ دلار به ازای هر میلیون کاراکتر است. هر دو از همان زیرساختی استفاده میکنند که خودروهای تسلا و پشتیبانی مشتریان استارلینک را تأمین میکند.
ادعاهای معیاری که ارزش بررسی دارند
نرخ خطای کلمات منتشر شده توسط xAI داستان جالبی را بیان میکند. در تشخیص موجودیت تماس تلفنی—مانند نامها، شماره حسابها، تاریخها—Grok STT ادعا میکند نرخ خطای ۵.۰٪ دارد در مقابل ElevenLabs با ۱۲.۰٪، Deepgram با ۱۳.۵٪ و AssemblyAI با ۲۱.۳٪. این شکاف قابل توجهی است اگر در تولید حفظ شود.
شرکت این را با یک مورد آزمایش دشوار نشان داد: رونویسی نامهای ولزی مانند "Anghared Llewelyn Bowen" و "Oisin MacGiolla Phadraig" در کنار جزئیات وام مسکن. Grok آن را با صفر خطا انجام داد. مدلهای رقیب در تلفظها لغزیدند و تاریخها را به طور ناسازگار قالببندی کردند.
رونویسی ویدیو و پادکست رقابت نزدیکتری را نشان میدهد—Grok و ElevenLabs با نرخ خطای ۲.۴٪ مساوی هستند، و Deepgram و AssemblyAI با ۳.۰٪ و ۳.۲٪ کمی عقبتر هستند.
ویژگی های فنی برای توسعه دهنده بازی های ویدئویی
فراتر از رونویسی خام، xAI ویژگیهایی را ساخته که مشتریان سازمانی واقعاً به آن نیاز دارند: برچسبهای زمانی سطح کلمه، تفکیک گویندگان در چندین کانال صوتی، و پشتیبانی از بیش از ۲۵ زبان با تغییر یکپارچه.
ویژگی نرمالسازی متن معکوس به طور خودکار اعداد، تاریخها و ارزها را به قالبهای مناسب تبدیل میکند. "Four one four five five five one two three four" به یک شماره تلفن تبدیل میشود. "Six ninety-nine" به ۶.۹۹ دلار تبدیل میشود. جزئیات کوچک، اما سردردهای پس از پردازش را از بین میبرد.
تبدیل متن به گفتار شامل برچسبهای درون خطی برای کنترل آهنگ است—زمزمهها، خندهها، آهها، تأکید، تنظیمات سرعت. توسعهدهندگان میتوانند تفاوتهای احساسی را بدون دست و پنجه نرم کردن با نشانهگذاری صوتی پیچیده تزریق کنند.
زمینه استراتژیک
این راهاندازی پس از خرید X Corp توسط xAI در اسفند ۱۴۰۳ انجام شد و همزمان با گسترش مشارکتهای زیرساختی شرکت است. تنها دو روز قبل از اعلام API، گزارشهایی منتشر شد که xAI قصد دارد قدرت محاسباتی را به Cursor، استارتاپ کدنویسی مبتنی بر هوش مصنوعی، تأمین کند.
ابررایانه Colossus که از آذر ۱۴۰۳ عملیاتی است، قدرت پشتیبان را فراهم میکند. به نظر میرسد xAI در حال کسب درآمد از آن ظرفیت در چندین بخش است—هوش مصنوعی سازمانی، ابزارهای توسعهدهنده و اکنون APIهای صوتی.
برای توسعهدهندگانی که در حال ساخت عوامل صوتی یا ابزارهای رونویسی هستند، قیمتگذاری به طور قابل توجهی از بازیگران مستقر کمتر است. اینکه آیا ادعاهای دقت Grok در استقرار دنیای واقعی در مقیاس بزرگ دوام میآورند یا خیر، سؤال باز باقی میماند. مستندات و محدودیتهای نرخ از طریق کنسول API xAI برای کسانی که آماده آزمایش آن هستند در دسترس است.
منبع تصویر: Shutterstock- xai
- grok
- ai apis
- تشخیص گفتار
- ایلان ماسک








