อีเลฟเว่นแล็บส์

ElevenLabs ผู้นำด้าน AI ที่ได้รับการสนับสนุนจากรอบการระดมทุนมูลค่า 180 ล้านดอลลาร์เมื่อไม่นานนี้ ถือเป็นก้าวสำคัญในการขยายขอบข่ายการเข้าถึงนอกเหนือจากการผลิตเสียง โดยบริษัทเป็นที่รู้จักดีอยู่แล้วในการขับเคลื่อนแอปพลิเคชันเสียงต่างๆ และขณะนี้กำลังบุกเบิกตลาดการแปลงคำพูดเป็นข้อความที่มีการแข่งขันสูงด้วยผลิตภัณฑ์ใหม่ Scribe การเปิดตัวครั้งยิ่งใหญ่นี้ถือเป็นการแสดงให้เห็นถึงความทะเยอทะยานของ ElevenLabs ที่จะไม่เพียงแต่ประสบความสำเร็จในด้านการผลิตเสียงเท่านั้น แต่ยังรวมถึงการครองตลาดเทคโนโลยีการถอดเสียงอีกด้วย โดยท้าทายผู้เล่นที่ได้รับการยอมรับในอุตสาหกรรมนี้
อะไรคือสิ่งที่ทำให้ ElevenLabs Scribe โดดเด่นในด้านการจดจำเสียงพูด?
ด้วยมูลค่า 3.3 พันล้านเหรียญสหรัฐ ElevenLabs ถือเป็นผู้บุกเบิกด้านการจดจำเสียงพูดด้วย AI มาก่อน ก่อนหน้านี้ บริษัทได้ให้การสนับสนุนโซลูชันการแปลงเสียงพูดเป็นข้อความมากมายผ่านคลังเสียงขนาดใหญ่ อย่างไรก็ตาม Scribe ถือเป็นโมเดลการแปลงเสียงพูดเป็นข้อความแบบสแตนด์อโลนรุ่นแรกของบริษัท โดยสามารถแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรมอย่าง Gladia, Speechmatics, AssemblyAI, Deepgram และแม้แต่ Whisper ของ OpenAI ได้ แล้วอะไรที่ทำให้ Scribe โดดเด่นในสาขาที่มีการแข่งขันสูงเช่นนี้?
- การครอบคลุมภาษาที่ไม่มีใครเทียบได้ : Scribe รองรับมากกว่า 99 ภาษาตั้งแต่เริ่มต้น ทำให้เป็นโซลูชันการถอดเสียงระดับโลกอย่างแท้จริง
- ความแม่นยำที่โดดเด่นในภาษาหลัก : ElevenLabs อ้างว่ามีความแม่นยำที่โดดเด่น (โดยมีอัตราข้อผิดพลาดของคำต่ำกว่า 5%) ในมากกว่า 25 ภาษา รวมถึงภาษาอังกฤษ (ความแม่นยำ 97%) ภาษาฝรั่งเศส ภาษาเยอรมัน ภาษาฮินดี ภาษาญี่ปุ่น และภาษาสเปน การเน้นที่ความแม่นยำของภาษาเป็นปัจจัยสำคัญที่ทำให้แตกต่าง แม้ว่าการอ้างสิทธิ์เหล่านี้จะน่าประทับใจ แต่การตรวจสอบเพิ่มเติมผ่านการทดสอบของบุคคลที่สามอาจเสริมสร้างความเชื่อมั่นในตัวเลขเหล่านี้ได้
- ประสิทธิภาพการทำงานที่เป็นผู้นำในอุตสาหกรรม : ในการทดสอบประสิทธิภาพการทำงาน เช่น FLEURS และ Common Voice Scribe รายงานว่าทำผลงานได้ดีกว่าโมเดลชั้นนำ เช่น Google Gemini 2.0 Flash และ Whisper Large V3 ซึ่งแสดงให้เห็นถึงความสามารถที่ล้ำสมัย ความสำเร็จในการทดสอบประสิทธิภาพการทำงานนี้ชี้ให้เห็นถึงการก้าวกระโดดครั้งสำคัญในโมเดลการถอดเสียงที่ขับเคลื่อนด้วย AI ซึ่งให้ประสิทธิภาพที่เหนือกว่าซึ่งอาจมีความสำคัญในภาคส่วนที่ต้องการความแม่นยำสูง เช่น การถอดเสียงทางกฎหมายหรือทางการแพทย์
เดิมที ElevenLabs พัฒนาเทคโนโลยีการแปลงคำพูดเป็นข้อความนี้สำหรับแพลตฟอร์ม AI เชิงสนทนา แต่ด้วย Scribe เทคโนโลยีนี้พร้อมใช้งานเป็นโมเดลแบบสแตนด์อโลน ทำให้ฐานผู้ใช้กว้างขึ้น
การสำรวจคุณสมบัติเฉพาะตัวของ Scribe
ในการสัมภาษณ์ครั้งล่าสุดกับ Bitcoin World นาย Mati Staniszewski ซีอีโอของ ElevenLabs ได้กล่าวถึงวิสัยทัศน์ของบริษัทในการปรับปรุงระบบจดจำเสียงพูด เขาย้ำว่าเป้าหมายของบริษัทคือการทำความเข้าใจบทสนทนาให้ดีขึ้น ไม่ใช่แค่สร้างเนื้อหาเท่านั้น นอกจากนี้ Staniszewski ยังกล่าวถึงความเข้าใจผิดที่ว่าการแปลงเสียงเป็นข้อความนั้นได้รับการแก้ไขอย่างสมบูรณ์แล้ว โดยเฉพาะอย่างยิ่งสำหรับภาษาที่ความแม่นยำมักไม่แม่นยำเท่าที่ควร ข้อได้เปรียบหลักประการหนึ่งของบริษัทตามที่เขากล่าวคือมีทีมการอธิบายข้อมูลภายในบริษัท ซึ่งมีส่วนช่วยในการพัฒนาโมเดลที่เหนือกว่า
นอกเหนือจากการถอดเสียงแบบแกนหลักแล้ว Scribe ยังมีคุณสมบัติโดดเด่นหลายประการ:
- การแยกเสียงของลำโพงอัจฉริยะ : คุณสมบัตินี้สามารถแยกความแตกต่างระหว่างลำโพงได้ ทำให้เหมาะสำหรับการสนทนาหลายคน
- การประทับเวลาในระดับคำ : Scribe จัดให้มีการประทับเวลาที่แม่นยำสำหรับแต่ละคำ ช่วยให้สร้างคำบรรยายได้อย่างราบรื่นและวิเคราะห์โดยละเอียดได้
- การแท็กเหตุการณ์เสียงอัตโนมัติ : โมเดลสามารถตรวจจับและแท็กเหตุการณ์เสียง เช่น เสียงหัวเราะและเสียงปรบมือ ซึ่งช่วยเพิ่มบริบทที่มีค่าให้กับการถอดเสียง
ปัจจุบัน ElevenLabs ได้รวม Scribe เข้ากับสตูดิโอของตนแล้ว ซึ่งทำให้ผู้ใช้สามารถถอดเสียงเนื้อหาวิดีโอเพื่อใช้เป็นคำบรรยายใต้ภาพและคำบรรยายใต้ภาพได้ แม้ว่าปัจจุบัน Scribe จะรองรับเสียงที่บันทึกไว้ล่วงหน้าแล้ว แต่บริษัทสัญญาว่าเร็วๆ นี้จะมีเวอร์ชันแบบเรียลไทม์ที่มีค่าความหน่วงต่ำออกมา ซึ่งจะช่วยเปิดโอกาสใหม่ๆ สำหรับการถอดเสียงการประชุมสดและการจดบันทึกด้วยเสียง
ราคาและการแข่งขัน: Scribe คุ้มค่าหรือไม่?
ElevenLabs นำเสนอ Scribe ในราคาที่สามารถแข่งขันได้เพียง 0.40 ดอลลาร์ต่อชั่วโมงสำหรับไฟล์เสียงที่ถอดเสียงแล้ว แม้ว่าคู่แข่งบางรายจะมีราคาที่ถูกกว่า แต่ก็ควรพิจารณาคุณสมบัติที่นำเสนอด้วย โดยเฉพาะความแม่นยำและการสนับสนุนด้านภาษาที่ Scribe มอบให้
นี่คือการเปรียบเทียบราคาอย่างรวดเร็วกับผู้ให้บริการรายอื่น:
ผู้ให้บริการ | แบบอย่าง | จุดแข็ง | ราคา (โดยประมาณต่อชั่วโมง) |
อีเลฟเว่นแล็บส์ | อาลักษณ์ | รองรับภาษาอย่างกว้างขวาง ความแม่นยำสูง ประสิทธิภาพการวัดประสิทธิภาพ | 0.40 เหรียญ |
ดีพแกรม | โนวา-2 | การถอดเสียงแบบเรียลไทม์ ความสามารถในการปรับขนาด เน้นไปที่นักพัฒนา | แตกต่างกันไป |
แอสเซมบลีเอไอ | คอนฟอร์เมอร์-2 | ฟีเจอร์มากมาย ปัญญาประดิษฐ์ การสรุปข้อมูลเสียง | แตกต่างกันไป |
การพูดสุนทรพจน์ | ภาษาอังกฤษทั่วโลก | ความแม่นยำสูง เข้าใจสำเนียง | แตกต่างกันไป |
กลาเดีย | มีหลากหลายรุ่น | รุ่นพิเศษ ทนทานต่อเสียงรบกวน | แตกต่างกันไป |
ข้อดีและข้อเสีย
ข้อดี:
- การเข้าถึงทั่วโลก : รองรับมากกว่า 99 ภาษา ทำให้เป็นเครื่องมืออเนกประสงค์สำหรับการใช้งานระดับสากล
- ความแม่นยำสูง : อ้างว่ามีอัตราข้อผิดพลาดของคำต่ำ (ต่ำกว่า 5%) สำหรับภาษาหลักมากกว่า 25 ภาษา รวมทั้งภาษาอังกฤษ (ความแม่นยำ 97%)
- ประสิทธิภาพที่ล้ำสมัย : เอาชนะโมเดลชั้นนำอย่าง Google Gemini และ Whisper ของ OpenAI ในการทดสอบประสิทธิภาพ
- การแบ่งเสียงแบบอัจฉริยะ : ช่วยแยกแยะผู้พูดออกจากกัน เหมาะสำหรับการสนทนาหลายคนที่มีความซับซ้อน
- ความสามารถแบบเรียลไทม์กำลังจะมาในเร็วๆ นี้ : การถอดเสียงแบบเรียลไทม์ที่กำลังจะมีขึ้นจะเป็นตัวเปลี่ยนเกมสำหรับกิจกรรมและการประชุมสด
- ราคาที่เหมาะสม : Scribe เสนอราคาที่สามารถแข่งขันได้สำหรับงานถอดเสียงคุณภาพสูงที่ราคาเพียง 0.40 ดอลลาร์ต่อชั่วโมง
ข้อเสีย:
- การอ้างสิทธิ์ที่ไม่ผ่านการตรวจยืนยัน : แม้ว่าตัวเลขความแม่นยำจะดูน่าประทับใจ การตรวจสอบโดยบุคคลที่สามเพิ่มเติมอาจช่วยสร้างความเชื่อมั่นได้
- การรองรับแบบเรียลไทม์ที่จำกัด : ขณะนี้มีให้ใช้งานเฉพาะเสียงที่บันทึกไว้ล่วงหน้าเท่านั้น แม้ว่าสัญญาว่าจะมีเวอร์ชันแบบเรียลไทม์ในเร็วๆ นี้
- การเปรียบเทียบราคา : แม้ว่าจะมีราคาไม่แพง แต่คู่แข่งบางรายอาจเสนอราคาที่ต่ำกว่า แต่มีชุดคุณสมบัติที่แตกต่างกันหรือมีความแม่นยำน้อยกว่า
บทสรุป
เนื่องจากเทคโนโลยีการแปลงเสียงเป็นข้อความมีการแข่งขันกันอย่างเข้มข้นมากขึ้น Scribe ของ ElevenLabs จึงพร้อมที่จะสร้างผลกระทบที่แข็งแกร่งด้วยการผสมผสานที่เป็นเอกลักษณ์ระหว่างการรองรับภาษาในระดับโลก ความแม่นยำที่ยอดเยี่ยม และคุณสมบัติที่สร้างสรรค์ ด้วยการใช้ประโยชน์จากความต้องการที่เพิ่มขึ้นสำหรับโซลูชันการถอดเสียงที่แม่นยำและเข้าถึงได้มากขึ้น ElevenLabs จึงได้วางรากฐานเพื่อก้าวขึ้นเป็นผู้เล่นหลักในตลาดนี้ อุตสาหกรรมต่างๆ เช่น กฎหมาย การดูแลสุขภาพ และสื่อ ซึ่งพึ่งพาการถอดเสียงที่แม่นยำเป็นอย่างมาก มีแนวโน้มที่จะได้รับประโยชน์สูงสุดจากเทคโนโลยีนี้ ในขณะที่เครื่องมือนี้ยังคงพัฒนาต่อไป ผู้ใช้สามารถคาดหวังถึงความสามารถขั้นสูงที่มากขึ้น ทำให้ Scribe เป็นเครื่องมือที่มีประสิทธิภาพในการปลดล็อกศักยภาพทั้งหมดของข้อมูลภาษาพูด
โปรดทราบว่า Plisio ยังให้คุณ:
สร้างใบแจ้งหนี้ Crypto ใน 2 คลิก and ยอมรับการบริจาค Crypto
14 การบูรณาการ
- BigCommerce
- Ecwid
- Magento
- Opencart
- osCommerce
- PrestaShop
- VirtueMart
- WHMCS
- WooCommerce
- X-Cart
- Zen Cart
- Easy Digital Downloads
- ShopWare
- Botble
10 ไลบรารีสำหรับภาษาโปรแกรมยอดนิยม
- PHP ห้องสมุด
- Python ห้องสมุด
- React ห้องสมุด
- Vue ห้องสมุด
- NodeJS ห้องสมุด
- Android sdk ห้องสมุด
- C#
- Ruby
- Java
- Kotlin
19 cryptocurrencies และ 12 blockchains
- Bitcoin (BTC)
- Ethereum (ETH)
- Ethereum Classic (ETC)
- Tron (TRX)
- Litecoin (LTC)
- Dash (DASH)
- DogeCoin (DOGE)
- Zcash (ZEC)
- Bitcoin Cash (BCH)
- Tether (USDT) ERC20 and TRX20 and BEP-20
- Shiba INU (SHIB) ERC-20
- BitTorrent (BTT) TRC-20
- Binance Coin(BNB) BEP-20
- Binance USD (BUSD) BEP-20
- USD Coin (USDC) ERC-20
- TrueUSD (TUSD) ERC-20
- Monero (XMR)