อีเลฟเว่นแล็บส์

อีเลฟเว่นแล็บส์

ElevenLabs ผู้นำด้าน AI ที่ได้รับการสนับสนุนจากรอบการระดมทุนมูลค่า 180 ล้านดอลลาร์เมื่อไม่นานนี้ ถือเป็นก้าวสำคัญในการขยายขอบข่ายการเข้าถึงนอกเหนือจากการผลิตเสียง โดยบริษัทเป็นที่รู้จักดีอยู่แล้วในการขับเคลื่อนแอปพลิเคชันเสียงต่างๆ และขณะนี้กำลังบุกเบิกตลาดการแปลงคำพูดเป็นข้อความที่มีการแข่งขันสูงด้วยผลิตภัณฑ์ใหม่ Scribe การเปิดตัวครั้งยิ่งใหญ่นี้ถือเป็นการแสดงให้เห็นถึงความทะเยอทะยานของ ElevenLabs ที่จะไม่เพียงแต่ประสบความสำเร็จในด้านการผลิตเสียงเท่านั้น แต่ยังรวมถึงการครองตลาดเทคโนโลยีการถอดเสียงอีกด้วย โดยท้าทายผู้เล่นที่ได้รับการยอมรับในอุตสาหกรรมนี้

อะไรคือสิ่งที่ทำให้ ElevenLabs Scribe โดดเด่นในด้านการจดจำเสียงพูด?

ด้วยมูลค่า 3.3 พันล้านเหรียญสหรัฐ ElevenLabs ถือเป็นผู้บุกเบิกด้านการจดจำเสียงพูดด้วย AI มาก่อน ก่อนหน้านี้ บริษัทได้ให้การสนับสนุนโซลูชันการแปลงเสียงพูดเป็นข้อความมากมายผ่านคลังเสียงขนาดใหญ่ อย่างไรก็ตาม Scribe ถือเป็นโมเดลการแปลงเสียงพูดเป็นข้อความแบบสแตนด์อโลนรุ่นแรกของบริษัท โดยสามารถแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรมอย่าง Gladia, Speechmatics, AssemblyAI, Deepgram และแม้แต่ Whisper ของ OpenAI ได้ แล้วอะไรที่ทำให้ Scribe โดดเด่นในสาขาที่มีการแข่งขันสูงเช่นนี้?

  1. การครอบคลุมภาษาที่ไม่มีใครเทียบได้ : Scribe รองรับมากกว่า 99 ภาษาตั้งแต่เริ่มต้น ทำให้เป็นโซลูชันการถอดเสียงระดับโลกอย่างแท้จริง
  2. ความแม่นยำที่โดดเด่นในภาษาหลัก : ElevenLabs อ้างว่ามีความแม่นยำที่โดดเด่น (โดยมีอัตราข้อผิดพลาดของคำต่ำกว่า 5%) ในมากกว่า 25 ภาษา รวมถึงภาษาอังกฤษ (ความแม่นยำ 97%) ภาษาฝรั่งเศส ภาษาเยอรมัน ภาษาฮินดี ภาษาญี่ปุ่น และภาษาสเปน การเน้นที่ความแม่นยำของภาษาเป็นปัจจัยสำคัญที่ทำให้แตกต่าง แม้ว่าการอ้างสิทธิ์เหล่านี้จะน่าประทับใจ แต่การตรวจสอบเพิ่มเติมผ่านการทดสอบของบุคคลที่สามอาจเสริมสร้างความเชื่อมั่นในตัวเลขเหล่านี้ได้
  3. ประสิทธิภาพการทำงานที่เป็นผู้นำในอุตสาหกรรม : ในการทดสอบประสิทธิภาพการทำงาน เช่น FLEURS และ Common Voice Scribe รายงานว่าทำผลงานได้ดีกว่าโมเดลชั้นนำ เช่น Google Gemini 2.0 Flash และ Whisper Large V3 ซึ่งแสดงให้เห็นถึงความสามารถที่ล้ำสมัย ความสำเร็จในการทดสอบประสิทธิภาพการทำงานนี้ชี้ให้เห็นถึงการก้าวกระโดดครั้งสำคัญในโมเดลการถอดเสียงที่ขับเคลื่อนด้วย AI ซึ่งให้ประสิทธิภาพที่เหนือกว่าซึ่งอาจมีความสำคัญในภาคส่วนที่ต้องการความแม่นยำสูง เช่น การถอดเสียงทางกฎหมายหรือทางการแพทย์

เดิมที ElevenLabs พัฒนาเทคโนโลยีการแปลงคำพูดเป็นข้อความนี้สำหรับแพลตฟอร์ม AI เชิงสนทนา แต่ด้วย Scribe เทคโนโลยีนี้พร้อมใช้งานเป็นโมเดลแบบสแตนด์อโลน ทำให้ฐานผู้ใช้กว้างขึ้น

การสำรวจคุณสมบัติเฉพาะตัวของ Scribe

ในการสัมภาษณ์ครั้งล่าสุดกับ Bitcoin World นาย Mati Staniszewski ซีอีโอของ ElevenLabs ได้กล่าวถึงวิสัยทัศน์ของบริษัทในการปรับปรุงระบบจดจำเสียงพูด เขาย้ำว่าเป้าหมายของบริษัทคือการทำความเข้าใจบทสนทนาให้ดีขึ้น ไม่ใช่แค่สร้างเนื้อหาเท่านั้น นอกจากนี้ Staniszewski ยังกล่าวถึงความเข้าใจผิดที่ว่าการแปลงเสียงเป็นข้อความนั้นได้รับการแก้ไขอย่างสมบูรณ์แล้ว โดยเฉพาะอย่างยิ่งสำหรับภาษาที่ความแม่นยำมักไม่แม่นยำเท่าที่ควร ข้อได้เปรียบหลักประการหนึ่งของบริษัทตามที่เขากล่าวคือมีทีมการอธิบายข้อมูลภายในบริษัท ซึ่งมีส่วนช่วยในการพัฒนาโมเดลที่เหนือกว่า

นอกเหนือจากการถอดเสียงแบบแกนหลักแล้ว Scribe ยังมีคุณสมบัติโดดเด่นหลายประการ:

  • การแยกเสียงของลำโพงอัจฉริยะ : คุณสมบัตินี้สามารถแยกความแตกต่างระหว่างลำโพงได้ ทำให้เหมาะสำหรับการสนทนาหลายคน
  • การประทับเวลาในระดับคำ : Scribe จัดให้มีการประทับเวลาที่แม่นยำสำหรับแต่ละคำ ช่วยให้สร้างคำบรรยายได้อย่างราบรื่นและวิเคราะห์โดยละเอียดได้
  • การแท็กเหตุการณ์เสียงอัตโนมัติ : โมเดลสามารถตรวจจับและแท็กเหตุการณ์เสียง เช่น เสียงหัวเราะและเสียงปรบมือ ซึ่งช่วยเพิ่มบริบทที่มีค่าให้กับการถอดเสียง

ปัจจุบัน ElevenLabs ได้รวม Scribe เข้ากับสตูดิโอของตนแล้ว ซึ่งทำให้ผู้ใช้สามารถถอดเสียงเนื้อหาวิดีโอเพื่อใช้เป็นคำบรรยายใต้ภาพและคำบรรยายใต้ภาพได้ แม้ว่าปัจจุบัน Scribe จะรองรับเสียงที่บันทึกไว้ล่วงหน้าแล้ว แต่บริษัทสัญญาว่าเร็วๆ นี้จะมีเวอร์ชันแบบเรียลไทม์ที่มีค่าความหน่วงต่ำออกมา ซึ่งจะช่วยเปิดโอกาสใหม่ๆ สำหรับการถอดเสียงการประชุมสดและการจดบันทึกด้วยเสียง

ราคาและการแข่งขัน: Scribe คุ้มค่าหรือไม่?

ElevenLabs นำเสนอ Scribe ในราคาที่สามารถแข่งขันได้เพียง 0.40 ดอลลาร์ต่อชั่วโมงสำหรับไฟล์เสียงที่ถอดเสียงแล้ว แม้ว่าคู่แข่งบางรายจะมีราคาที่ถูกกว่า แต่ก็ควรพิจารณาคุณสมบัติที่นำเสนอด้วย โดยเฉพาะความแม่นยำและการสนับสนุนด้านภาษาที่ Scribe มอบให้

นี่คือการเปรียบเทียบราคาอย่างรวดเร็วกับผู้ให้บริการรายอื่น:

ผู้ให้บริการ

แบบอย่าง

จุดแข็ง

ราคา (โดยประมาณต่อชั่วโมง)

อีเลฟเว่นแล็บส์

อาลักษณ์

รองรับภาษาอย่างกว้างขวาง ความแม่นยำสูง ประสิทธิภาพการวัดประสิทธิภาพ

0.40 เหรียญ

ดีพแกรม

โนวา-2

การถอดเสียงแบบเรียลไทม์ ความสามารถในการปรับขนาด เน้นไปที่นักพัฒนา

แตกต่างกันไป

แอสเซมบลีเอไอ

คอนฟอร์เมอร์-2

ฟีเจอร์มากมาย ปัญญาประดิษฐ์ การสรุปข้อมูลเสียง

แตกต่างกันไป

การพูดสุนทรพจน์

ภาษาอังกฤษทั่วโลก

ความแม่นยำสูง เข้าใจสำเนียง

แตกต่างกันไป

กลาเดีย

มีหลากหลายรุ่น

รุ่นพิเศษ ทนทานต่อเสียงรบกวน

แตกต่างกันไป

ข้อดีและข้อเสีย

ข้อดี:

  • การเข้าถึงทั่วโลก : รองรับมากกว่า 99 ภาษา ทำให้เป็นเครื่องมืออเนกประสงค์สำหรับการใช้งานระดับสากล
  • ความแม่นยำสูง : อ้างว่ามีอัตราข้อผิดพลาดของคำต่ำ (ต่ำกว่า 5%) สำหรับภาษาหลักมากกว่า 25 ภาษา รวมทั้งภาษาอังกฤษ (ความแม่นยำ 97%)
  • ประสิทธิภาพที่ล้ำสมัย : เอาชนะโมเดลชั้นนำอย่าง Google Gemini และ Whisper ของ OpenAI ในการทดสอบประสิทธิภาพ
  • การแบ่งเสียงแบบอัจฉริยะ : ช่วยแยกแยะผู้พูดออกจากกัน เหมาะสำหรับการสนทนาหลายคนที่มีความซับซ้อน
  • ความสามารถแบบเรียลไทม์กำลังจะมาในเร็วๆ นี้ : การถอดเสียงแบบเรียลไทม์ที่กำลังจะมีขึ้นจะเป็นตัวเปลี่ยนเกมสำหรับกิจกรรมและการประชุมสด
  • ราคาที่เหมาะสม : Scribe เสนอราคาที่สามารถแข่งขันได้สำหรับงานถอดเสียงคุณภาพสูงที่ราคาเพียง 0.40 ดอลลาร์ต่อชั่วโมง

ข้อเสีย:

  • การอ้างสิทธิ์ที่ไม่ผ่านการตรวจยืนยัน : แม้ว่าตัวเลขความแม่นยำจะดูน่าประทับใจ การตรวจสอบโดยบุคคลที่สามเพิ่มเติมอาจช่วยสร้างความเชื่อมั่นได้
  • การรองรับแบบเรียลไทม์ที่จำกัด : ขณะนี้มีให้ใช้งานเฉพาะเสียงที่บันทึกไว้ล่วงหน้าเท่านั้น แม้ว่าสัญญาว่าจะมีเวอร์ชันแบบเรียลไทม์ในเร็วๆ นี้
  • การเปรียบเทียบราคา : แม้ว่าจะมีราคาไม่แพง แต่คู่แข่งบางรายอาจเสนอราคาที่ต่ำกว่า แต่มีชุดคุณสมบัติที่แตกต่างกันหรือมีความแม่นยำน้อยกว่า

บทสรุป

เนื่องจากเทคโนโลยีการแปลงเสียงเป็นข้อความมีการแข่งขันกันอย่างเข้มข้นมากขึ้น Scribe ของ ElevenLabs จึงพร้อมที่จะสร้างผลกระทบที่แข็งแกร่งด้วยการผสมผสานที่เป็นเอกลักษณ์ระหว่างการรองรับภาษาในระดับโลก ความแม่นยำที่ยอดเยี่ยม และคุณสมบัติที่สร้างสรรค์ ด้วยการใช้ประโยชน์จากความต้องการที่เพิ่มขึ้นสำหรับโซลูชันการถอดเสียงที่แม่นยำและเข้าถึงได้มากขึ้น ElevenLabs จึงได้วางรากฐานเพื่อก้าวขึ้นเป็นผู้เล่นหลักในตลาดนี้ อุตสาหกรรมต่างๆ เช่น กฎหมาย การดูแลสุขภาพ และสื่อ ซึ่งพึ่งพาการถอดเสียงที่แม่นยำเป็นอย่างมาก มีแนวโน้มที่จะได้รับประโยชน์สูงสุดจากเทคโนโลยีนี้ ในขณะที่เครื่องมือนี้ยังคงพัฒนาต่อไป ผู้ใช้สามารถคาดหวังถึงความสามารถขั้นสูงที่มากขึ้น ทำให้ Scribe เป็นเครื่องมือที่มีประสิทธิภาพในการปลดล็อกศักยภาพทั้งหมดของข้อมูลภาษาพูด

โปรดทราบว่า Plisio ยังให้คุณ:

สร้างใบแจ้งหนี้ Crypto ใน 2 คลิก and ยอมรับการบริจาค Crypto

14 การบูรณาการ

10 ไลบรารีสำหรับภาษาโปรแกรมยอดนิยม

19 cryptocurrencies และ 12 blockchains

Ready to Get Started?

Create an account and start accepting payments – no contracts or KYC required. Or, contact us to design a custom package for your business.

Make first step

Always know what you pay

Integrated per-transaction pricing with no hidden fees

Start your integration

Set up Plisio swiftly in just 10 minutes.