WellSaid attracts $10M A round for higher quality synthetic speech – Report Door

Posted on

वेलसैड लैब्स, जिनके उपकरण सिंथेटिक भाषण बनाते हैं, जिन्हें वास्तविक चीज़ के लिए गलत माना जा सकता है, ने व्यवसाय को बढ़ाने के लिए $ 10M सीरीज़ A उठाया है। कंपनी का होम-बेक्ड टेक्स्ट-टू-स्पीच इंजन वास्तविक समय की तुलना में तेजी से काम करता है और त्वरित स्निपेट से लेकर घंटों-लंबी रीडिंग तक, किसी भी लम्बाई के प्राकृतिक-साउंडिंग क्लिप का उत्पादन करता है।

वेलसेड 2019 में एलन इंस्टीट्यूट फॉर एआई इनक्यूबेटर से बाहर आया, और इसका लक्ष्य सिंथेटिक आवाज़ें बनाना था जो प्रशिक्षण और विपणन सामग्री जैसे सामान्य व्यावसायिक उद्देश्यों के लिए इतनी रोबोटिक नहीं थीं।

इसने सबसे पहले Google और अकादमिक शोधकर्ताओं द्वारा विकसित एक भाषण इंजन टैकोट्रॉन पर अपने समाधान को आधार बनाकर हासिल किया। लेकिन जल्द ही इसने अपना खुद का निर्माण कर लिया जो अधिक कुशल था, जिसके परिणामस्वरूप अधिक दृढ़ आवाजें हुईं, और मनमाने ढंग से लंबाई की क्लिप तैयार कर सकती थीं। स्पीच इंजन अक्सर कुछ वाक्यों के बाद ट्रिप हो जाते हैं, बेबीबल में उतरते हैं या स्वर खो देते हैं, लेकिन वेलसेड का मैरी शेली की संपूर्णता पढ़ें फ्रेंकस्टीन बिना किसी हिचकिचाहट के.

आवाजें इतनी अच्छी थीं कि उन्हें श्रोताओं द्वारा मानव के रूप में या मानव के रूप में अच्छा दर्जा दिया गया था – ऐसा कुछ नहीं जो आप वास्तव में सामान्य आभासी सहायक संदिग्धों के बारे में कह सकते हैं जब वे मुट्ठी भर शब्दों से अधिक बोलते हैं। इतना ही नहीं, लेकिन भाषण वास्तविक समय की तुलना में काफी तेजी से उत्पन्न हुआ था, जहां अन्य उच्च गुणवत्ता वाले विकल्प अक्सर दसवें रीयलटाइम या धीमी गति से संचालित होते थे – जिसका अर्थ है कि वेलसेड द्वारा तीन मिनट के भाषण को उत्पन्न करने में एक मिनट और टैकोट्रॉन द्वारा आधे घंटे या उससे अधिक समय लगेगा।


अंत में, सिस्टम एक विश्वसनीय कंपनी प्रवक्ता या वॉयसओवर कलाकार की तरह मौजूदा आवाज प्रतिभा के आधार पर नए “वॉयस अवतार” बनाने की अनुमति देता है। सीईओ मैट हॉकिंग ने कहा कि मूल रूप से उनकी विचित्रता और आवाज शैली का एक मॉडल बनाने के लिए लगभग 20 घंटे के ऑडियो की आवश्यकता थी, लेकिन अब यह 2 घंटे से भी कम समय में ऐसा कर सकता है।

कंपनी अभी सख्ती से व्यवसाय-केंद्रित है, जिसका कहना है कि आपकी आवाज़ को अवतार या किसी भी चीज़ में डिजिटाइज़ करने के लिए कोई उपयोगकर्ता-सामना करने वाला ऐप नहीं है। इसके लिए परिचर जोखिम हैं और इसके लिए कोई यथार्थवादी व्यवसाय मॉडल नहीं है, इसलिए यह अभी के लिए तालिका से बाहर है।

ऐसी यथार्थवादी आवाज़ अभी भी विकलांग लोगों के लिए बहुत मददगार हो सकती है, हालाँकि, हॉकिंग कुछ स्वीकार करता है लेकिन स्वीकार करता है कि वे अभी तक निपटने के लिए तैयार नहीं हैं।

“हम इस तकनीक तक पहुंच बढ़ाने के लिए प्रतिबद्ध हैं ताकि अशाब्दिक संचारकों, गैर-लाभकारी संस्थाओं और अन्य लोगों को इसका लाभ मिल सके,” उन्होंने कहा।

इस बीच, कंपनी ने अपने पहले बाजार, कॉर्पोरेट प्रशिक्षण वीडियो से लेकर मार्केटिंग, लंबी कॉपी, काफी टेक्स्ट वाले इंटरेक्टिव उत्पादों और ऐप के अनुभवों तक विस्तार किया है। एक उम्मीद है कि ये अवतार जिस प्रतिभा पर आधारित हैं, उन्हें उनकी आवाज की डिजिटल समानता बनाने में मदद करने के लिए उचित मुआवजा दिया जा रहा है।

ओवरसब्सक्राइब किए गए $ 10M दौर का नेतृत्व FUSE द्वारा किया गया था, जिसमें दोहराए गए निवेशक वोयाजर, क्वालकॉम वेंचर्स एलएलसी और गुडफ्रेंड्स की भागीदारी थी, जिनमें से सभी उत्पाद और व्यवसाय के विकास से प्रभावित थे। सिंथेटिक आवाजों ने मुट्ठी भर लोकप्रिय उपयोग के मामलों की सेवा की है लेकिन सामग्री बड़ी नहीं रही है – इसलिए बढ़ने के लिए बहुत जगह है। कंपनी इस पैसे का निवेश अपने उत्पाद की पेशकश को गहरा करने और इसके साथ टीम को आगे बढ़ाने में करेगी।

Leave a Reply

Your email address will not be published. Required fields are marked *