なぜ「Neat Audio」が動画の文字起こしに最適なのか
動画や議事録の文字起こしに最適なNeat Audio
2024年12月5日 Øystein Birkenes
結果がすべてを物語っています!私たちは、主要な動画プラットフォームの文字起こし機能との互換性を調べるために、4つの競合する動画デバイスの音声機能をテストしました。その結果、「Neat Bar Pro」が他の3つのデバイスを圧倒し、明確な勝者となりました。
Neatは、ビデオ会議における自然な会話と発話の質を究極まで高めることを使命としており、それは人間にとってもAIにとっても素晴らしい成果をもたらしています。その理由は次のとおりです。
Neat Audioが目指すビジョン~自然な会話体験
「人々が互いに声を聞き取れること」は当然のことと思われるかもしれません。しかし、「互いに理解し合えること」の重要性も強調したいと考えています。対面での会話でも、私たちは必ずしも100%会話に集中しているわけではありません。人間の脳には処理能力の限界があり、夕食のこと、家で留守番している犬のこと、あるいは最後に受け取ったメールについて考え始めると、相手の発言を完全に理解する余裕が減少します。
ビデオ会議をより自然にする音声の細部へのこだわり
ビデオ会議ではさらに多くの注意散漫要素があります。「聞こえますか?」や「そのノイズは何?」といったやり取りがある上に、音声が自然に聞こえないことで脳の処理負担が増えます。これには、デバイスの音声処理における歪みや、話者の口から直接聞こえない音声、不自然に長い遅延など、さまざまな要因が影響しています。それにより、活発で一貫性のある自由な会話を妨げる可能性があります。
反響、雑音、残響を克服し、明瞭さを追求
ビデオ会議では対面会話に比べて、発言を理解するために脳の負担が少ないことが理想です。そのため、Neatは相手の声をよく聞こえるようにするだけでなく、瞬間的に内容を理解できるよう、人間が物理的に一緒にいるのと同等の体験を目指しています。その第一歩として、反響、雑音、残響といった基本的な音声課題を克服することが必要です。
2019年2月の設立以来、Neatは、ビデオ会議で発言が確実に理解されるよう細心の注意を払ってきました。エコーを完全に聞こえないレベルまで抑え、雑音や残響を慎重に低減することで、発話の自然さを損なうことなく、聴覚と理解力を最大化しています。
人間とAIが自然な発話をより良く理解するために
人間の神経ネットワークは何百万年もの進化を経て自然な発話を理解するようになりました。同様に、AIも自然な発話の何百万時間分のデータで学習されています。そのため、ビデオ会議における自然な発話を実現するという目標は、人間とAIの両方にとって非常に意義深いものです。聴覚と理解力を最大化し、聴く努力を最小限に抑えることは双方にメリットがあります。
その結果、Neat Audioは、最新のAI文字起こし機能と驚くほど相性が良いのです。これらのツールは、会議の事前情報提供や文字起こし、字幕表示、会議後の要点整理、重要事項のリスト化など、多くの機能を提供します。また、複数言語でのライブ翻訳や、AI生成によるノートやタスク作成も可能です。
競合デバイスとのAI文字起こし比較テスト
私たちは、4つの競合デバイスを使い、各動画プラットフォームの文字起こし精度を評価する実験を行いました。実験では、「The shaky barn fell with a loud crash(揺れる納屋が大きな音を立てて崩れ落ちた)」というフレーズを使用し、Neat Bar Proが完全に正確な結果を出しました。一方、競合製品はそれぞれのレベルで文字起こしに失敗していました。例えば、あるデバイスでは「Fell with a loud crutch(大きな松葉杖で落ちた)」、別のデバイスでは「Shaking allowed(揺れは許可された)」、また別のものでは「A shaky bone fell with a loud crap(揺れる骨が大きな汚れで落ちた)」といった、誤変換が見られました。
聞き取りやすさを最大化し、リスニングの負担を最小化
このテストはほんの一例ですが、Neatが目指す「聞く努力を最小限にし、理解を最大化する」取り組みが正しい方向に進んでいることを示しています。
私たちのテストはわずか100語未満の小さな実験でしたが、Neatの焦点が正しい方向にあることを示しています。私たちは、音声の明瞭さと自然さを追求し、音声の質に関して業界をリードし続けています。
David Bowieの言葉を借りるなら、「未来は、それが訪れる音を聞き取れる者のものだ」といえるでしょう。
これが、Neatが選ばれる理由です。