見出し画像

Neat開発秘話~「魔法のように」AIを活用してビデオ会議を最高に

美しくシンプルなオーディオ・ビデオ技術から、特許を取得した画期的なNeat Symmetry(ニート・シンメトリー)など、会議室の真の問題を解決するためのNeat独自の最先端AI活用法をご紹介します。


アップルのiPhoneやテスラの車のようなデバイスを支える技術に疑問を持ったことはないでしょうか。Siriがあなたの声に反応したり、テスラが事故回避をサポートしたりするのは魔法のように思えるかもしれませんが、AIがそれらを支えています。

Neatは2019年の創業以来、AIを活用してビデオ会議を最高のものにすることを目指してきました。Neatのエンジニア達は、テクノロジーを実質的に見えなくする魔法のような「体験」をデザインしています。

今回は、ビデオとオーディオのエンジニアリングをリードするNeatのエンジニア達に、実際の顧客の課題、ニーズ、欲求を「魔法のように」解決するためにAIを導入した技術開発についての考え方を語ってもらいました。

NeatのAIと映像

AIの使い方はシェフ秘伝のコツのようなもの


NeatのビデオAIエンジニアリング・リード、アン・ドゥック・ダオは、AIの活用は腕を凝らした特別な料理を作るようなものだと考えています。

アン・ドゥック・ダオ(Neat、ビデオAIエンジニアリング・リード)

エンジニアリングにおけるイノベーションのほとんどは、新しい体験を実現するために、既知の技術を巧みに利用することで生まれています。料理でも多くの人が同じ食材を使うことができますが、混ぜ方、割合、手順によって、心を揺さぶる味にもなるし、「うーん。。」という微妙な味にもなります。しかし、優れたシェフはその正確な手順を公開しません。人々は料理の最終的な仕上がり、見た目、香り、味のほうを気にするのです。

アン・ドゥック・ダオ(Neat ビデオAIエンジニアリング・リード)


それを念頭に置いて、NeatのカメラにおけるAIの活用について説明してみましょう。この技術は、正確な人物検出と堅牢なポストプロセッシングを独自に組み合わせることで、スクリーンにすべての人を等しく近づけて表示し、より魅力的で、知覚しやすく、パーソナルなミーティング体験を提供します。Neat Symmetryはビデオ会議業界において非常に革新的であることが証明されたため、いくつかの競合他社が追従し、程度の差こそあれ、レプリカバージョンを作成しています。

Neat Symmetryが得意とするように、大きな会議室やその他の様々な環境において、確実に作動する人物検出を組み込むことは容易なことではありませんが、それこそが、よく練られた独創的なAIの活用が可能にすることなのです。

魅力的なカメラと照明の露出


ほとんどのワークスペースには、明るい逆光を含むさまざまな照明条件があり、カメラで顔を確認するのは難しい。一方でNeatは、従来の顔優先の露出アルゴリズムを超え、AIによる顔検出を取り入れました。これにより、露出アルゴリズムに含めるべき顔を見つける際の精度が向上し、範囲が広がるため、最終的にビデオ通話の参加者全員がより良い会議を体験できるようになります。

驚きの自動フレーミング


自動的に人々を追尾するカメラを持つことは、カメラマンやディレクターがそれぞれの会議の参加者を個別に撮影するようなものです。これにより、全員がより積極的に参加できるようになり、何かを発表するために立ち上がったり、足を伸ばしたりと、好きなように動くことができます。

スピーチや音声に頼ることなく人々を追跡するには、ビデオAIが必要です。Neatデバイスは、ニューラルネットワークを活用して人間のシルエットを理解し、室内の他のオブジェクトと区別することで、これを実現しています。また、Neatでは仮想的な境界線を設定することができます。そのため、カメラは会議参加者だけを追いかけるので、気が散ることのない会議や、賑やかなオープンプラン・スペースでの共同セッションの実現が可能です。

NeatのAIとオーディオ

素晴らしいオーディオ


あなたの声は、あなたの姿を見るのと同じくらい重要です。そのため、Neat Audio Processingは、人の声の最適化により、誰の声もはっきりと聞き取れるようにし、邪魔なバックグラウンドノイズを低減します。

会議参加者に気づかれることなく、扇風機の音、ポテトチップスの袋の音、キーボードのカチカチという大きな音など、気が散るような音を最小限に抑えることができるのです。また、それだけではなく、残響除去の機能により、会議参加者は部屋の壁に反響する音を抑えて話者の声を聞くことができます。リアルタイム音声処理の中核としてニューラルネットワークを活用することで、このようなことが可能になります。

また、Neatの革新的な音声技術により、2人以上の人が同時に話しているときに、デバイスの音声ピックアップが意図せず誰かの声を潰してしまったり、ミュートしてしまったりして、すべてがごちゃ混ぜになって理解不能になるような、不快なダブルトークの問題を経験することはありません。


オイスタイン・ビルケネス (Neat社オーディオ・ソフトウェア・リード)

他の多くのハードウェアメーカーが、オーディオ処理を数十年前の信号処理アルゴリズムに依存しているのに対し、私たちのオーディオアルゴリズムモデルは、バックエンドで継続的に学習しています。

オイスタイン・ビルケネス (Neat社オーディオ・ソフトウェア・リード)

AIを活用してより自然で正確なコミュニケーションを実現


メモやクローズドキャプションのための会議記録、ライブ翻訳など、音声に依存するインテリジェントなコミュニケーション技術が増えるにつれ、最も自然な方法で会議の会話をできるだけ正確に捉えることができる音声技術が不可欠になっています。機械学習を核とし、それを巧みに応用することで、Neatはより良い問題解決を可能にし、会議体験をより本質的で魅力的で自由なものにします。まるで魔法のように!

十分に進歩したテクノロジーは、魔法と見分けがつかない。

アーサー・C・クラーク、イギリスの未来学者、発明家



公式Twitterで更新情報や最新情報を発信しています。よろしければTwitterのフォローをお願いします!