音声認識と話者識別を調べてみた!?

 

音声認識と話者識別を調べてみた!?

 

私、澤口が担当した案件で音声認識、話者認識を活用したアプリのご依頼がありましたので簡単な調査結果も含め紹介します。
今回ご依頼の内容は、ミーティングデータをテキスト化し、更に「Aさんは発言が多い」「Bさんはよく質問をする」など話者の判別を行い、取得したデータをもとに採点化するアプリの開発です。
音声認識システム導入を検討している人に向けて、音声認識とは何か、話者の判別技術とは何か、また、今回の依頼内容にあった音声認識サービス比較を説明します!

 

音声認識とは?

音声認識とは、人間が話した言葉をソフトウェアが認識して、自動的にテキスト化する技術。最近ではスマートフォンアプリやスマートスピーカーなどで音声認識の活躍の場が広がっています。
また、音声認識はシステムは会議の議事録やコールセンターの音声化によるマーケティングデータなど作業工程の自動化や時間短縮を実現し、業務効率化にも期待できる技術となりつつあります。

話者認識とは?

今回アプリの要件とミーティング時、誰がどのような事を話をしたかを判別させたい為、話者を特定する事が必須となりました。
話者を認識する分類として「話者識別」と「話者照合」があります。

 

話者識別

入力音声が名乗った本人の音声であるか否かを判定するものになります。
話者照合の場合に判別する方法は、入力音声の物理特徴を名乗った人の標準パターンと比較して、その類似度がある「しきい値」より大きければ本人の音声とし、そうでなければ他人の音声であるとして棄却します。

 

話者照合

入力音声が名乗った本人の音声であるか否かを判定するものになります。話者照合の場合に判別する方法は、入力音声の物理特徴を名乗った人の標準パターンと比較して、その類似度があるしきい値より大きければ本人の音声とし、そうでなければ他人の音声であるとして棄却します。

今回の案件でどちらの話者認識が適切なのか、下記APIにて検証してみます。

音声認識・音声識別API

今回の案件で選定した、API 下記3つとなります。
Google(Cloud Speech-to-Text)、Microsoft Azure(Speech to Text)、AmiVoice Cloud Platform

Google(Cloud Speech-to-Text)

異なる話者の分離、音声言語の自動検出、句読点の挿入など幅広い機能を備えています。
変換方法も、短い音声は同期音声認識、長い音声は非同期での音声認識、ストリーミング入力にも対応しています。
また、データロギングに同意することで費用面において今回ご紹介する3つの中で最安値になることからも注目度は高いです。

Microsoft Azure(Speech to Text)

基本的な機能はgoogleと変わりありませんが、話者の登録が行えることが大きな違いとなります。
googleでは音声ファイル単位で自動で話者が割り振られるためインスタントな使い方に優れていますが、Azureではより継続性のあるMTGでの使用が想定されていると考えられます。

AmiVoice Cloud Platform

日本の開発会社となるため、他2社と比べて圧倒的に日本語に強いという点が挙げられます。
日常的な単語も、専門的な単語でも(単語登録も可能)、日本語を認識する能力はかなり高いです。また、Azureと同じく話者を登録する機能があることからもMTG向きと言えます。

API仕様の比較表

比較表

※データロギング:APIに音声データおよび認識結果を提供することを意味しています。

まとめ

今回は、音声認識させるだけでなく、その後、話者識別をするといったところが重要となりました。
音声認識だけでいうと日本製であるAmiVoice Cloud Platformは、ミーティングなどでもよくある「えーと」「えーと」「そのー」「あの」などの⾔い淀み(フィラー)を⾃動削除してくれたり、事前に単語登録をする機能で製品名・固有名詞など業界ならではの単語を認識するので認識精度が他と比べ、かなり高い結果となりました。
また話者識別は、Google、Microsoft Azureの2社と違い「話者照合」となり、また、チューンングを行う事ができた為、テスト結果としてはAさんとBさんを話者識別の結果も90%以上となりました。今回のテストとしては予想以上の結果で要件に合致しました。
費用についてもAmiVoiceは今回の仕様に合わせチューニングをし、制度を高めた結果での比較となりますので比較になりにくいのですがあくまでも参考としての記載となります。

今回は、上記結果を踏まえ、音声認識、話者認識の制度が高いAmiVoiceを選定したいと思います。

これから益々増えていく、音声認識、話者認識の技術を用いたサービスが増えていくかと思います。
将来的にも検討している企業さま、是非お気軽にご相談ください!

 

 

スプレッドシートやGASではカバーしきれなくなってきた時は、専用の業務システムを作るほうが効率的です。kikantreeは中小企業向けの業務システムパッケージのため、ある程度コストも抑えつつ、必要な機能だけを使うことができます。ぜひお気軽にお問い合わせください!
https://kikantree.jp

 

 

この記事が良かったら共有してください。