無料ブログはココログ
2017年11月
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    

最近のトラックバック

オンライン状態

« 英会話がグンと上手くなる6つの心構え | トップページ | 英文暗唱 情感たっぷり 大阪女学院で児童競う »

2017年8月27日 (日曜日)

EnlishCentralへの質問状

松村弘典代表取締役社長様

覚えていると思いまが、私は未だ松村さんからも、アラン・シュワルツ氏からも貴社の音声認識の仕組みの説明を頂いておりません。”独自開発の音声認識技術”と言っただけです。
最近、音声認識に関して次のような報道がされています。
“マイクロソフトの音声認識が、重要なマイルストーンに達した。
同社のテクニカルフェローXuedong Huang氏によると、マイクロソフトの音声認識システムの誤認識率(エラーレート)がついに5.1%となった。これは人間が同様の書き起こし作業を行った場合と同じ数字だ。

マイクロソフトは、「ニューラルネットベースの音響・言語モデル」といったAI(人工知能)技術を使って、誤認識率を12%下げることに成功したのだ。そして5.1%を達成したもう1つのイノベーションとして挙げられるのが、人間同様、スピーチの文脈を考慮に入れ、うまく聞き取れなかった言葉の意味を推測する能力だ。

例えば、「that's not fair(ザッツ・ノット・フェア:フェアでない)」と言ったのか、「that's not fur(ザッツ・ノット・ファー:毛皮ではない)」と言ったのか、音声だけではわかりづらいことがある。こうした発音の曖昧さが、エラーの原因になってきた。だが、進化した音声認識技術は、文脈を考慮に入れることで、ヒントを探し出す。ギャンブルのリスクについて話しているなら、「that's not fair」と発された可能性が高く、衣服の生地について話しているなら、「that's not fur」だった可能性が高いと考えられる。“

これはネイティブでもfurとfairの区別ができないような発音をしているという事が分かります。つまりネイティブの音素の発音は人工知能が感知できない程、曖昧であると言う事実です。実際には音素が明確に調音されなくても、脳の音声認識は前後の文脈で統計的に判断されているので音素を確実に調音する必要がないのです。

最新の音声認識は「トウキョウ」と発音した際に、「ト」と「ウ」と「キ」と「ョ」と「ウ」というその特徴を捉え、コンピュータがこれはどうやら「トウキョウ」と発音しているようだと統計的な可能性により認識しています。正しい音素の照合ではなく、それが予め想定されている対象のうちのどれに該当するのかを判定しています。

言ってみればネイティブの発音とはそれぞれの物理的な正確な音素を並べる事ではなく、特徴を捉えて想定する対象に該当すれば十分なのです。
この音声認識は音声のDPマッチングと呼ばれるものです。最新の音声認識は脳を真似たニューラルネットワークを使い、脳を真似た統計的なマッチングで認識しております。
アラン・シュワルツ氏も音声には音声学で定義する音素が並んでいるのではないと言っております。

松村さんは過去にこう言っております。
“「英語の音声を白とか黒とか、何点とか判断するのは間違ったあり方ではないかと」とは仰る通りだと思います。”

マイクロソフトだけではなく、Baidu社の音声認識システムのDeep Speechも音素を介在させておらず、音声から事例基盤の統計的なマッチングでテキストにしています。
しかし、貴社のサイトの発音の初級、中級、上級すべてのクラスで音素の非常に詳しい説明がされています。そして発音の診断もしています。

私の今日の質問は3つです。
1.科学的で効果的な英語の発音練習は音声学の音素を基盤とするものでしょうか。
2.貴社の音声認識の仕組みは音素基盤でしょうか、それとも統計的なDPマッチングでしょうか。
3.発音診断は何をベースに、どのような判断されているのでしょうか。

貴社で行っている発音教育、そしてその診断の評価や採点についての効果や科学的な正当性を説明してください。

真偽はともかくネットには次のような苦情があるのも事実です。

“先生には「英語の発音矯正に良い」と言われましたが、なにしろコンピューターの判定なので、あやふやなぐちゃぐちゃした全然違う発音が、B+になったり、いい加減な部分が多いですね。女性 / 50代前半 / 2015年頃から 37ヶ月以上 / 初中級”

私はこのような苦情は診断方法の間違いによる、妥当な不満だと思っております。
もし以前のように返事をいただけない場合はフェイスブック、フェイスブック・ページ、twitter、ブログ、サイトを使い、貴社の発音教育や発音診断に関するアピールさせていただきます。とりあえずこの内容は私の3つのブログで公開してあります。

既に現在では人間お音声認識の仕組みが科学的に解明されており、音素ベースでない事は明白です。7年前に私がメールを送った時はまったく状況は違います。
もし、充分な説明がなければ消費者庁へ景品表示法に関する報告もさせてもらいます。

合同会社ディープラーニング
代表社員 桜井恵三

« 英会話がグンと上手くなる6つの心構え | トップページ | 英文暗唱 情感たっぷり 大阪女学院で児童競う »

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/218265/71536718

この記事へのトラックバック一覧です: EnlishCentralへの質問状:

« 英会話がグンと上手くなる6つの心構え | トップページ | 英文暗唱 情感たっぷり 大阪女学院で児童競う »