その後、私の出したトシ・イサム・イグチ氏から返事がきました。イグチ氏は下記サイトの責任者です。
http://www.e-max-kobe.com/teacher/index.htm
http://www.speakglobal.co.jp/company/index.html
トシ・イサム・イグチ様
貴殿の使用されている音声認識ソフトは下記サイトで調べると、会話音の診断に使う
ものでなく、キーボードの代わりに音声で入力するために開発されたものです。
英語学習者のためにとしては、使い方に大きな誤りがあります。
http://nuance.com/for-business/by-solution/speech-recognition/index.htm
貴社の説明ではこうなっています。
”音声認識の技術はここ数年で著しい発展を遂げました。特に、米NUANCE社 の開発した
Dragon音声認識ソフトは、認識精度98%を誇り、世界でもその 性能に比するものは
見当たりません。
音声認識ソフトの主な利用目的は、医療、司法などの分野で、発話を人の 手を介さず
文字に置き換えることですが、SpeakGlobalはDragonをネイティブ スピーカーの「耳」
として捉え、まず、チャットフレンドの耳として利用しました。そして、同時に、ユーザーの発音を正確に分析することができるDragonを使った 「ネイティブ発音完全マスタープログラム」SGPROv11を開発しました。”
この耳はテキストにし易い発音を求めるもので、通常の会話音と比べると不自然な発音を必要とします。
特にに医療、司法などの文書の必用な分野で使われているのは多量のキー入力を省くためです。そのために一語ずつ明瞭に発音する必要があります。
通常の会話とは違った不自然な発音が必要になります。
目的が音声でテキスト化するためなのです。
それでもキー入力よりは効率的なのです。
そのための音声認識ソフトです。
発音診断とはまったく異なる仕様方法なのです。
多分このソフトは分野別にエラーリカバリのソフトも持っていると思われます。
英語の会話音のような連続的に音が変化する音声の認識はかなり低いものと思われます。
貴社のデモでも話者は発音において単語を明瞭に発音するように不自然な発音をしており 泙后 実匸このような音声認識ソフトで判断されると、ろくな発音にしかなりません。
つまりこのソフトはテキストにし易い発音を好みますから、不特定話者のフリートークの発音診断には最も不向きなのです。
トシ・イサム・イグチ様にお伝えします。このような上記の私の説明が正しいのであれば この音声認識ソフトをつかうのは英語学習者に有害とも言える学習方法です。
EnglishCentralでも発音診断を止める方向に進んでおります。トシ・イサム・イグチ様がそれでも英語学習者に有効である、有益であると言うなら
その根拠を明確にしてください。
このメールは私のブログで公開させてもらいます。イグチ氏の返信も同様に公開させてもらいます。
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
次がトシ・イサム・イグチ氏からの返信です。
桜井 恵三様
まず、貴殿は博学でいらっしゃる。研究心が旺盛で、真実を掘り下げて追及する頭脳の持ち主でもあるようです。しかし、一点気になるのは、ややclosed mindである点です。私とあなたの違いは、あなたは相手の考えを否定することで自分の考えを正当化しようとする。もちろんあなたはそのために、ありとあらゆる知識を総動員するので知らない人にはそれなりに説得力はあります。
私は、他人がどう考えようが無関心です。ただ、自分の考えを磨くため、いろいろ
異なる考えを聞いて、自分の考え方を修正します(必要であれば)。
まず、あなたの「音声認識ソフトの使用方法に大きな誤りがあり」という結論は あまりにもお粗末です。ドラゴンを使ったこともない人間がそんな結論を出すこと自体、無責任ではないですか?あなたは、音声認識をひとくくりにして、話している。
Sphynx,Juliusなどのオープンソースの音声認識とドラゴンを一緒にして
話すこと自体間違っています。ドラゴン音声認識は、もちろん、音声を文字に変換することが目的です。できるだけ話者の発音のくせ、特徴を取り入れて認識度を上げるよう個人プロフィールを設定します。ドラゴンは利用するたびに利用者の音声を学習して認識度を高めます。
これは初めての人に会った時、特にその人が地方の強い訛りをもっている場合、 人間の頭でも認識度は90%くらいでしょう。しかし、数か月後には、その人のくせがわかってきて、認識度は98%くらいになります。ドラゴンもそれができるのです。
ドラゴンを使ったことがないあなたには、理解しにくいことだと思います。
この機能は話者特定の音声認識にしかできないことです。通常、ドラゴンの利用者の認識度は出発点にかかわらず、時間が経てば緩やかに上昇します。しかし、私が音声認識を発音の分析に使う場合、2つのプロフィールを使います。一つは、ネイティブプロフィール。これは、ほぼ完ぺきなネイティブ発音でなければ、正確な文字になりません。もうひとつは、自分のプロフィールです。ドラゴンを使って発音 練習をする人の認識度が上がるのは、まず、ドラゴンがその人の癖を学習している こと。同時に、その人の発音がよくなっていることが原因です。
しかし、どちらが より大きく精度向上に寄与しているかはわかりません。そのために、ネイティブプロフィールがあるのです。利用者は常にネイティブプロフィールでチェックし、自分の発音の向上度を知ることができます。
私がドラゴンを発音矯正ソフトとして使う場合、音声認識の本来の目的を180度
転換させて、います。すなわち、音声認識ソフトの目的は、音声を利用者の発音を
意図した単語の文字に置き換えることです。発音ソフトとしてのドラゴンは、そうでは
なく、不正確な発音(異なった音素の組合せ)の場合、その不正確な発音に最も
近い単語を示すことで、その人の発音のどこが間違っていたのかを教えるのです。
私はドラゴンが完璧な発音矯正ソフトだとは言っていません。しかし、弊社の
SGPROネイティブ発音矯正ソフトと組み合わせれば、ドラゴンは発音ソフトとして
とてつもない威力を発揮します。ここにデモビデオがあります。
http://www.sgpro.jp/demo/
要するに、この製品は不完全だ、98%の精度しかないと批判するのではなく、
今の日本には、この製品を除けば、日本人の発音をこのような精度で検証して
くれるソフトはないという事実を認めるべきなのです。そして、もし、自分がそれ
以上の製品を作れるのであれば、作ればいいのです。
英会話上達法にしても、私はあなたの方法を批判するつもりは毛頭もありません。
「書けない事は言えない」というのは、書くという表示方法を知っている人間(現代
の大人の98%を対象にして言っています)の話をしているのであって、2歳の
子供や、文盲のアフリカ難民の話しをしているのではありません。彼らでも、書く
方法をしっていれば、自分の話していることは書けるはずです。文字は思考を
表現する手段ですから。私の「書く」というのは、思考を言語に置き換えることです。
トシ・イサム・イグチ
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
次は私からのメールです。
トシ・イサム・イグチ様
非常に残念ですが、イグチさんは音素の科学的な定義を理解しておりません。
英語教育者としては大変に大きな問題です。
ネットの辞書では音素を次のように定義しております。
音素(おんそ、phoneme)とは、言語学・音韻論において、客観的には異なる音であるが、ある個別言語のなかで同じと見なされる音の集まり。ロシアの言語学者ボードゥアン・ド・
クルトネが初めてその概念を提唱した。
音素は次の特徴を持つ。
「弁別的 (distinctive) な価値を持つ。すなわち、音素の違いは意味の違いをもたらす。ある音素の実際の音価は、その周囲の音的環境から予測可能である。 」
つまり音素は概念の音であり、物理音でありません。もちろんuniqueでもありません。
ご存じのように英国には44の音素提唱する学派も45の音素を提唱する学派もあります。 日本には43音を提唱する者もいます。
イグチ様の教え方は音素と言う、物理的にuniqueな存在音素が存在する前提で教えて
おります。もし音の最小単位で物理的なunique存在があれば物理的に取り出し、
判断する事は可能です。精度を計算する事もできます。
NHK出版会発行の元MIT現ハバード大学教授スティーブン・ピンカー氏著
「言語を生み出す本能」によると「話し言葉の音声は、継ぎ目なしに繋がっている」と
言っています。
ピンカー氏は「音のつらなりと思い、そう聞こえるのも、錯覚である。」と言い切っています。
例えばCATと言う音をテープ録音してもk、a、tに相当する音素を取り出せないそうです。
この3つの音を逆につないでも「タック」とは聞こえずに、わけの分からない音がするだけ
だそうです。語または音の構成要素についての情報は、語全体にまたがって格納されて
いる、と言っています。音声を音素で認識と思っているのは錯覚なのです。
MITやベル研で音声を研究した藤村靖氏は岩波書店の音声科学言論で「調音音声学」の
ように音声が時間軸に子音と母音が同格で並んでいると考えるのは科学的でないと言っております。
東大の峯松信明氏は音素は学習した錯覚だと断定しております。
つまり音声に音素という音の最小単位で物理的なuniqueな存在がありません。
だから精度の高い認識をする個人設定をする必要があります。
イグチさんも次のように音素がuniqueでない事を認めております。
「できるだけ話者の発音のくせ、特徴を取り入れて認識度を上げるよう個人プロフィールを設定します。ドラゴンは利用するたびに利用者の音声を学習して認識度を高めます。」
音声には必ず音素という音の最小単位で物理的なunique存在があるなら、
どのような音声でも完全に認識できるはずです。
個人プロフィールを設定するの人間の音声に識別できる
uniqueな存在の音素がないからチューンナップが必要なのです。
英語の音声は連続的に変化する音のストリームですから、いかなるソフトでも正しく認識できません。科学的に考えるとuniqueな存在の音素がないのですから、精度を測定する事も不可能です。
AmericanCentralのアラン・シュワルツ氏もこれを認めました。
つまり科学的に人間の音声の精度の高い音声認識できない事実を認めました。
音素を音声の物理的な最小の単位とするなら、音素は無数に存在します。するとその無数の
音素に対しては果てしなくゼロに近い精度の認識となるはずです。
イグチさんが音素が存在すと主張するなら、その音素が幾つであり、それぞれの音素が
物理的にuniqueであると言う証明ができなければ、音素は概念の音でしかありません。
イグチさんはこう言われております。
「ただ、自分の考えを磨くため、いろいろ異なる考えを聞いて、自分の考え方を修正します(必要であれば)。」
イグチさんの音素に対するご意見をお聞かせください。
私はイグチさんの考えを変える必要があると思います。
桜井恵三
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
イグチ氏からのメールです。
桜井さん
いろいろ情報ありがとうございました。
私の音素(Phonome)に関する知識はこの定義から来ています。
In a language or dialect, a phoneme (from the Greek: φώνημα, phōnēma, "a sound uttered") is the smallest segmental unit of sound employed to form meaningful contrasts between utterances.[1]
私の理解では音素は、すべての言語を入れると無数にあるはずです。しかし、各々の言語には
限られた数しかありません。その組み合わせ(音のDNA)が個々の単語に属するのです。
あなたは、この音素を組み合わせたDNAを言語モデルに組み込まれた単語とマッチングさせる
ことが不可能だと言いたいのですか?それなら、どうしてドラゴンは、私が読んだ文章はほぼ100%正確に文字に変換できるのです。そして、日本人のAさんが読むと5%しか認識できないのだと思うのです?
私は、これ以上音素の議論をするつもりはありません。なぜなら、私の考えは、ドラゴン音声認識の基本であり、それが正しいと100%目の前で証明されているからです。
AmericanCentralのアラン・シュワルツ氏もこれを認めました。
つまり科学的に人間の音声の精度の高い音声認識できない事実を認めました。
NUANCEで働いていた、このシュワルツという人間が、もし、本当にこんな発言をしたとしたら、彼は何も分かっていなかったと言わざるをえません。Dragon音声認識
は、標準的なネイティブレベルの英語なら、99.9%正確に認識します。あなたは、
この事実をどう受け止めているのです?
理論や理屈を振り回しても、事実に目を覆うようでは、研究者として失格ですよ。
ドラゴンを試してみてください。
イグチ
最近のコメント