Aug 05, 2023
2023 年のベスト 2 ディクテーション ソフトウェア
Il software di dettatura semplifica l'uso del computer e la comunicazione
ディクテーション ソフトウェアを使用すると、フレーズを 1 つも入力しなくても、コンピュータの操作やコミュニケーションが簡単になります。
この柔軟性は、単にキーボードから離れたい場合には非常に便利ですが、言語処理障害や身体障害のある人にとっては特に重要です。 手先の器用さが限られている場合や慢性的な痛みがある場合、簡単なテキストの送信やメモの入力は困難、あるいはまったく実行できない場合がありますが、この種のソフトウェアを使用すると、そのような作業が比較的簡単になります。
18 のオプションを検討した結果、Apple Voice Control と Nuance Dragon Home 15 は、テストした他のディクテーション ツールよりも正確で、効率的で、使いやすいことがわかりました。
しかし、ディクテーション ソフトウェア (音声テキスト変換ソフトウェアまたは音声認識ソフトウェアとも呼ばれます) の背後にあるテクノロジーには、いくつかの欠点があります。 これらのアプリは学習曲線が難しく、人間がアプリにプログラムする固有のバイアスにより、特にアフリカ系アメリカ人の日常英語などのさまざまなアクセント、社会的信奉者、方言、または言語障害を持つ人々にとって、アプリの精度が異なる可能性があります。 それでも、テクノロジーの制約内で作業できる人にとって、私たちが選んだものは、ワードプロセッサ ツールを使用する支援を必要とする多くの人にとって利用できる最良の選択肢です。
Apple の音声コントロールは使いやすく、競合他社よりも正確な文字起こしをより頻繁に生成します。 また、修正を容易にする堅牢なコマンド ハブも提供します。
Apple の音声コントロールは macOS、iOS、iPadOS にインストールされているため、Apple デバイスを所有している人なら誰でも無料で利用できます。 私たちのテストでは、特に標準的なアメリカのアクセントを持つ話者に対して、ほとんどの場合に正確な文字起こしが行われました。 Google、Microsoft、Windows の競合ツールは、精度テストで Apple のソフトウェアより平均 15 ポイント低かった。 テスターのパネルの中で、手の器用さが制限されている人は、OS の操作やメッセージの編集をハンズフリーで簡単に行える音声コントロールの支援テクノロジ機能を気に入っていました。 しかし、音声コントロールが提供するエクスペリエンスは Apple デバイスで私たちが見つけた中で最高のものでしたが、地域やその他のアメリカのアクセントや、吃音などの言語障害を持つテスターが話す単語やフレーズ全体を誤解してしまうことがよくありました。 このような精度の問題は、歴史的に同種のデータ ソースに依存してきた音声認識モデリングでは予想されますが、この点では他のツール (具体的には、Windows でのみ利用可能な Nuance Dragon Home 15) の方がわずかに優れたパフォーマンスを示しました。 また、複数のプロセッサを集中的に使用するプログラムを同時に実行している場合、Apple のツールはわずかに遅れる可能性があり、パネリストはそれが生産性を低下させると述べました。
広告
Dragon Home 15 は、あらゆるオペレーティング システムでテストした中で最も正確なディクテーション ツールです。しかし、その高額な価格は飲み込むのが大変です。
Nuance Dragon Home 15 は 200 ドルで、私たちがテストした音声認識ツールの中で最も高価ですが、Windows PC を所有している人にとっては最良の選択肢です。 私たちが試したすべてのディクテーション ソフトウェアと同様、Dragon Home の使用には最初は学習が必要ですが、Dragon チュートリアルは使い始めるのに非常に役立ちます。 言語処理障害のあるパネリストは、Dragon Home は試した中で最も正確なディクテーション オプションの 1 つであり、堅牢なコマンド機能によりマシンを迅速に操作できるようになったと述べました。 私たちが選んだ Apple と同様に、Dragon Home もさまざまなアメリカの方言や国際的なアクセントに問題を抱えていました。 「中立的な」アメリカアクセントを持つテスターの場合、より良いパフォーマンスを示しました。 また、すべての背景ノイズを除去することも困難でしたが、外部マイクまたはヘッドセットを使用することでそのような問題を軽減できます。 Dragon Home は、私たちがテストしたどのツールよりも高速な文字起こしを生成しましたが、これは無条件の肯定的なものではありませんでした。パネリストの半数は、Dragon Home の文ごとの文字起こし方法よりも、停止時間が長いため、より遅いリアルタイム文字起こしを好むと述べました。文章が画面上に表示されるまでの間に気が散ってしまう可能性があります。
Apple の音声コントロールは使いやすく、競合他社よりも正確な文字起こしをより頻繁に生成します。 また、修正を容易にする堅牢なコマンド ハブも提供します。
Dragon Home 15 は、あらゆるオペレーティング システムでテストした中で最も正確なディクテーション ツールです。しかし、その高額な価格は飲み込むのが大変です。
Wirecutter のシニア スタッフ ライターとして、私は 5 年間かけて複雑なテーマをカバーし、犬の DNA 検査、ブルーライトカット メガネ、電子メール購読解除ツール、家庭内暴力者が使用するテクノロジー操作戦術などのテーマに焦点を当てた記事を書いてきました。 私は 8 年代の初めにディクテーション ソフトウェアを早くから導入していましたが、Nuance の Dragon ソフトウェアのあまり洗練されていないバージョンを使用していました。 このガイドのためにインタビューした他の人たちと同じように、私もそのソフトウェアのパフォーマンスの悪さと学習の困難さのため、すぐにこのソフトウェアを放棄しました。 それ以来、お菓子を焼いて手がベタベタになったり、朝の日課のヘアケア製品で手がベタベタになったりしたときに、デバイスのディクテーション ツールやアクセシビリティ ツールを時折使用して、簡単なメッセージを送信するようになりました。 このガイドを執筆している間、私は推奨ツールを使用してテキストの約 3 分の 1 を口述筆記しました。
しかし、私はコミュニケーションにディクテーション ツールに依存する人間ではないので、障害のある人にとって世界をよりアクセスしやすいものにするためにこの種のソフトウェアが果たす役割をより深く理解するために、AI と障害コミュニティのさまざまな専門家に相談しました。 私は論文や査読付き研究を読み、慢性的な痛みに関するアドバイスを求めて頻繁に訪れる障害者フォーラムを閲覧し、優れたディクテーション ツールとは何かを学ぶために親和団体からの意見を求めました。 そして、ハーバード ビジネス レビュー、スタンフォード大学人間中心人工知能研究所、イリノイ大学アーバナ シャンペーン音声アクセシビリティ プロジェクトなどから得た、AI テクノロジーと音声認識バイアスに関する最新の研究をブラッシュアップしました。
また、Microsoft の障害者擁護者でソフトウェア エンジニアの Meenakshi Das 氏と、障害者創業者スタートアップ アクセラレーター 2Gether-International の CEO である Diego Mariscal 氏とも、さまざまな障害を持つ人々に対するディクテーション ツールの限界について話し合いました。 私はプリンストン大学の博士号取得候補者サヤシュ・カプール氏と人工知能の倫理について議論した。 私はカプール氏の顧問であるアルビンド・ナラヤナン博士による「差別に対する定量的アプローチの限界」と題した講演会に参加した。 スタンフォード大学人間中心人工知能スタンフォード研究所の共同所長であるクリストファー・マニング氏に、口述筆記ソフトウェアの進化について話を聞いた。 そして、私は Wirecutter のアクセシビリティ特集の編集者、Claire Perlman と相談して、このガイドに対する私のアプローチがアクセスしやすく、ニュアンスがあり、障害者コミュニティのニーズを反映したものであることを確認しました。
最後に、私はディクテーション ソフトウェアの使用経験がさまざまな 9 人からなるテスト パネルを編成しました。その中には、言語障害から手の器用さの制限、重度の脳外傷まで、さまざまな障害を持つ人も含まれていました。 私たちのテスターはまた、「中立的な」アメリカ語から「曖昧な」ルイジアナ語、そして「目立つ」インド語まで、さまざまなアクセントを自己報告しました。
音声テキスト変換ツールなどの支援テクノロジーは、運転中にハンズフリーでテキストを送信したり、キーボードに触れることなく定期レポートを入力したりするまで、あらゆる作業に役立ちます。
このガイドは 2 つのタイプのユーザーを念頭に置いて作成しました。1 つは意思疎通にディクテーション ソフトウェアに依存する障害のあるユーザー、もう 1 つは両手が自由に使えるユーザーで、キーボードから解放されて作業する必要がある場合にこれらのツールを使用することです。 ただし、私たちは障害のある人々に重点を置いています。それは、ディクテーション ソフトウェアが障害のある人々によりよくサービスを提供でき、最終的には彼らが世界にアクセスしてコミュニケーションすることを容易にすることができるからです。
手先の器用さ、四肢の違い、または言語処理に制限があるかまったくないユーザーは、好みの環境で自由にコミュニケーションできるため、音声認識ソフトウェアが便利であると感じるかもしれません。 たとえば、学習障害のあるパネリストは、音声認識ソフトウェアを使用してプロジェクトを完了する際に、頭の中でさまようことや「ブレインダンプ」するのが好きで、最初からすべてを完璧に書き留めなければならないというプレッシャーをあまり感じていないと述べました。
それでも、私たちのアプローチには限界がありました。私たちは、コンピュータ画面全体を口頭で操作するのではなく、テキスト ドキュメントと統合して編集する各ツールの機能に焦点を当てました。これは、脳性麻痺、パーキンソン病、四肢麻痺、およびその他の神経障害を持つ一部の人々が利用できる機能です。特に、言語に問題がなく、運動制御が制限されているかまったくない場合は、障害が必要です。 私たちが選んだ製品には、グリッド ナビゲーション、テキスト編集、音声コマンドなど、デバイスの使用を容易にするいくつかのアクセシビリティ機能が備わっていますが、ソフトウェアをテストした全員がこれらの機能を広範囲に使用していたわけではなく、私たちが考えた音声認識ソフトウェアの大部分にはこれらの機能が欠けています。これらのプレミアムオプション。
アクセシビリティ機能がないこと以外にも、さまざまなアクセントでの機能の低下など、これらのソフトウェア プログラムの有用性を妨げる可能性のあるものもあります。
スタンフォード研究所の共同所長であるクリストファー・マニング氏によると、音声認識ソフトウェアは1980年代から1990年代に初めて利用可能になり、弱視者向けのトーキングタイプライター、市販の音声認識ソフトウェア、コレクトコール処理の導入により普及したという。人間中心の人工知能のための。 しかし、「音声認識はかつては本当にひどいものだった」と彼は言う。 「あなたが英語とインドの話者だった場合、以前はそれが理解できる可能性はほぼゼロでしたが、今ではそれほど悪くありません。」
私たちのテストでわかったように、個人の「悪い」の定義は、アクセントや会話能力によって大きく異なります。 また、当社の AI 専門家は、世界中のさまざまなアクセント、方言、音声パターンに直面すると、ディクテーション ソフトウェアで使用される自然言語処理 (NLP) テクノロジーの限界が露呈することに同意しました。
プリンストン大学で AI 倫理を研究している博士課程 2 年生のサヤシュ・カプール氏は、NLP ツールは Reddit や Wikipedia などの Web サイトでトレーニングされることが多く、社会から疎外されたジェンダーや、黒人、先住民族、その他の有色人種コミュニティの人々に対して偏見を持っていると述べました。 その結果、ほとんどのディクテーション ソフトウェアは、イギリス英語やアメリカ英語などの正規アクセントに最適に機能する、とマニング氏は述べています。 当社の専門家によると、一部の音声テキスト変換ツールには、性自認、人種、地理的位置はもちろん、さまざまな方言や社会主義者に対するきめ細かいモデリングが備わっていないそうです。
実際、ある研究では、Amazon、Apple、Google、IBM、Microsoft の音声テキスト変換ツールには「重大な人種格差」があることが判明しており、黒人話者の平均単語誤り率は白人話者の 2 倍近くでした。 この制限は、話者がどれだけ簡単に自分の作品を指示できるかだけでなく、どれだけ効果的にフレーズを修正したり、書式設定コマンドを実行したりできるかにも影響を及ぼします。これが、シームレスなユーザー エクスペリエンスか、苦痛を伴うユーザー エクスペリエンスの大きな違いになります。
音声認識ツールに固有のバイアスは、言語障害にも及びます。 ワイヤーカッターは、吃音や、脳性麻痺やパーキンソン病によるものなど、その他の種類の言語障害を持つ数人に、テスターのパネルへの参加を打診しました。 しかし、ほとんどの人は、ディクテーションツールの使用経験が乏しかったことを理由に、辞退しました。 吃音障害を持つ障害者擁護活動家のミーナクシ・ダスさんは、ソフトウェアを本当にアクセシブルなものにするために業界全体でさらなる取り組みが必要なため、音声テキスト変換ツールは一切使っていない、と語った。 (Das は Microsoft のソフトウェア エンジニアであり、同社は Windows PC 用の製品を製造している Nuance を所有しています。)
ダス氏とカプール氏は、アクセント、言語障害、言語処理障害を持つ人々が口述筆記ツールを使用できるようにするために、アクセラレーターが彼らの偏見ギャップを埋めるよう取り組んでいる傾向に気づいている。 たとえば、2022 年 10 月、イリノイ大学は、障害のある人々や多様な音声パターンの音声認識を向上させる音声アクセシビリティ プロジェクトにおいて、アマゾン、アップル、グーグル、メタ、マイクロソフト、および非営利団体とのパートナーシップを発表しました。
しかし、真に包括的な音声テキスト変換ツールが登場するまで、十分なサービスを受けられていないグループの人々は、現在利用可能なソフトウェアを最大限に活用する方法に関する私たちのアドバイスをチェックすることができます。
私たちは専門家から音声テキスト変換ツールに関する洞察を求め、ソフトウェアのレビュー、査読済みの研究、障害者フォーラム、および組織の Web サイトを読んで、優れたディクテーション ツールとは何かを学びました。
私たちは 18 のディクテーション ソフトウェア パッケージを特定し、その機能、プラットフォームの互換性、プライバシー ポリシー、価格、サードパーティのレビューを比較しました。 私たちが探した機能の中には、さまざまな便利な音声コマンド、ナビゲーションのしやすさ、カスタマイズ可能なコマンドと語彙の存在、多言語サポート、組み込みのヒント ツールやチュートリアルなどがありました。 私たちの基準で最高位にランク付けされたプログラムは、一般に堅牢な機能と幅広いプラットフォームの可用性を組み合わせて提供され、テスト対象の最終リストに選ばれました。
これらのツールをデフォルトでアメリカ英語設定にし、コンピューターとモバイル デバイスで各ツールを数時間ローテーションして使用しました。 その後、精度、使いやすさ、速度、ノイズ干渉、アプリの互換性に関してパフォーマンスを評価しました。 私たちは正解率に重点を置き、ディクテーション ツールがカジュアルな会話の 150 ~ 200 ワードのサンプル、アリシア キーズの曲「No One」の歌詞、同僚からの科学用語をどの程度認識するかを確認する一連の制御テストを実行しました。 -ワクチン研究を見直した。 そこから、最高のスコアを獲得したディクテーション ツールをパネル テスト ラウンドに進めました。
9 人のパネリストが 3 週間にわたって準決勝進出者をテストしました。 当社の多様なテスター グループには、言語障害から手先の器用さの制限、重度の脳外傷まで、さまざまな障害を持つ人々が含まれていました。 彼らは、アメリカ語からカタルーニャ語、インド語までの範囲のアクセントを自己申告しました。 パネリスト全員が、さまざまな程度のディクテーション ソフトウェアの経験を持っていました。
当社のテスターをご紹介します:
パネリストは、さまざまな音声テキスト変換ツールを使用して、テキスト メッセージ、電子メールの下書き、コード化されたソフトウェアを送信し、その後、自分の経験について詳細なメモを提供し、どのツールが定期的に使用したり、自分で購入したりしても快適であるかを特定しました。
選択に到達するために、パネリストの経験とコントロール ラウンドの結果、および専門家からの推奨事項を組み合わせました。
Apple の音声コントロールは使いやすく、競合他社よりも正確な文字起こしをより頻繁に生成します。 また、修正を容易にする堅牢なコマンド ハブも提供します。
価格:無料オペレーティング·システム:macOS、iOS、iPadOSサポートされている言語:ヒンディー語、タイ語、英語とイタリア語のいくつかの方言を含む、設定に応じて 21 ~ 64 の言語。
Apple Voice Control は使いやすく、Google、Microsoft、Nuance などの主要な競合製品を上回っており、よりスムーズなエクスペリエンスを実現する多数のコマンド プロンプトを提供しており、手先の器用さが限られている人にとっては特に便利な機能です。 音声コントロールは Apple エコシステムに深く統合されているため、テストした他の多くのツールよりもアクセスしやすくなっています。 macOS、iOS、iPadOS で無料で利用できます。 にアクセスしてアクティブ化できます設定 > アクセシビリティお好みのデバイスで。 アクティブにすると、携帯電話のディクテーション機能や Siri 機能と同じように動作することに気づくかもしれません。 それは、同じ音声認識アルゴリズムを使用しているためです。 これは、すべての音声テキスト変換ツールに固有の学習曲線が音声コントロールを使用すると、特にディクテーションや Siri を以前に使用したことがある場合、音声パターンにすでに慣れているため、それほど難しくないことを意味します。 (ディクテーションと音声コントロールがどのように異なるのか疑問に思っている場合は、ディクテーションは、音声コントロールのさまざまなアクセシビリティ機能やナビゲーション機能を省略した音声テキスト変換ツールです。)
私たちのテストでは、音声コントロールは、Nuance Dragon Home 15 (Windows PC 用に選択)、Google ドキュメントの音声入力、Windows 音声認識などの競合製品よりも正確な文字起こしを定期的に生成しました。 私たちの対照テストでは、アクセントのないカジュアルな音声では 87% の精度がありました。 比較すると、Dragon Home の精度は 82% でしたが、Windows 音声認識の精度はわずか 64% でした。 Google ドキュメントの音声入力は、音声コントロールと同等のパフォーマンスを発揮しましたが、短縮形、スラング、記号の転写に失敗する頻度がはるかに高かったです。 音声制御を含むテストしたほとんどのツールは、免疫学の研究から得られた科学的な用語を含む専門用語が豊富な制御テストでは、精度が約 10% 低かった。 (この点で注目すべき例外の 1 つは Dragon Home で、より専門的な用語を使用しても目立った低下は見られませんでした。)
テスターの半数は、音声コントロールを定期的に使用すること、また、ディクテーション ソフトウェアに依存する場合は料金を支払うことにも同意しました。 彼らがソフトウェアを説明するために使用した具体的な言葉には、「正確」、「良い」、「印象的」などがありました。 それでも、実際のテストでは音声コントロールが限界に達し、さまざまなアクセントや吃音を持つテスターの単語やフレーズをソフトウェアが誤解することがよくありました。 残念ながら、歴史的に同種のデータ ソースに依存してきた音声認識モデリングでは、このような精度の問題が発生することが予想されます。 ただし、音声コントロールのパフォーマンスは使えば使うほど向上するため、最初は不正確さにイライラしてもすぐに諦めないでください。
Apple の支援技術は、手先の器用さが限られているテスターにとって、ハンズフリーでマシンを操作したりメッセージを編集したりできるため、際立った機能でした。 これらのコマンド プロンプトは学習曲線が難しく、最初から完璧なエクスペリエンスを得る可能性は低いです。 しかし、「何を言えばいいですか?」と尋ねると、 アクションに応じてコンテキストに関連するコマンドを自動的にフィルタリングするライブラリを起動します。 たとえば、デスクトップ フォルダを選択すると、ファイル アクセスに関連するプロンプトの短いリスト (「ドキュメントを開く」など) が表示され、カーソルをワードプロセッサ ツールに移動すると「種類」が表示されます。 このインターフェイスを使用すると、関連するコマンドをすばやく並べ替えることができ、一部のパネリストが便利だと感じた機能です。
アクセントのあるパネリストは、Apple Voice Control を使用してさまざまな精度の結果を体験しました。 標準外の英語のアクセントや言語障害を持つテスターらは、ゆっくり話すとアップルのソフトウェアのパフォーマンスが向上したと述べた。 英語でソフトウェアをテストしたスペイン語とカタロニア語を母語とするパネリストのフラン氏は、「入力に使用すると、時々動作がおかしくなることがありました」と指摘した。 同様に、このガイドを口述筆記する私自身の経験も困難であることが判明しました。音声コントロールがランダムな単語を大文字に変換したり、時折フレーズを打ち間違えたりするのを防ぐために、単語を過剰に発音する必要があることがわかりました。
パネリストは、Apple Voice Control がテキストの文字起こし用にテストしたツールの中で最も遅いという点で同意しましたが、その速度の差は数分ではなく数秒の問題でした。 音声認識ソフトウェアは、テキストを画面に表示する前に単一の単語ではなく完全な文を処理することがありますが、パネリストの約半数がこの傾向にイライラしていると感じました。 「[音声コントロール]が私の言ったことを認識したかどうかを確認するのを待つのは本当に気が散りました」と、反復性ストレス障害によりタイピングが困難になっているテスターのヴィッキーは述べた。
Wirecutter のアクセシビリティ報道編集者で、私たちのパネル委員でもあるクレア・パールマンもこの意見に同調しました。 彼女は、セッションの開始時にはラグタイムはわずかだったが、ソフトウェアを使用する時間が長くなるほど顕著に苦痛になったと語った。 クレアさんはまた、1.4 GHz クアッドコア Intel Core i5 プロセッサーを搭載した 2019 MacBook Pro が、音声コントロールを長時間実行しているときに過熱したことにも言及しました。 「私が現在経験している遅れは非常に気が散ってしまい、正しく入力するために思考プロセスを遅くしなければならないように感じます」と彼女は言いました。 2.6 GHz 6 コア Intel Core i7 プロセッサを搭載した 2019 MacBook Pro でこの問題を再現しようとしましたが、1 時間の使用後、Apple の音声認識プロセスが CPU の 54% から 89% を占めるまでの間で変動することがわかりました。 Apple Dictation の使用率は 1% から 35% の範囲であり、堅牢なプラットフォームには多くの処理能力が必要であることが確認されました。 ただし、Chrome やゲームなど、CPU を大量に使用する他のプログラムを閉じると、遅延が解消される場合があります。
前に述べたように、音声コントロールのコマンド プロンプトをうまく使いこなすには経験と技巧が必要です。 クイック スタート ガイドを読み、YouTube チュートリアルを視聴したテスターは、最も簡単なエクスペリエンスを報告しました。 インド訛りの試験官チャンダナさんは、「学習には時間がかかる」と語った。 しかし、ソフトウェアの「何を言うことができますか?」 screen は非常に役に立ちました。チャンダナさんは次のように述べています。「以前は使いたかったが、できるとは知らなかった多くの機能を使うことができました。」
最後に、音声コントロールは Apple 独自のアプリ内で最もよく機能しますが、人によってはその固有の制限が困難または煩わしいと感じるかもしれません。 「Google ドキュメントや WhatsApp よりも、Pages や iMessage の方が正確であることがわかりました」とクレア氏は述べています。 ほんの 1 つの例を挙げると、音声コントロールは Pages で「行を選択」や「削除」などの口述コマンドを正しくキャプチャしましたが、Google ドキュメントではそれらを実行できませんでした。
Dragon Home 15 は、あらゆるオペレーティング システムでテストした中で最も正確なディクテーション ツールです。しかし、その高額な価格は飲み込むのが大変です。
価格:ライセンスあたり 200 ドルオペレーティング·システム:ウィンドウズサポートされている言語:英語、フランス語、ドイツ語 (購入地域によって異なります)
Nuance Dragon Home 15 は、精度において Microsoft Word や Windows のディクテーション ツールを上回り、文字起こしを迅速に処理して表示し、すぐに使いこなすための便利なトレーニング モジュールとコマンド プロンプトの選択を提供するため、Windows PC ユーザーに最適です。 私たちがテストした他のほとんどのディクテーション ソフトウェアとは異なり、専門用語の多い専門用語でもうまく機能し、科学の分野で働く人々にとって役立つ可能性があるという利点がありました。 (これまでに以前のバージョンの Dragon を使用したことがある場合は、Dragon Home 15 が前世代に比べて大幅に改善されていることを知っていただけると幸いです。)
パネリストらは、Dragon Home は試した中で最も正確な音声認識ツールの 1 つであると述べ、「非常に正確」、「信頼できる」、少なくとも 1 つのケースでは「完璧」であると述べました。 関節拘縮を患っている Wirecutter 社の Claire Perlman 氏は、「Dragon の精度には本当に驚かされました。使用中ずっとエラーが 2 ~ 3 件しかありませんでした。」と語った。 当社の対照テストでも同様の結果が得られました。 Dragon Home は、カジュアルな会話の書き起こしでは 82% の精度を示し (精度が 87% だった Apple Voice Control にわずかに遅れています)、専門用語の書き起こしでは、Apple の Voice を含む他のソフトウェアで見られた精度の急激な低下は見られませんでした。コントロールツールとディクテーションツール。
Dragon Home の文字起こしはテスターの画面に最小限の遅延で表示されましたが、Otter や Windows 音声認識などのツールはフレーズや文章を生成するのに 2 倍の時間がかかりました。 しかし、パネリストらは、ドラゴン・ホームの文ごとの書き起こしは賛否両論あると感じた。 テスターの中には、フレーズや文章全体が画面上に同時に表示されることを好む人もいました。 「スピードと正確性の組み合わせのおかげで、画面上で何が起こっているかに常に注意を払う必要があると感じることがなくなり、代わりに自分の考えや執筆に集中することができました」とクレアさんは言いました。 他のテスターは、リアルタイムの単語ごとの文字起こしを好んでいました。「確かに、座って指を叩きながら待っている瞬間がありました」と、Wirecutter 編集者のベン・キーオ氏は言いました。 Dragon Home では、ラグタイムを短縮したり精度を高めたりするために調整できます。[オプション] > [その他] > [速度と精度]。しかし、制御テスト中にこの設定を変更しても、パフォーマンスの違いには気づきませんでした。
私たちがテストしたすべてのディクテーション ソフトウェアと同様、Dragon Home もその機能を最大限に活用し、最高のパフォーマンスを達成するには多少のノウハウが必要ですが、その多数のアクセシビリティ音声コマンドはパネリストの間でお気に入りの機能でした。 私たちがテストしたほとんどのオプションとは異なり、Dragon Home は、最適なマイクの位置の設定からテキストのディクテーション、句読点プロンプトの使用まで、その使用方法を説明する簡単なチュートリアルとともに起動します。
復習が必要な場合は、いつでもこのチュートリアルに戻ることができます。パネリストの Juan は、このチュートリアルが外傷性脳損傷と短期記憶の問題に役立つと感じました。 「このチュートリアルは、その機能についての良いスタートを切るのに役立ちます」と彼は言いました。 Wirecutter の Claire Perlman 氏は、「私は何年も前に Dragon を使用していましたが、その当時、ユーザーの声を認識するようにシステムをトレーニングするのは面倒なプロセスでした。今回は、セットアップとトレーニングのプロセス全体が本当に役に立ち、非常に迅速であることがわかりました。そして、私はそう感じました」と述べています。本当にハンズフリーで操作できるようでした。」
Dragon Home の最大の欠点は、ライセンスごとに 200 ドルかかることです。 私たちが話を聞いた専門家らは、この参入障壁により、障害に応じたリモートワークが見つからず収入が限られている障害者を含む多くの障害者にとって、このソフトウェアの使用が不可能になる可能性があると述べた。 さらに、ソフトウェアをダウンロードして有効にする必要があるのは面倒であり、特にデバイスのオペレーティング システムに統合されている Apple Voice Control や Windows 音声認識と比較すると、障害を持つ人々にとって、自分たちの状況がデジタル時代における後回しであることを思い知らされることもあります。
このソフトウェアは Windows デスクトップ オペレーティング システムとのみ互換性があります。 Android、Apple のオペレーティング システム、または ChromeOS にはインストールできません。 (つまり、ハード ドライブをパーティション分割しない限り、ただしその場合、オペレーティング システムの速度が低下する危険性があります。ドライブ パーティションを持つパネリストの 1 人が経験したことです。) これには、Dragon Anywhere (150 ドル) への 1 年間の紹介サブスクリプションが付属しています。最初の 1 年以降) は、iOS および Android デバイスで動作しますが、そのモバイル バージョンのソフトウェアは、推奨する Home バージョンではなく、Dragon Professional ($500) とのみ同期できます。 この制限により、デスクトップとモバイルの両方のデバイスをユーザーのカスタム語彙や音声の特異性でトレーニングすることが困難になります。 さらに、パネリストは Dragon Anywhere をテストしていないため、その使いやすさや正確さについてコメントすることはできません。
Dragon Home は、箱から出してすぐに使える音声認識ツールではありません。ソフトウェアを初めてロードするときに、一連の短いチュートリアルを完了するように求められます。 つまり、期限を過ぎたメモや期末レポートなどを急いで書く前に、プログラムを理解するための時間を確保することが重要です。 (とはいえ、どの音声テキスト変換ツールを選択するかに関係なく、テキストを多用するプロジェクトに取り組む前に、そのツールに慣れておくことをお勧めします。)
Dragon Home は、私たちがテストした Windows 互換のディクテーション ソフトウェアの中で最もアクセスしやすく正確でしたが、それでも、特に専用のマイクやヘッドセットを使用していないテスターにとっては、文字起こしがうまくいかないことがありました。 Nuance は、最高のエクスペリエンスを得るために、Dragon USB ヘッドセット (35 ドル) または Dragon Bluetooth ヘッドセット (150 ドル) を購入することを推奨しており、ユーザーは音声プロンプトでテキストを修正し、精度チューニング機能を実行して言語モデルを最適化することで、プログラムの正解率を向上できると述べています。 。 私たちのテストから判断すると、高品質の専用マイクを正しく配置すれば結果が向上すると言えます。 それでも、有線ヘッドセットを使用していたあるパネリストは、Dragon Home では「Yeiser」のような多様な名前を取得できないが、「Brady」のような伝統的なイギリス人の名前には問題がないことに気づきました。
最後に、このディクテーション ソフトウェアは、英語、フランス語、ドイツ語の 3 つの言語でしか利用できません。これは、アクセシビリティが常にすべての人にアクセスできるわけではないことをはっきりと思い出させます。 これらの制約内で、言語地域を指定して、カナダ英語とアメリカ英語など、スペルが希望の地域と一致するようにすることができます。 または、500 ドルを支払って、オランダ語、イタリア語、スペイン語へのアクセスも提供する Dragon Professional Individual ライセンスを購入することもできます。 (優先言語ライセンスを購入できるかどうかは、お住まいの地域によって異なる場合があります。)
パネリストは、完璧なディクテーション ソフトウェアは存在しないが、ほとんどの場合、そのようなプログラムの機能は使用すればするほど向上することに同意しました。 音声テキスト変換ツールを最大限に活用する方法は次のとおりです。
マイクに向かって話すと、音声テキスト変換ツールがあなたの言葉を文字に起こすことができるため、ある程度のプライバシーを放棄することになります。 電話で話している場合と同様、近くにいる人にあなたの発言が聞こえる可能性があります。 また、多くのディクテーション ツールは、サービスを改善したり、何かを販売したりするために、学習アルゴリズムに音声を入力します。 場合によっては、企業があなたの音声をテキストに変換したすべての録音と文字起こしを法執行機関に引き渡すこともあります。 結局のところ、機密データを扱っていて、別の通信手段がある場合 (これらのツールを必要とする多くの人にとっては不可能であることはわかっていますが)、音声テキスト変換プログラムで情報を共有しないのが最善です。 もちろん、セキュリティで保護されていないテキストの送信やドキュメントのクラウドへのアップロードについても同じことが言えます。
私たちのおすすめの作成者があなたのデータをどのように扱うかは次のとおりです。
Apple の音声コントロールは、デバイス上のローカルでのみディクテーションとコマンドを処理するため、個人データが第三者と共有または保存されることはありません。 ただし、兄弟プログラムである Dictation と Siri に話しかけた情報の一部は、Apple のサーバーに送信される可能性があります。 (パネリストの何人かを含む多くの人がディクテーションと Siri を使用しているため、その違いには注意を払う価値があると結論付けました。)
通常、Apple は、ユーザーが検索ボックスに音声入力する場合、またはサービスがサードパーティ アプリへのアクセスを必要とする場合を除き、ユーザーがデバイス上で作成したディクテーションおよび Siri の音声録音にアクセスすることはできません。 Apple は、アプリのタスクを実行し、サービスを改善し、製品をマーケティングするために、Siri リクエストのトランスクリプト、ディクテーショントランスクリプト、IP アドレス、および連絡先情報を収集する場合があります。 また、Apple が会議メモの文字起こしサービスなどのサードパーティ アプリとやり取りする場合、その音声データが Apple に送信される可能性があり、ユーザーはそのアプリの個別の利用規約およびプライバシー ポリシーの対象となる可能性があります。 Apple の「Siri とディクテーションの改善」にオプトインすると、Apple が保存した音声録音とトランスクリプトに従業員がアクセスできるようになり、データは 2 年間保持されますが、同社は独自の裁量で保持期間をその期間を超えて延長することができます。
Apple はまた、製品やサービスをマーケティングするためにあなたの音声とトランスクリプトを使用します。 Apple によるオーディオ ファイルのレビューの許可をオプトアウトできます。システム設定(設定モバイルデバイス上)> プライバシーとセキュリティ > 分析と改善 ; 次の操作を行うことで、6 か月間の履歴を削除できます。システム設定(設定モバイルデバイス上)> Siri と検索 > Siri とディクテーション履歴 。 ただし、Gizmodo によると、iOS 14.6 では、オプトアウトした場合でも Apple が一部の分析データを収集する可能性があるとのことです。
第三者と共有される情報に関しては、特定のプロバイダーは取引終了時に個人情報を削除するか、データを保護するために非公開の措置を講じる必要があります。 また、Apple は法律の要求に応じてお客様の情報を法執行機関に開示する場合があります。
Dragon ソフトウェアを所有する Nuance は、定期的にディクテーション データを収集しています。 このサービスは、医療記録や機密情報など、ユーザーが指示したあらゆる機密情報にアクセスできますが、その際に必ずしもユーザーの直接の同意を必要とするわけではありません。 たとえば、ニュアンスはプライバシーポリシーの中で、「患者に直接アクセスできる第三者に代わって当社が個人データを処理する場合、同意を得るのは第三者の責任となる」と述べている。 そして、音声録音の「スニペット」は、ニュアンスのサービスを改善するためにデータを手動で転記する人々によってレビューされます。 Nuance は、サービスの使用を停止した後 3 年間データを保持します。また、ユーザーは会社に対してデータ記録の削除を要求できます。
さらに、ニュアンスは製品を販売するためにユーザーの IP アドレスや登録情報などの電子データを収集しますが、顧客データを第三者に販売することはないと同社は述べています。 ただし、ニュアンスの関連会社およびパートナーは、販売部門または顧客サービス部門を通じてデータにアクセスできる場合があります。 また、Apple と同様に、Nuance も法律を遵守するために個人データを共有する場合があります。
特にディクテーション ソフトウェアを検討するだけでなく、ディクテーションを行っているソフトウェア (Microsoft Word、Google Docs、またはその他のもの) のデータ保持ポリシーを必ず調べてください。これらのポリシーは、メーカー独自のプライバシー慣行に該当します。
Apple Dictation (macOS、iOS、iPadOS) は、私たちが選んだ Apple Voice Control と同様に機能しますが、主要なコマンド機能など、多くの人が音声テキスト変換ツールに求める堅牢な機能が欠けています。
Microsoft Word Dictate、Otter、または Windows Voice Recognition は、文字起こしの遅延時間と標準以下の精度率が 54% ~ 76% であり、Apple Voice Control の 87% や Dragon Home の 82% に大きく及ばないため、お勧めできません。 さらに、Otter のプラットフォームはワードプロセッサ ツールとうまく統合できないため、文書のディクテーションには適していません。 ライブ イベントのクローズド キャプションに適しています。
Braina Pro ツールは 8 月半ばに人気がありましたが、その Web サイトは時代遅れで、何年もユーザーのレビューがありませんでした。
Gboard の Google アシスタント インターフェイスは、Gboard と互換性のあるモバイル デバイスでのみ動作します。つまり、デスクトップ ユーザーや、Android または iOS スマートフォンを所有していない人には役に立ちません。
私たちのテストでは、Google ドキュメントの音声入力は社会常識やカジュアルな会話を正確に捉えることができませんでした。 また、音声障害のある人にはうまく機能せず、書式設定機能も貧弱で、マウスとキーボードにアクセスできない人には使用するのがほぼ不可能です。
IBM の Watson Speech to Text は、最初の 500 分を超えると分単位で料金が発生する文字起こしサービスです。 また、無料プランでは、1 か月間アクティビティがなかった場合、文字起こし履歴が削除されます。 私たちは、これらの欠点が失格となるのに十分であると考えています。
Windows 音声入力は Windows 音声認識ほど堅牢なツールではなく、そのアクセシビリティ コマンドには制限があることがわかりました。
Chromebook Dictation、Speechnotes、SpeechTexter など、いくつかの Chrome 固有のアプリを検討しましたが、機能が限られていて使用制限があり、ほとんどの人がアクセスできないため、テストは省略しました。
次のオプションも検討しましたが、それらは特定の商業用途向けに設計されていることがすぐにわかりました。
この記事は Ben Keough と Erica Ogg によって編集されました。
Meenakshi Das 氏、障害者擁護者兼ソフトウェア エンジニア、マイクロソフト、テキストインタビュー、2022 年 9 月 30 日
サヤシュ・カプール氏、博士課程候補者、プリンストン大学情報技術政策センター、電話インタビュー、2022 年 10 月 6 日
クリストファー・マニング、スタンフォード大学人間中心人工知能スタンフォード研究所共同所長、Zoom インタビュー、2022 年 10 月 5 日
ディエゴ・マリスカル氏、2Gether-International 創設者、CEO、障害者最高責任者、Zoom インタビュー、2022 年 10 月 26 日
Steve Dent、Amazon、Apple、Microsoft、Meta、Google が障害のある人々の音声認識を向上させる、Engadget、2022 年 10 月 3 日
Su Lin Blodgett、Lisa Green、Brendan O'Connor、ソーシャルメディアにおける人口動態的方言の変動: アフリカ系アメリカ人の英語のケーススタディ (PDF)、自然言語処理における経験的手法に関する 2016 年会議議事録、2016 年 11 月 1 日
プラバ・カナン、もう私の番ですか? 音声アシスタントに話すタイミングを教える、スタンフォード大学人間中心人工知能スタンフォード研究所、2022 年 10 月 10 日
Allison Koenecke、Andrew Nam、Emily Lake、Sharad Goel、自動音声認識における人種的格差、米国科学アカデミー紀要、2020 年 3 月 23 日
学習のための音声認識、LD OnLine、国立技術イノベーションセンター (NCTI) の「Tech Works」概要、2010 年 8 月 1 日
アルビンド・ナラヤナン、「差別に対する定量的アプローチの限界」、ジェームズ・ボールドウィン講義シリーズ、プリンストン大学アフリカ系アメリカ人研究学部、2022 年 10 月 11 日
ケイトリン・ウェルズ
Kaitlyn Wells はシニア スタッフ ライターであり、自分自身を失わずにリモートでよりスマートに働く方法を示し、仕事の柔軟性を高めることを提唱しています。 以前、彼女は Wirecutter でペットとスタイルを取り上げていました。 彼女は嫌いなペットに会ったことがありませんが、生産性向上アプリについては同じことが言えません。 彼女の最初の絵本『A Family Looks Like Love』は、見た目ではなく愛が家族を作るものだと学ぶ子犬を追ったものです。
サイン・ブリュースター著
AI ベースの Temi は、一般的な参照用に読みやすく手頃な価格のトランスクリプトを必要とする人々にとって最適なトランスクリプト サービスであることがわかりました。
エリッサ・サンシ著
ラベル メーカーは、混乱が支配する場所で秩序を回復し、必要な場所にコンテキストを提供できます。その最良の製品が Brother P-touch Cube Plus です。
ベン・キーオ著
ビジネスでビデオ会議ソフトウェアを使用する場合は、Zoom を使用する必要があります。 家族や友達と一緒に過ごしたいですか? Google Meet と Whereby に注目してください。
ライアン・ウィットワム著
Android スマートフォン用のスマートウォッチはこれまでよりも妥協が少なくなったように感じられ、Samsung と Google から素晴らしい新製品が揃っています。
価格: オペレーティング システム: サポートされている言語: 設定 > アクセシビリティ 価格: オペレーティング システム: サポートされている言語: オプション > その他 > 速度と精度。 チュートリアルを受講してください。 真剣に。 第一言語を設定します。 すぐに正確に伝えるには、発音してください。 長期的な成功のためには、自然に話しましょう。 専用マイクを検討してください。 オン/オフスイッチに注目してください。 システム設定 設定 > プライバシーとセキュリティ > 分析と改善 システム設定 設定 > Siri と検索 > Siri とディクテーション履歴