Windowsには標準搭載の音声入力機能やWordのトランスクリプト機能など、無料で使える文字起こし手段が複数あります。
さらに最近では「ChatGPTに音声ファイルを渡せば文字起こしできるのでは?」と考える方も増えています。
しかし結論から言うと、方法によって「音声ファイルに対応しているかどうか」が大きく異なります。
リアルタイムの音声入力には対応していても、手元のmp3やwavファイルのテキスト化には使えない方法も多いのです。
この記事では、Windowsで音声ファイルを文字起こしする4つの方法を、対応ファイル形式・精度・料金の観点で比較し、用途に合った最適な方法を紹介します。
- Windowsで音声ファイルを文字起こしする4つの方法
- Windows標準機能(Win+H)とWordトランスクリプト機能の違い
- ChatGPTで音声ファイルの文字起こしは実用的なのか?
- 音声ファイルの文字起こしに最適な専用ツールの選び方
- 無料で始められる文字起こしツールの紹介
Zoomといったオンライン会議ツールで使える文字起こしツールを探している方は、以下の記事も参考にしてください。

Windowsで音声ファイルを文字起こしする4つの方法
Windowsで音声ファイルをテキスト化する方法は、大きく4つに分かれます。まずは全体像を比較表で把握してください。
| 比較項目 | Win+H 音声入力 | Word | ChatGPT | 文字起こしツール |
|---|---|---|---|---|
| 音声ファイル対応 | ✕ (リアルタイムのみ) | ○ (mp3/wav/m4a等) | △ (制限あり) | ○(mp3/wav/m4a/mp4等) |
| 料金 | 無料 | Microsoft 365必須(有料) | 無料〜有料 | 無料枠あり〜有料 |
| 話者分離 | ✕ | △ | ✕ | ○(ツールによる) |
| 要約・整形 | ✕ | ✕ | ○ | ○(ツールによる) |
| 日本語精度 | 中 | 中〜高 | 中 | 高 |
| 導入の手軽さ | ◎ | ○ | ○ | ○ |
| おすすめ用途 | 短いメモの音声入力 | 既にMicrosoft 365を契約中の方 | 文字起こし用途には不向き | 音声ファイルの文字起こしがメインの方 |
最も重要な違いは「音声ファイルのアップロードに対応しているかどうか」です。
対応している時間によっては、以下のような使い分けがおすすめであり、Microsoft 365の契約の有無によっても変わります。
- 3分未満の短い音声 → Word、文字起こしツール、ChatGPT
- 10〜30分の会議音声 → Word、文字起こしツール
- 複数人会議や議事録化 → 文字起こしツール
- すでにMicrosoft 365契約中 → Word優先、不足を感じたら、文字起こしツール
Windows標準の音声入力(Win+H)はリアルタイムの音声しか受け付けず、手元のmp3ファイルなどを直接テキスト化することはできません。
音声ファイルの文字起こしに対応しているのは「Word」「ChatGPT」「文字起こしツール」の3つですが、それぞれ精度や使い勝手に大きな差があります。以下で1つずつ解説していきます。
方法①:Windows標準の音声入力機能(Win+H)

最も手軽に試せるのが、Windows 10/11に標準搭載されている音声入力機能です。
あくまでも音声入力用の機能であり、文字起こし用の機能ではありませんが、マイクに入力された音声をリアルタイムで文字起こしできるため、簡易的な方法として紹介します。
キーボードの「Windowsキー+H」を押すだけでツールバーが起動し、マイクに向かって話すとリアルタイムで文字起こしされます。
Win+Hの文字起こし手順
利用手順は非常にシンプルで、「Windowsキー+H」のショートカットから利用できます。
- メモ帳やWordなど、テキストを入力できるアプリを開く
- 「Windowsキー+H」を押してツールバーを起動
- 設定アイコンから「句読点の自動入力」をオンにする
- マイクに向かって話すと、リアルタイムで文字起こしされる
- 停止する場合はもう一度「Windowsキー+H」を押す
音声入力機能なので、音声ファイルには対応していない
Windows標準の音声入力は「マイクからのリアルタイム入力」のみに対応しています。つまり、手元にあるmp3やwavなどの音声ファイルを直接テキスト化することはできません。
「ステレオミキサー」を使ってPC内部の音声を認識させる方法もありますが、PCの機種やドライバーによっては対応しておらず、設定も必要です。万人におすすめできる方法ではありません。
また、他のショートカットキーやアプリと競合すると利用できなくなるため、あくまでも音声入力機能の延長で利用できるだけとなっています。
「ちょっとした音声メモをその場でテキスト化したい」程度なら十分です。
会議などには、次以降から紹介する機能を利用してみましょう。
方法②:Microsoft Wordのトランスクリプト機能


Microsoft 365(旧Office 365)のサブスクリプションを契約しているなら、Wordのトランスクリプト機能で音声ファイルの文字起こしが可能です。
この方法はWindows標準の音声入力とは異なり、mp3・wav・m4aなどの音声ファイルをアップロードして文字起こしできる点が大きなメリットです。
Wordの文字起こし手順
Wordの文字起こし手順は以下の通りです。
- Wordを開き、「ホーム」タブの「ディクテーション」をクリック
- ドロップダウンから「トランスクリプト」を選択
- 「音声をアップロード」をクリックし、文字起こししたい音声ファイルを選択
- 処理が完了すると、文字起こし結果がトランスクリプトパネルに表示される
- 「ドキュメントに追加」をクリックすると、Word文書に挿入できる
ライセンスを契約していないと利用できない機能なので、すでにWordを利用している方のみ文字起こしが可能です。
もしホーム画面のタブに「ディクテーション」の項目が無い場合、Wordのバージョンが古いか、ライセンス契約をしていないアカウントの可能性があります。
この方法の注意点
Wordの文字起こし機能には以下の制限があります。
- Microsoft 365のサブスクリプション(有料)が必要
- 月あたりの文字起こし上限が300分(Copilotライセンスがあれば30,000分)
- 話者分離の精度が高くなく、複数人の会議では「誰の発言か」が正確に分かれない
- 文字起こし後の要約・整形機能はない(Copilotを追加すれば可能)
既にMicrosoft 365を契約していて、月に数回の短い音声ファイルを文字起こしするだけなら、追加コストなしで使える点は魅力です。
ただし、月300分を超える利用や、話者分離・要約まで求める場合は、後述する専用ツールの方が効率的です。
「既にMicrosoft 365を使っているから、追加費用ゼロで試してみたい」という方にはおすすめです。
ただし精度や機能面では専用ツールに及ばない点には注意しましょう。
方法③:ChatGPTで音声ファイルの文字起こしはできるのか?
「ChatGPTに音声ファイルを渡せば文字起こしできるのでは?」と考える方は多いですが、2026年の現在、ChatGPTを業務レベルの文字起こしに使うのは実用的ではありません。
ChatGPT単体での文字起こしは「できるが、使えない」
ChatGPTの有料プラン(Plus/Pro)では音声ファイルをアップロードすること自体は可能です。短い音声であればテキスト化もされます。
しかし、業務で使う「文字起こし」として求められるレベルには以下の点で達していません。
- 長時間の音声ファイルはそもそも処理できない
- 話者分離(誰がどの発言をしたか)に対応していない
- 日本語の固有名詞や専門用語の認識精度が専用ツールより低い
- 音声ファイルのサイズに制限があり、大きなファイルはアップロードできない
- 文字起こし結果のタイムスタンプが付かない
つまり、ChatGPTで音声ファイルの文字起こしは「技術的にはできるが、業務で使えるレベルかと言えばNo」というのが現状です。
実際にChatGPT(Proプラン)に10分間の音声データを渡し、文字起こしを依頼したところ、以下の画像のような結果になりました。


「ChatGPTは文字起こしできる」と主張していながらも、何度依頼をしても文字起こしが不可能でした。
2分ほどの短い音声なら対応できますが、少なくとも会議やインタビューのような長めの音声を安定して文字起こしする用途には不向きです。
「ChatGPTで要約すればいい」は本当か?
「文字起こしは専用ツールで行い、その結果をChatGPTに貼り付けて要約すればいい」という情報を見かけることがありますが、筆者はこの方法をおすすめしません。
理由はシンプルで、現在の専用文字起こしツールにはAI要約機能が標準搭載されているからです。
今回の記事で紹介する「Notta」であれば、文字起こしが完了した時点で要約・アクションアイテムの抽出・議事録テンプレートへの変換まで、ツール内でワンクリックで完結します。
わざわざ文字起こし結果をコピーし、ChatGPTに貼り付け、プロンプトを入力し、出力を確認するという、この手間は完全に不要です。
さらに実務上の問題として、文字起こしテキストはトークン数が非常に大きくなり、ChatGPTのプロプランでも1回で処理しきれないケースがあります。
分割して貼り付ける手間まで考えると、専用ツール内で完結させる方が圧倒的に効率的です。
- ChatGPTは文字起こしツールではなく、汎用AIチャットボット
- 専用の文字起こしツールなら、文字起こし→要約→議事録作成まで1つで完結
- 長時間の会議テキストはChatGPTのトークン制限に引っかかるリスクもある
- わざわざChatGPTにテキストを貼り付けて整形する手間は不要
Whisper APIという選択肢はあるが、一般ユーザー向けではない
ChatGPTと同じOpenAIが開発した音声認識モデル「Whisper」を使えば、高精度な文字起こしは可能です。
しかし、Whisperの利用にはAPI経由でのアクセスやPython環境の構築など、プログラミングの知識が必要になります。
「会議の録音をサクッとテキスト化したい」というニーズに対して、Whisper APIのセットアップはハードルが高すぎます。
同じ時間でNottaのような専用ツールを導入した方が、結果的に早く目的を達成できます。
「ChatGPTで全部できるのでは?」と期待して試した方ほど、
専用ツールの精度と手軽さに驚くことが多いです。
餅は餅屋で、文字起こしは文字起こし専用のツールに任せましょう。
方法④:専用の文字起こしツールを使う(おすすめはNotta)
音声ファイルの文字起こしを日常的に行うなら、専用の文字起こしツールが最も実用的な選択肢です。
Windows標準機能やChatGPTと比較して、専用ツールには以下の優位性があります。
- 音声ファイルをアップロードするだけで文字起こしが完了する
- mp3・wav・m4a・mp4など幅広いファイル形式に対応
- 話者分離(誰がどの発言をしたか)に対応
- 文字起こし結果の要約・翻訳まで1つのツールで完結
- タイムスタンプ付きで、該当箇所の音声をすぐに再生できる
- 複数のファイルにまたがって情報を分析してくれる
中でも筆者がおすすめする専用の文字起こしツールは、「Notta(ノッタ)」です。
NottaはWeb会議の文字起こしツールとして国内外で広く利用されている AI文字起こしサービスです。
- Zoom、Microsoft Teams、Google Meet、Webexの招待リンクを添付するだけで利用可能な文字起こしサービス
- AI要約・リアルタイム翻訳機能搭載
- 音声・文字起こしデータの出力が可能
- 音声データのインポートによる文字起こしも可能
- 画面収録機能や録音機能も搭載で公式に非対応なサービスにも利用可能
- 各種カレンダーアプリと連携してスケジュールを設定できる
| 会社名 | Notta株式会社 |
|---|---|
| 設立日 | 令和4年5月25日 |
| 本社住所 | 〒100-0004 東京都千代田区大手町1-9-2 大手町フィナンシャルシティグランキューブ3階 |
| 会社概要URL | https://www.notta.ai/company |
無料体験で20%OFFプロモコード貰える!
Web上での文字起こしに加えて、 mp3・wav・m4aなどの音声ファイルのアップロードにも対応しており、 ファイルを選択するだけで文字起こし・話者分離・AI要約まで自動で完了します。
以下の画像のように、チェックリストやタイムスタンプの設定など、自分の用途に合わせてカスタマイズして要約を出力できる点が専用ツールならではです。


また、Nottaには無料プランが用意されているため、アカウントを作成するだけで、すぐに試すことができます。
以下から、実際に無料アカウントの作成から文字起こしまでの手順を紹介していきます。
Nottaで音声ファイルを文字起こしする手順
Nottaで音声ファイルをテキスト化する手順はシンプルです。
ファイルをアップロードするだけで文字起こしが完了するため、特別な設定や専門知識は一切不要です。
まずはNotta公式サイトにアクセスして、無料アカウントを作成します。
アカウントの作成方法は以下の通りとなっており、Googleアカウントでもログインが可能です。
- Google、Microsoft、Appleのアカウントでログインする
- SSO(シングルサインオン)でログインする
- メールアドレスからアカウントを作成する
アカウントを作成した時点で、フリープラン(無料アカウント)が利用開始となります。


「アップロード」を選択すると、音声ファイルをアップロードして文字起こしができます。
マイクから自分の声を文字起こししたい場合には「録音開始」、Web会議を文字起こししたい場合には「Web会議の文字起こし」「URLからの文字起こし」「画面収録」などを利用できます。


アップロードを完了するだけで、自動的に文字起こしが開始されます。
音声ファイルの容量によって完了時間は異なりますが、10分の文字起こしデータなら1分程度で文字起こしが完了します。
AI要約は自分でカスタマイズが可能となっており、文字起こしの終了後に自動で要約してくれる設定も可能です。
Nottaの無料枠で十分に使えるのか?
Nottaには無料プランが用意されており、登録するだけで以下の機能が使えます。


無料プランでは1回あたり3分・月120分までの制限がありますが、短い音声メモであれば十分に試すことができます。
業務で継続的に使う場合はプレミアムプラン(年額14,220円)への加入が現実的ですが、まずは無料プランで精度や使い勝手を確認してから判断できる点が安心です。
あくまでも文字起こし精度や機能のテスト用です。
本格的な業務向けのプランではない点には注意してください。
Nottaの無料プランでできることについてまとめた記事も用意しているので、こちらも合わせて参考にしてください。


Web会議の文字起こしにも対応している
Nottaは音声ファイルの文字起こしだけでなく、Zoom・Microsoft Teams・Google MeetなどのWeb会議にも対応しています。
招待リンクを入力するだけで、オンライン会議の音声を自動で文字起こし・要約してくれます。


対面会議の録音ファイルはNottaにアップロードして文字起こし、オンライン会議はNottaのBot連携で自動文字起こしと、会議形式を問わず1つのツールで完結できる点がNottaの強みです。
専用ツールを使えば、文字起こししたデータをわざわざChatGPTに渡して整理してもらうといった手間も不要になるため、結局は専用ツールに一本化した方が工数を削減できます。
Windowsでできる4つの方法の選び方まとめ
ここまで紹介した4つの方法を、利用シーン別に整理します。
| あなたの状況 | おすすめの方法 |
|---|---|
| ちょっとした音声メモをその場でテキスト化したい | Windows標準 音声入力(Win+H) |
| 手元の音声ファイルをテキスト化したい+Microsoft 365を契約中 | Word トランスクリプト機能 |
| 文字起こし結果を要約・整形・翻訳したい | 専用ツール(Notta) |
| 音声ファイルの文字起こしを日常的に行いたい | 専用ツール(Notta) |
| 対面もオンラインも、全ての会議を1つのツールで管理したい | 専用ツール(Notta) |
| とにかく無料で試したい | Win+H → Nottaの無料プラン |
迷った場合は、まずWindows標準の音声入力(Win+H)で手軽さを体験してみて、音声ファイルの文字起こしが必要になったらNottaの無料プランを試すという流れがおすすめです。
「ChatGPTでも文字起こしできるのでは?」と考える方は多いですが、 実際に試してみると専用ツールとの差を実感するはずです。
Nottaなら文字起こし→要約→議事録作成まで全て1つで完結するので、 他のツールと組み合わせる手間がそもそも発生しません。
意外かもしれませんが、文字起こし分野に汎用AIのChatGPTは不向きです。
GoogleのGeminiでも同じことが言えるため、専用ツールを推奨します。
Windowsの音声ファイル文字起こしに関するよくある質問
Windows標準機能で音声ファイルの文字起こしはできますか?
Windows標準の音声入力(Win+H)はリアルタイムの音声にのみ対応しており、音声ファイルの直接的な文字起こしはできません。
音声ファイルの文字起こしにはMicrosoft Wordのトランスクリプト機能(Microsoft 365契約が必要)か、Nottaなどの専用ツールを使用してください。
ChatGPTで長時間の会議録音を文字起こしできますか?
2026年4月現在、ChatGPTに音声ファイルをアップロードして文字起こしすること自体は可能ですが、長時間の録音(5~10分以上)はトークン数の関係で不可能です。
また、話者分離やタイムスタンプには対応していないため、会議の議事録作成には専用ツールの方が適しています。
無料で音声ファイルを文字起こしできるツールはありますか?
Nottaには無料プラン(月120分まで)があり、音声ファイルのアップロードにも対応しています。
また、Microsoft 365を既に契約している方はWordのトランスクリプト機能(月300分まで)も追加費用なしで利用可能です。
mp3ファイルをWindowsで文字起こしする最も簡単な方法は?
Nottaなどの専用文字起こしツールにmp3ファイルをアップロードするのが最も簡単です。ファイルを選択するだけで自動的に文字起こしが完了し、話者分離やタイムスタンプも付与されます。
Wordのトランスクリプト機能でもmp3ファイルの文字起こしは可能ですが、Microsoft 365の契約が必要です。
音声ファイルの文字起こしツールを選ぶ際のポイントは?
対応ファイル形式(mp3/wav/m4a/mp4等)、話者分離の有無、日本語の認識精度、無料枠の有無、要約機能の有無の5点を確認してください。
特に業務利用の場合は、話者分離と要約機能があるツールを選ぶと、文字起こし後の議事録作成まで効率化できます。
まとめ 音声ファイルの文字起こしは「専用ツール」がおすすめ
- Windows標準 音声入力(Win+H):リアルタイムの短いメモに最適。音声ファイルは非対応
- Word トランスクリプト機能:Microsoft 365契約者なら追加費用なしで音声ファイルの文字起こしが可能
- ChatGPT:文字起こしには不向き。専用ツールがあればChatGPTとの併用も不要
- 専用ツール(Notta):音声ファイルの文字起こしに最も実用的。話者分離・要約・翻訳まで対応
Windowsで音声ファイルを文字起こしする方法は4つありますが、それぞれの得意分野は明確に異なります。
音声ファイルの文字起こしが目的なら、Nottaのような専用ツールを1つ導入するだけで、文字起こし・話者分離・要約・議事録作成まで全て完結します。
ChatGPTにテキストを貼り付けて整形する手間も、Wordのトランスクリプト機能の月300分制限を気にする必要もありません。
有料プランの3日間トライアルも用意!
Nottaの料金プランや機能の詳細については、以下の記事で詳しく解説しています。


また、文字起こし対応のAIボイスレコーダーも検討したい方は、以下のランキング記事も参考にしてください。









