メインコンテンツへスキップ
【無料】配信で字幕を自動生成する方法|OBS・YouTube・Twitch対応の設定ガイド

【無料】配信で字幕を自動生成する方法|OBS・YouTube・Twitch対応の設定ガイド

公開日
読了目安12

配信で字幕を自動生成する方法|OBS・YouTube・Twitch対応の設定ガイド

「配信に字幕を付けたいけど、手動で入力するのは大変すぎる…」

「音声認識で自動字幕にしたいけど、どのツールを使えばいいかわからない…」

配信に字幕を付けることで、視聴者の理解度が上がり、聴覚に障害のある方も楽しめるようになります。また、音を出せない環境で視聴している人にもアプローチできるため、視聴者層の拡大にも繋がります。

しかし、リアルタイムで字幕を手入力するのは現実的ではありません。そこで活用したいのが、AI音声認識による自動字幕生成です。

この記事では、配信で字幕を自動生成する無料の方法を徹底解説します。OBS、YouTube、Twitchそれぞれの設定方法から、認識精度を上げるコツまで、すべてお伝えします。

この記事でわかること - 無料で使える字幕自動生成ツール5選 - OBSで字幕を表示する具体的な設定方法 - 音声認識の精度を上げるマイク選びのコツ - プラットフォーム別(YouTube/Twitch)の字幕設定 - 字幕デザインのカスタマイズ方法

配信に字幕を付けるメリット

アクセシビリティの向上

字幕を付けることで、聴覚に障害のある視聴者も配信を楽しめるようになります。また、日本語を母語としない視聴者にとっても、字幕は内容理解の助けになります。

視聴環境を選ばない

電車の中、職場の休憩時間、家族が寝ている深夜など、音を出せない状況で配信を見たい人は意外と多いです。字幕があれば、こうした視聴者も取り込めます。

SEO効果(アーカイブ)

YouTubeのアーカイブ動画には、字幕がSEO効果をもたらします。字幕データは検索対象になるため、動画が検索で見つかりやすくなります。

配信の専門性アップ

字幕付きの配信は、視聴者に「しっかり作られた配信」という印象を与えます。他の配信者との差別化にも繋がります。

無料で使える字幕自動生成ツール5選

1. obs-localvocal(OBSプラグイン)

OBS Studio用の無料プラグインで、ローカルで音声認識を行い、リアルタイムで字幕を生成します。

obs-localvocalの特徴
対応OSWindows / macOS / Linux
料金完全無料
認識エンジンWhisper(OpenAI)
オフライン動作可能
日本語対応

メリット

  • インターネット接続なしで動作
  • プライバシーが守られる
  • 遅延が少ない

デメリット

  • 初期設定がやや複雑
  • PCスペックによっては負荷が高い

2. ゆかりねっとコネクターNeo

日本製の音声認識・翻訳ソフトで、配信者の間で高い人気を誇ります。

ゆかりねっとコネクターNeoの特徴
対応OSWindows
料金基本無料(一部有料機能あり)
認識エンジンGoogle音声認識 / Whisper等
オフライン動作Whisper使用時のみ
日本語対応◎(日本製)

メリット

  • 日本語の認識精度が高い
  • OBSとの連携が簡単
  • 多言語翻訳機能あり

デメリット

  • Windows専用
  • 一部機能は有料

3. YouTube自動字幕機能

YouTubeには標準で自動字幕生成機能が搭載されています。配信後のアーカイブにも自動で字幕が付きます。

YouTube自動字幕の特徴
対応YouTubeライブ配信・動画
料金無料
認識エンジンGoogle音声認識
リアルタイム○(ライブ配信時)
日本語対応

メリット

  • 追加設定不要
  • Google の高精度音声認識
  • アーカイブにも自動適用

デメリット

  • YouTube限定
  • カスタマイズ性が低い
  • 配信画面への字幕表示は別途設定が必要

4. Web Speech API(ブラウザ利用)

Google Chromeの音声認識APIを利用した無料ツールがいくつか公開されています。

Web Speech APIツールの特徴
対応Google Chrome
料金無料
認識エンジンGoogle音声認識
インターネット必須
日本語対応

メリット

  • ブラウザだけで動作
  • インストール不要
  • 軽量

デメリット

  • Chrome限定
  • インターネット接続必須
  • 認識結果の保存に制限がある場合も

5. CLOVA Note(録画用)

NAVERが提供する無料の文字起こしサービスです。リアルタイムではありませんが、アーカイブ用の字幕作成に便利です。

CLOVA Noteの特徴
対応Web / iOS / Android
料金無料(月300分まで)
認識エンジンCLOVA独自
リアルタイム×(録音後に文字起こし)
日本語対応

OBSで字幕を表示する設定方法

obs-localvocalのインストールと設定

最も汎用的で高機能なobs-localvocalの設定方法を解説します。

Step 1: プラグインのダウンロード

  1. GitHubのobs-localvocalリリースページにアクセス
  2. お使いのOSに合ったインストーラーをダウンロード
  3. インストーラーを実行

Step 2: OBSでの設定

  1. OBS Studioを起動
  2. ソース→追加→「LocalVocal」を選択
  3. 「新規作成」でソースを追加

Step 3: 音声認識の設定

Language: Japanese
Model: large-v2(高精度)または small(軽量)
Whisper sampling: Top-p sampling

Step 4: 字幕表示の設定

  1. 表示形式を選択(字幕モード / テロップモード)
  2. フォント、サイズ、色を設定
  3. 位置を調整
obs-localvocalは、PCのGPUを使用して音声認識を行います。NVIDIA GPUを搭載したPCでは、CUDA対応版を使うことで認識速度が大幅に向上します。

ゆかりねっとコネクターNeoの設定

日本語配信におすすめのゆかりねっとコネクターNeoの設定方法です。

Step 1: ダウンロードとインストール

  1. 公式サイトからダウンロード
  2. zipファイルを解凍
  3. YNCNeo.exeを起動

Step 2: 音声認識エンジンの選択

推奨設定:
- リアルタイム重視: Google音声認識
- 精度重視: Whisper(ローカル)
- 低スペックPC: UDトーク連携

Step 3: OBSとの連携

  1. ゆかりねっとコネクターNeoの「字幕出力」を有効化
  2. OBSでブラウザソースを追加
  3. URLにゆかりねっとの出力URLを入力
  4. サイズと位置を調整

字幕のデザインカスタマイズ

OBSのテキストソースを使えば、字幕のデザインを自由にカスタマイズできます。

基本的なカスタマイズ項目

項目おすすめ設定
フォント源ノ角ゴシック、Noto Sans JP
サイズ32〜48px
白(背景が暗い場合)
縁取り黒、2〜3px
背景半透明の黒(不透明度50〜70%)

CSSでのカスタマイズ例

ブラウザソースを使う場合、CSSで細かいデザインが可能です。

.subtitle {
  font-family: 'Noto Sans JP', sans-serif;
  font-size: 36px;
  color: white;
  text-shadow: 2px 2px 4px rgba(0, 0, 0, 0.8);
  background-color: rgba(0, 0, 0, 0.6);
  padding: 8px 16px;
  border-radius: 4px;
}

音声認識の精度を上げる方法

マイク選びが最重要

音声認識の精度は、マイクの品質に大きく左右されます。ノイズの少ないクリアな音声を入力することで、認識精度が劇的に向上します。

高精度な字幕生成におすすめのマイク

HyperX SoloCast 2は、ポップフィルターとショックマウントを内蔵しており、ノイズの少ないクリアな音声を収録できます。音声認識の精度向上に最適です。

ダイナミックマイクは周囲のノイズを拾いにくいため、エアコンやPCファンの音が気になる環境でも高精度な音声認識が期待できます。

低価格ながらカーディオイド指向性でバックグラウンドノイズを抑制。初めて字幕配信に挑戦する方におすすめの入門機です。

発声のコツ

マイクだけでなく、話し方も認識精度に影響します。

認識精度を上げる発声のポイント

  1. はっきり発音する:特に語尾をはっきりと
  2. 適度なスピード:早口すぎず、遅すぎず
  3. マイクとの距離:10〜15cm程度が最適
  4. 一呼吸置く:文と文の間に少し間を取る

環境ノイズの低減

キーボードの打鍵音、エアコンの風切り音、外からの騒音など、環境ノイズは認識精度を大きく下げます。

ノイズ対策

  • 静音キーボードを使用
  • エアコンの風向きを調整
  • マイクに防音カバーを装着
  • OBSのノイズ抑制フィルターを活用

プラットフォーム別の字幕設定

YouTubeライブの字幕設定

YouTubeには標準で自動字幕機能がありますが、配信画面に字幕を表示するには別途設定が必要です。

方法1: YouTube側の自動字幕を有効化

  1. YouTube Studioにアクセス
  2. 配信の設定を開く
  3. 「自動字幕」を有効化

この方法では、視聴者側で字幕のON/OFFを選択できます。

方法2: OBSで字幕を配信画面に焼き込む

  1. 前述のobs-localvocalまたはゆかりねっとを設定
  2. 字幕がOBSの配信画面に表示される
  3. 全視聴者に字幕が表示される

Twitchの字幕設定

Twitchには標準の自動字幕機能がないため、OBS側での設定が必要です。

推奨設定

  1. obs-localvocalを使用
  2. 字幕の位置を画面下部1/3に設定
  3. 背景を半透明にして視認性を確保

ニコニコ生放送の字幕設定

ニコニコ生放送も同様にOBS側での設定となります。コメントとの干渉を避けるため、字幕の位置は画面下部中央がおすすめです。

配信ジャンル別のおすすめ設定

ゲーム実況配信

ゲーム実況では、ゲーム画面を邪魔しない位置に字幕を配置することが重要です。

ゲーム実況向け字幕設定
位置画面下部中央
フォントサイズ28〜32px
背景半透明(視認性と画面の両立)
表示時間3〜5秒

雑談・歌配信

雑談や歌配信では、字幕が配信の主役になることもあります。大きめのフォントで見やすく表示しましょう。

雑談・歌配信向け字幕設定
位置画面中央下部
フォントサイズ36〜48px
背景しっかりめの半透明
表示時間5〜7秒

料理・作業配信

手元を映す配信では、字幕が作業内容と被らないよう注意が必要です。

作業配信向け字幕設定
位置画面上部または左右端
フォントサイズ24〜28px
背景透明度高め
表示時間4〜6秒

よくあるトラブルと対処法

字幕が表示されない

原因1: マイク入力がない

  • OBSの音声ミキサーでマイク入力を確認
  • Windowsのサウンド設定でマイクが有効か確認

原因2: プラグインの設定ミス

  • obs-localvocalの言語設定を確認
  • モデルファイルが正しくダウンロードされているか確認

認識精度が低い

原因1: マイクの品質が低い

  • 前述のおすすめマイクを検討
  • ノイズ抑制フィルターを適用

原因2: 言語設定の問題

  • 音声認識の言語が「日本語」になっているか確認
  • モデルサイズを「large」に変更

遅延が大きい

原因1: PCスペック不足

  • より軽量なモデル(small、tiny)に変更
  • GPU利用を有効化

原因2: ネットワーク遅延

  • オフライン動作可能なobs-localvocalを使用
  • ローカルWhisperモデルを使用

字幕配信に役立つ周辺機器

高品質な字幕配信には、マイク以外の周辺機器も重要です。

顔出し配信で字幕を使う場合、高画質なWebカメラがあると映像と字幕の両方が美しく見えます。

コストを抑えたい方には、EMEET C960がおすすめ。3,000円以下でフルHD配信が可能です。

翻訳字幕で海外視聴者を獲得

日本語配信に英語字幕を付けることで、海外の視聴者にもアプローチできます。

リアルタイム翻訳の方法

ゆかりねっとコネクターNeoの翻訳機能

ゆかりねっとコネクターNeoには、音声認識と同時に翻訳を行う機能があります。日本語で話した内容が、英語や中国語などに翻訳されて表示されます。

設定方法

  1. ゆかりねっとコネクターNeoを起動
  2. 翻訳設定で出力言語を選択(英語、中国語など)
  3. 翻訳先を「字幕2」などに設定
  4. OBSに翻訳字幕用のブラウザソースを追加

多言語字幕のレイアウト

複数言語の字幕を表示する場合、画面レイアウトに工夫が必要です。

多言語字幕のレイアウト例
日本語字幕画面下部中央
英語字幕画面下部(日本語の上)
フォントサイズ日本語32px、英語28px

翻訳精度の限界

機械翻訳には限界があります。特に以下の点に注意してください。

  • 専門用語やスラングは誤訳されやすい
  • ゲーム特有の表現は通じないことがある
  • ニュアンスが失われることがある

重要な情報は、あらかじめ英語でも説明するなど、補足を入れると親切です。

字幕配信の注意点

誤認識への対応

音声認識は完璧ではありません。誤認識が発生することを前提に、以下の対応を心がけましょう。

  • 配信冒頭で「字幕は自動生成のため、誤認識があります」と説明
  • 重要な情報は口頭で繰り返す
  • 誤認識しやすい専門用語は避けるか、言い換える

配信の負荷

音声認識はCPU/GPUに負荷をかけます。配信と同時に動かすため、PCスペックに余裕がない場合は軽量なモデルを選択しましょう。

プライバシーへの配慮

クラウド音声認識を使用する場合、音声データがサーバーに送信されます。プライバシーが気になる場合は、obs-localvocalのようなローカル処理のツールを使用してください。

まとめ:無料ツールで字幕配信を始めよう

配信の字幕自動生成は、無料ツールで十分に実現できます。視聴者のアクセシビリティ向上、SEO効果、差別化など、多くのメリットがあります。

まとめ

- obs-localvocalは無料で高精度な音声認識が可能 - ゆかりねっとコネクターNeoは日本語に特化した優秀なツール - 高品質なマイクを使うと認識精度が大幅に向上 - 字幕のデザインは配信の雰囲気に合わせてカスタマイズ - 誤認識は避けられないため、視聴者への説明を忘れずに

まずは無料ツールで字幕配信を試してみて、自分の配信スタイルに合った設定を見つけてください。

配信で字幕を自動生成するのに費用はかかりますか?
基本的に無料で利用できます。OBSのプラグイン(obs-localvocal)やYouTubeの自動字幕機能、ゆかりねっとコネクターNeo(基本機能無料)など、無料で字幕を付けられるツールが充実しています。
字幕の認識精度を上げるにはどうすればいいですか?
高品質なマイクを使用することが最も効果的です。特にノイズが少ないコンデンサーマイクがおすすめ。また、はっきり発音する、適度な距離でマイクに話しかけることも精度向上に繋がります。
リアルタイムで字幕を表示できますか?
はい、可能です。OBSプラグインの「obs-localvocal」やブラウザソースで読み込む「ゆかりねっとコネクターNeo」を使えば、話した内容がリアルタイムで字幕として画面に表示されます。

よくある質問

Q配信で字幕を自動生成するのに費用はかかりますか?
A
基本的に無料で利用できます。OBSのプラグイン(obs-localvocal)やYouTubeの自動字幕機能、ゆかりねっとコネクターNeo(基本機能無料)など、無料で字幕を付けられるツールが充実しています。
Q字幕の認識精度を上げるにはどうすればいいですか?
A
高品質なマイクを使用することが最も効果的です。特にノイズが少ないコンデンサーマイクがおすすめ。また、はっきり発音する、適度な距離でマイクに話しかけることも精度向上に繋がります。
Qリアルタイムで字幕を表示できますか?
A
はい、可能です。OBSプラグインの「obs-localvocal」やブラウザソースで読み込む「ゆかりねっとコネクターNeo」を使えば、話した内容がリアルタイムで字幕として画面に表示されます。
Q日本語の音声認識は正確ですか?
A
最新のAI音声認識は日本語でも高い精度を発揮します。ただし、専門用語やゲーム特有の言葉は誤認識されることがあります。辞書登録機能のあるツールを使うと改善できます。
Q字幕のデザインはカスタマイズできますか?
A
ほとんどのツールでフォント、色、サイズ、背景などをカスタマイズできます。OBSのテキストソースやCSSを編集することで、配信の雰囲気に合わせた字幕デザインが可能です。

この記事を書いた人

TK

モリミー

Webエンジニア / テクニカルライター / マーケター

都内で働くWebエンジニア。テクニカルライターをしています。 映画やゲームが好きです。

あわせて読みたい

こちらの記事もおすすめ