
配信で字幕を自動生成する方法|OBS・YouTube・Twitch対応の設定ガイド
「配信に字幕を付けたいけど、手動で入力するのは大変すぎる…」
「音声認識で自動字幕にしたいけど、どのツールを使えばいいかわからない…」
配信に字幕を付けることで、視聴者の理解度が上がり、聴覚に障害のある方も楽しめるようになります。また、音を出せない環境で視聴している人にもアプローチできるため、視聴者層の拡大にも繋がります。
しかし、リアルタイムで字幕を手入力するのは現実的ではありません。そこで活用したいのが、AI音声認識による自動字幕生成です。
この記事では、配信で字幕を自動生成する無料の方法を徹底解説します。OBS、YouTube、Twitchそれぞれの設定方法から、認識精度を上げるコツまで、すべてお伝えします。
- 無料で使える字幕自動生成ツール5選
- OBSで字幕を表示する具体的な設定方法
- 音声認識の精度を上げるマイク選びのコツ
- プラットフォーム別(YouTube/Twitch)の字幕設定
- 字幕デザインのカスタマイズ方法
配信に字幕を付けるメリット
アクセシビリティの向上
字幕を付けることで、聴覚に障害のある視聴者も配信を楽しめるようになります。また、日本語を母語としない視聴者にとっても、字幕は内容理解の助けになります。
視聴環境を選ばない
電車の中、職場の休憩時間、家族が寝ている深夜など、音を出せない状況で配信を見たい人は意外と多いです。字幕があれば、こうした視聴者も取り込めます。
SEO効果(アーカイブ)
YouTubeのアーカイブ動画には、字幕がSEO効果をもたらします。字幕データは検索対象になるため、動画が検索で見つかりやすくなります。
配信の専門性アップ
字幕付きの配信は、視聴者に「しっかり作られた配信」という印象を与えます。他の配信者との差別化にも繋がります。
無料で使える字幕自動生成ツール5選
1. obs-localvocal(OBSプラグイン)
OBS Studio用の無料プラグインで、ローカルで音声認識を行い、リアルタイムで字幕を生成します。
obs-localvocalの特徴
| 対応OS | Windows / macOS / Linux |
|---|
| 料金 | 完全無料 |
|---|
| 認識エンジン | Whisper(OpenAI) |
|---|
| オフライン動作 | 可能 |
|---|
| 日本語対応 | ○ |
|---|
メリット
- インターネット接続なしで動作
- プライバシーが守られる
- 遅延が少ない
デメリット
- 初期設定がやや複雑
- PCスペックによっては負荷が高い
2. ゆかりねっとコネクターNeo
日本製の音声認識・翻訳ソフトで、配信者の間で高い人気を誇ります。
ゆかりねっとコネクターNeoの特徴
| 対応OS | Windows |
|---|
| 料金 | 基本無料(一部有料機能あり) |
|---|
| 認識エンジン | Google音声認識 / Whisper等 |
|---|
| オフライン動作 | Whisper使用時のみ |
|---|
| 日本語対応 | ◎(日本製) |
|---|
メリット
- 日本語の認識精度が高い
- OBSとの連携が簡単
- 多言語翻訳機能あり
デメリット
3. YouTube自動字幕機能
YouTubeには標準で自動字幕生成機能が搭載されています。配信後のアーカイブにも自動で字幕が付きます。
YouTube自動字幕の特徴
| 対応 | YouTubeライブ配信・動画 |
|---|
| 料金 | 無料 |
|---|
| 認識エンジン | Google音声認識 |
|---|
| リアルタイム | ○(ライブ配信時) |
|---|
| 日本語対応 | ○ |
|---|
メリット
- 追加設定不要
- Google の高精度音声認識
- アーカイブにも自動適用
デメリット
- YouTube限定
- カスタマイズ性が低い
- 配信画面への字幕表示は別途設定が必要
4. Web Speech API(ブラウザ利用)
Google Chromeの音声認識APIを利用した無料ツールがいくつか公開されています。
Web Speech APIツールの特徴
| 対応 | Google Chrome |
|---|
| 料金 | 無料 |
|---|
| 認識エンジン | Google音声認識 |
|---|
| インターネット | 必須 |
|---|
| 日本語対応 | ○ |
|---|
メリット
デメリット
- Chrome限定
- インターネット接続必須
- 認識結果の保存に制限がある場合も
5. CLOVA Note(録画用)
NAVERが提供する無料の文字起こしサービスです。リアルタイムではありませんが、アーカイブ用の字幕作成に便利です。
CLOVA Noteの特徴
| 対応 | Web / iOS / Android |
|---|
| 料金 | 無料(月300分まで) |
|---|
| 認識エンジン | CLOVA独自 |
|---|
| リアルタイム | ×(録音後に文字起こし) |
|---|
| 日本語対応 | ○ |
|---|
OBSで字幕を表示する設定方法
obs-localvocalのインストールと設定
最も汎用的で高機能なobs-localvocalの設定方法を解説します。
Step 1: プラグインのダウンロード
- GitHubのobs-localvocalリリースページにアクセス
- お使いのOSに合ったインストーラーをダウンロード
- インストーラーを実行
Step 2: OBSでの設定
- OBS Studioを起動
- ソース→追加→「LocalVocal」を選択
- 「新規作成」でソースを追加
Step 3: 音声認識の設定
Language: Japanese
Model: large-v2(高精度)または small(軽量)
Whisper sampling: Top-p sampling
Step 4: 字幕表示の設定
- 表示形式を選択(字幕モード / テロップモード)
- フォント、サイズ、色を設定
- 位置を調整
obs-localvocalは、PCのGPUを使用して音声認識を行います。NVIDIA GPUを搭載したPCでは、CUDA対応版を使うことで認識速度が大幅に向上します。
ゆかりねっとコネクターNeoの設定
日本語配信におすすめのゆかりねっとコネクターNeoの設定方法です。
Step 1: ダウンロードとインストール
- 公式サイトからダウンロード
- zipファイルを解凍
- YNCNeo.exeを起動
Step 2: 音声認識エンジンの選択
推奨設定:
- リアルタイム重視: Google音声認識
- 精度重視: Whisper(ローカル)
- 低スペックPC: UDトーク連携
Step 3: OBSとの連携
- ゆかりねっとコネクターNeoの「字幕出力」を有効化
- OBSでブラウザソースを追加
- URLにゆかりねっとの出力URLを入力
- サイズと位置を調整
字幕のデザインカスタマイズ
OBSのテキストソースを使えば、字幕のデザインを自由にカスタマイズできます。
基本的なカスタマイズ項目
| 項目 | おすすめ設定 |
|---|
| フォント | 源ノ角ゴシック、Noto Sans JP |
| サイズ | 32〜48px |
| 色 | 白(背景が暗い場合) |
| 縁取り | 黒、2〜3px |
| 背景 | 半透明の黒(不透明度50〜70%) |
CSSでのカスタマイズ例
ブラウザソースを使う場合、CSSで細かいデザインが可能です。
.subtitle {
font-family: 'Noto Sans JP', sans-serif;
font-size: 36px;
color: white;
text-shadow: 2px 2px 4px rgba(0, 0, 0, 0.8);
background-color: rgba(0, 0, 0, 0.6);
padding: 8px 16px;
border-radius: 4px;
}
音声認識の精度を上げる方法
マイク選びが最重要
音声認識の精度は、マイクの品質に大きく左右されます。ノイズの少ないクリアな音声を入力することで、認識精度が劇的に向上します。
高精度な字幕生成におすすめのマイク
¥8,980
- 内蔵ショックマウント&ポップフィルターでクリアな音声
- ワンタップミュート機能搭載
- 24-bit/96kHz高解像度録音対応
- USB-C接続でプラグアンドプレイ
HyperX SoloCast 2は、ポップフィルターとショックマウントを内蔵しており、ノイズの少ないクリアな音声を収録できます。音声認識の精度向上に最適です。
¥6,823
- XLR/USB両対応のダイナミックマイク
- 単一指向性で周囲のノイズを抑制
- タッチミュート機能搭載
- RGBライティング機能付き
ダイナミックマイクは周囲のノイズを拾いにくいため、エアコンやPCファンの音が気になる環境でも高精度な音声認識が期待できます。
¥3,403
- 14mm大型振動板による高感度収音
- カーディオイド指向性でノイズ抑制
- ワンタップミュート機能
- 360度回転スタンド付属
低価格ながらカーディオイド指向性でバックグラウンドノイズを抑制。初めて字幕配信に挑戦する方におすすめの入門機です。
発声のコツ
マイクだけでなく、話し方も認識精度に影響します。
認識精度を上げる発声のポイント
- はっきり発音する:特に語尾をはっきりと
- 適度なスピード:早口すぎず、遅すぎず
- マイクとの距離:10〜15cm程度が最適
- 一呼吸置く:文と文の間に少し間を取る
環境ノイズの低減
キーボードの打鍵音、エアコンの風切り音、外からの騒音など、環境ノイズは認識精度を大きく下げます。
ノイズ対策
- 静音キーボードを使用
- エアコンの風向きを調整
- マイクに防音カバーを装着
- OBSのノイズ抑制フィルターを活用
プラットフォーム別の字幕設定
YouTubeライブの字幕設定
YouTubeには標準で自動字幕機能がありますが、配信画面に字幕を表示するには別途設定が必要です。
方法1: YouTube側の自動字幕を有効化
- YouTube Studioにアクセス
- 配信の設定を開く
- 「自動字幕」を有効化
この方法では、視聴者側で字幕のON/OFFを選択できます。
方法2: OBSで字幕を配信画面に焼き込む
- 前述のobs-localvocalまたはゆかりねっとを設定
- 字幕がOBSの配信画面に表示される
- 全視聴者に字幕が表示される
Twitchの字幕設定
Twitchには標準の自動字幕機能がないため、OBS側での設定が必要です。
推奨設定
- obs-localvocalを使用
- 字幕の位置を画面下部1/3に設定
- 背景を半透明にして視認性を確保
ニコニコ生放送の字幕設定
ニコニコ生放送も同様にOBS側での設定となります。コメントとの干渉を避けるため、字幕の位置は画面下部中央がおすすめです。
配信ジャンル別のおすすめ設定
ゲーム実況配信
ゲーム実況では、ゲーム画面を邪魔しない位置に字幕を配置することが重要です。
ゲーム実況向け字幕設定
| 位置 | 画面下部中央 |
|---|
| フォントサイズ | 28〜32px |
|---|
| 背景 | 半透明(視認性と画面の両立) |
|---|
| 表示時間 | 3〜5秒 |
|---|
クラウド音声認識を使用する場合、音声データがサーバーに送信されます。プライバシーが気になる場合は、obs-localvocalのようなローカル処理のツールを使用してください。