YomiPlay という App を作りました ── 日本語の音声・動画を「見て・聞いて・なぞって・編集して・共有できる」学習素材に
会議の録画、ポッドキャスト、YouTube 動画を自動で字幕化し、クリック再生・読み注釈・精修編集・ローカル保存・エクスポート共有まで一気通貫に。YomiPlay はプレイヤーではなく、「一度の聴取」を「再利用できる学習資産」に変えるパイプラインです。
YomiPlay の出発点は、エンジニアらしい単純な発想でした。
日本の会社のコードレビュー会議に出るとき、私たちは画面録画をしています。あとから振り返って、課題や要件の細部を確認できるようにするためです。
ところが現実は——録画した音声・映像をそのまま見返すのは、操作も理解コストも高い。特に日本語の会議は、話す速度が速く、専門用語が多く、文脈が密に絡む。何度聞き返しても、要点を取りこぼします。
そこで考え始めました:
会議の録画、ポッドキャスト、YouTube 動画のような音声・映像コンテンツを、そのまま「聴ける・見える・編集できる・復習できる」学習素材に変えられないか?
これが YomiPlay の出発点です。
中核となる発想:音声・映像を操作可能な字幕学習フローに
YomiPlay は単機能のツールではなく、一連のパイプラインです:
音声・映像を取り込む → 自動で字幕化 → 翻訳と読み補助 → 字幕を精修 → 字幕クリックで再生連動 → ローカル保存とエクスポート共有
実際の使い方の流れに沿って、何ができるかを順番に紹介します。
1. 多様な取り込み元:素材集めをできるだけ自由に
学習素材は複数の方法で取り込めます:
- ローカルの音声・動画ファイルをアップロード
- 膨大なポッドキャスト・ライブラリから音声を取得
- YouTube などのプラットフォームから音声・動画をダウンロード
つまり、自分のコンテンツ消費の習慣を変える必要はありません。仕事の会議録画、技術系インタビュー、日本語ポッドキャスト、日本語チャンネルの動画——すべて同じ学習フローに乗せられます。
| 取り込み方法 | ポッドキャスト一覧 |
|---|---|
![]() |
![]() |
2. 音声・映像を字幕に:まず「聞き取れない」を「見える」に
取り込みが終わると、YomiPlay は AI モデルで音声・映像コンテンツを字幕テキストに変換します。
このステップで解決しているのは、もっとも基本的で、もっとも重要な問題——音声情報を構造化することです。音声が字幕になると、理解効率は明らかに上がります:
- 「ただ聞き流す」必要がなくなる
- 情報の各ポイントを巻き戻し・位置指定できる
- 長い音声でも重要な段落をすぐ拾える

3. 字幕と再生位置の連動:1 文クリックで、その時刻にジャンプ
YomiPlay は、字幕から再生位置を逆に制御できます:
- 字幕の 1 文をクリックすると、対応する音声・映像の位置に即ジャンプ
- ある 1 文を中心に繰り返し聴き、精聴トレーニング
- 会議の振り返り時、重要な議論箇所を素早く特定
これは従来のシークバー操作よりずっと正確で、「ある 1 文/1 段落だけ復習したい」場面に最適です。

4. 字幕の翻訳:母語に切り替えて内容を理解
日本語学習や言語をまたいだ理解のために、YomiPlay は字幕翻訳に対応しています。字幕を自分が慣れた言語に変換し、対照しながら理解できます。
ねらいは「原文を置き換える」ことではありません:
- 初回理解のハードルを下げる
- 意味を照合するのを助ける
- 本当に難しいところに注意を集中できる

5. 読みの注釈:YomiMark の経験を継承し、日本語の可読性を強化
ここは YomiPlay の特徴のひとつです。私が以前作った YomiMark で積み重ねた経験をベースに、日本語学習をさらに後押しします:
- 日本語の読み(ふりがな)の自動付与——読み方をすばやく固定
- カタカナ外来語の可読性支援——英語の原語または翻訳を併記
「ある程度は読めるけれど、スムーズに読めず、耳でも安定しない」段階の学習者には大きな助けになります。

6. 聴きながら字幕を精修:学習素材は「生成して終わり」ではない
YomiPlay は「自動生成」だけで終わりません。再生しながら字幕を精修できます:
- 聴きながらテキストを修正
- 機械の結果を、自分の復習に最適な、より正確な版に整える
- 一度きりのコンテンツを、長く使える資料に沈着させる
会議の振り返りでは特に実用的です——重要な専門用語や要件表現を正確に押さえることができ、字幕を精修するプロセスそのものが、よい学習ループになります。
| 編集タイムライン | 読み注釈の編集 |
|---|---|
![]() |
![]() |
7. ローカル保存と素材の沈着:自分専用の学習資産を作る
最終的な字幕素材はユーザーのローカルに保存され、学習時にネットワークは不要です。
つまり、自分専用の日本語コーパスを継続的に積み上げていけます:
- シャドーイング練習
- 精聴の振り返り
- 用語の再確認
- 口語表現の模倣
時間や場所を問わず学習効率が上がるだけでなく、本質的な利点は——「どれだけ見聞きしたか」が、そのまま「どれだけ再利用できる素材になったか」になることです。

8. エクスポートと共有:個人学習から共同学習へ
整えた学習素材は、必要に応じて友人や同僚にエクスポートして共有することもできます。
ひとりでの利用から複数人での共同学習へ広がることで、同じ良質なコンテンツがより高い価値を生みます。

どんな人に向いているか
- 日本語会議の録画を振り返る必要があるエンジニア/ビジネスパーソン
- ポッドキャストや YouTube を本物の素材として学びたい日本語学習者
- 「聞いた」を「復習できる素材」に変えたい長期学習者
- 編集可能・位置指定可能・エクスポート可能な字幕を必要とするコンテンツ利用者
おわりに:私が作ったのは「プレイヤー」ではなく、「再利用できる学習フロー」
YomiPlay の目標ははっきりしています:
音声・映像コンテンツを、一度きりの消費から、訓練できる・沈着できる・共有できる学習資産へ。
「聞き取れない/聞きはするけど残らない/振り返りが大変」と感じることがあるなら、ぜひ YomiPlay を試してみてください。ひとつひとつのインプットを、見える成長に変える助けになればうれしいです。
Developed with care by Toshiki.Tech



