开发笔记：让任何一段文字，都能听、能读、能跟读 —— YomiPlay「文本朗读」背后的故事

一个一直没被解决的缺口

YomiPlay 最初的定位很清楚：把「听到的」变成「看得懂的」。你导入一段播客、一节课程录音、一个视频，App 在你手机上把它识别成带时间轴的字幕，配上假名、罗马字、翻译，于是原本一闪而过的声音，变成可以逐句精听、跟读、复习的素材。

但用着用着，我们收到很多类似的反馈，也在自己学日语时反复撞到同一堵墙：

「我手上只有文字，没有音频，怎么办？」

课本上的一个例句、老师发来的一段会话、自己整理的单词表、想背的一段自我介绍、网上看到的一句很地道的表达……它们都是文字。你想知道它读起来是什么样，想跟着念，想反复听到耳朵里——可它们没有配套的录音。

过去你只能：上网到处找音源（多半找不到对应的那一句）、用系统里那种机械感很重的朗读、或者干脆截图发给老师问。每一种都别扭，而且都打断了学习的节奏。

这个缺口，就是「文本朗读」想补上的。

粘贴任意一段文字，YomiPlay 直接在你手机上把它变成自然的朗读音频 + 同步字幕。

然后呢？然后它就和你导入的任何一段音频一模一样了——

换句话说：以前是「先有声音，才有学习素材」；现在是「只要有文字，就能造出学习素材」。 你想学的任何一句话，都能在几秒内变成可听、可读、可跟读的东西。

几秒后，它就静静躺在你的资料库里，点开就能像平时一样精听跟读。

声音不是那种「机器人念课文」的腔调——日语、英语、韩语、越南语用的是设备端的 AI 合成，自然、有连贯的语流；中文用的是 iOS 系统语音。而且全程在手机本地完成，不联网、不上传，你粘什么文字都不会离开你的设备。

我们没把它做成一个「读完就完」的朗读器。生成的结果会完整融进 YomiPlay 的学习闭环——和导入的播客、视频用的是同一套播放、注音、跟读、复习体系。因为对学习者来说，「听到」只是第一步，能反复跟、能回头复习，才是真正把它学进去。

所以从此，「我只有文字没有音频」不再是借口。想学的那句话，让它念给你听就好。

打开 YomiPlay → 导入 → 文本朗读，试一句你今天想学的话吧。