有人说同元的Syslab教程很烂

有人私信我说你们同元教程很烂(讲的太系统,不细节)
{9FDE1DA6-D80C-44F3-84DE-6B75B9CEAC3D}

接下来我要忙着毕业的事情,代码肯定是不怎么碰了。
而且你们个人版曲线拟合、机器学习、深度学习包都不让用。你们要是对个人版多放开一点功能(或者送我个几年的个人授权),我工作以后用julia写代码玩,肯定用Syslab给你们推广 :kissing_heart:


我看过同元的视频,PPT是经过设计的。可是视频是未经修剪的、语气是比较平淡的,感觉像是看听不懂的学术会议的。

你们可以用下面的这个剪视频。
mli/autocut: 用文本编辑器剪视频 (github.com)
这个项目我记得本来是别人的,后来转给李沐了,反正李沐一直在用。
剪映也可以剪口播。但是它们(曾经)有个缺点:不能对每个单独口播片段调整时间范围——比如做教程时,你可能会等终端跳出结果,愣了一秒再讲话。所以需要能调整每个片段的时间范围。而且(曾经)whisper会有漏听的情况。

所以我自己写了个垃圾的(我很少读别人代码,所以代码烂):
XuJingye2022/VoiceVideoCut (github.com)
这个的大概逻辑是:

  1. 用麦克风音轨的音量大小初筛讲话片段,避免AI漏掉讲话内容(真的会漏掉,我确定);
  2. 手动决定保留哪些片段——比如可能有咳嗽在内;
  3. 每个讲话片段,向前拓展a秒,向后拓展b秒,再组合。原本是处理游戏录屏,想偷懒,前后分别留下观众反应时间——比如看到了什么,我鬼叫了一下,前面留5秒的空挡可能会很不错。做教程可能可以短点,0.5秒之类。
  4. 组合后的片段预览,决定要不要。
  5. 剪辑。我按这个流程来处理游戏录屏,切掉了大部分我不讲话的片段,时长基本可以压缩一半。

创意和代码,只要你们不嫌烂,都可以拿走。

自吹一下,我觉得我讲的还可以 :laughing:

确实制作一个好的材料不太容易。
我自己是提前设计好每一页大概要说的话,然后再用剪映去剪辑和字幕识别。
基本上每个 10 分钟的视频从写 PPT 到成片需要专注投入 2 天的时间吧(思路不卡的情况下)。

2 个赞