摘要:刷到有趣的(短)视频,我常常会想保存下来,留作纪念。不知道有没有人,跟我一样,喜欢收藏原始视频,而不仅仅是收藏视频的链接。
刷到有趣的(短)视频,我常常会想保存下来,留作纪念。不知道有没有人,跟我一样,喜欢收藏原始视频,而不仅仅是收藏视频的链接。
可惜的是,网络上很多视频,都不允许下载,或者没有正式的下载途径。这时就要用到视频下载工具。
比较著名的工具,也是我最常用的,就是
• yt-dlp这是一个开源的用 Python 编写的命令行下载工具[1]
同类的工具有很多,为什么用它?
因为它支持的视频站点是最多的,不但有国外的,国内那些视频平台的都能下,号称支持几千个站[2]
例如下载微博视频,使用命令
yt-dlp [视频地址]
下载视频,从技术上来说,不像下载图片那么直接。查看 yt-dlp 的源代码,发现它主要由 4 个模块/部分组成:
YoutubeDL 是核心程序。它负责解析你给出的选项,决定如何命名文件等等。
它也负责选择正确的提取器/下载器/后处理器,并告诉它们做什么。
提取器负责从网站上找到视频信息(包括可用的格式及其 URL)。
当你看到添加了新的可下载的网站时,就意味着有人为这个网站编写了一个新的提取器。
提取器是如何找到这些信息的?通常有两种方法。
1. 从网页的 HTML 中提取必要的信息。2. 使用 API - 许多网站都有 API,可以用来获取视频的信息,这种方式对程序员更友好(以 JSON 格式)。如果有 API 可用,通常会优先使用这种方法。许多提取器,比如 YouTube,会同时使用这两种技术来获取不同的数据部分。
下载器下载实际的视频。
一旦提取器获取了所有必要的信息,YoutubeDL 会查看这些信息,决定如何下载文件(HTTP、DASH、m3u8 等必须使用不同的方法下载),并将数据传递给正确的下载器。
然后,它下载视频文件(如果需要,还会将它们拼接在一起),并在完成后通知 YoutubeDL。
后处理器执行额外的任务,比如提取音频、合并视频+音频、嵌入缩略图等等。
一旦下载器完成下载文件,YoutubeDL 会根据用户给出的选项,准备一个要运行的后处理器列表,然后逐个运行它们。
首先,大多数在线/流媒体视频都不是以单个文件的形式托管的。
流媒体视频通常被分成许多/数百个我们称之为“片段”的小文件,当你观看视频时,这些文件会被持续下载/流式传输。
你用来播放视频的任何播放器,都是将这些片段重新组装,从而变成一个连续无缝的视频播放体验。
其次,视频通常会按不同的分辨率进行分离。
以不同分辨率(720p、1080p、4K 等)托管的视频,对于每种可用的分辨率流,都会有自己的一组片段文件进行流式传输。
虽然这会占用视频托管方更多的空间,但可以带来更好、更快的播放性能。
视频下载工具,在遇到多个“片段”小文件时,会自动将所有小的片段文件组合成一个可以在设备上播放的单个媒体文件。这常常需要借助 ffmpeg 等转码工具,幸好这一切都是自动的,这就是视频下载工具的价值所在。
上面说的工具,无法下载视频号。
为什么?原因如下:
1. 视频号的视频链接,获取不到2. 视频号只能在微信专有的浏览器里播放,没有 DevTools3. 视频号的视频是加密的,即使千辛万苦解决了上面1和2,还要逆向才能解密出来理论上来说,能在本机播放的流媒体,就一定能下载下来。恰好我最近有这个需求,所以还是找到了一个方法,记录下来,后面会详细说明。
来源:常州焦点