Save The Web Project
#STWP #STW #saveweb
A tiny web archival team
https://saveweb.org/㋿Ξ㍾㍿/ʇɔǝɾoɹԀ-qǝM-ǝɥʇ-ǝʌɐS.html/../../../
https://github.com/saveweb
Recent Posts
数据库设计越差,我们越开心
STWP 2024 第 49 周周报
- AcFun
AcFun 视频下载器已经写好了。等搓好 IA S3 上传库,就可以开始存档远古的 AcFun 视频了。
- Banciyuan
?????? 做了个以图搜图的原图搜索,效果很好。
- AcFun
AcFun 视频下载器已经写好了。等搓好 IA S3 上传库,就可以开始存档远古的 AcFun 视频了。
- Banciyuan
?????? 做了个以图搜图的原图搜索,效果很好。
STWP 2024 第 48 周周报 - Bilibili 字幕投毒 我们发现 Bilibili 开始在视频字幕 API 里投毒。目前如果不预先访问视频详情(网页/API)或者不做 wbi 签名,字幕 API 会返回随机的驴头不对马嘴的别的视频的字幕。 投毒具体开始时间尚不清楚,至少一个月前就存在这情况了。 也就是说,我们过去一个月存的 10k 多个视频的字幕都需要消毒。 - goo.gl 新进展 前段时间,“一位不可思议、了不起、才华横溢的志愿者”(看懂这个梗的掌声 )ーー @prnake 联系了我们,带来了从…
分享一篇好文: https://lil.law.harvard.edu/century-scale-storage/
STWP 2024 第 48 周周报
- Bilibili 字幕投毒
我们发现 Bilibili 开始在视频字幕 API 里投毒。目前如果不预先访问视频详情(网页/API)或者不做 wbi 签名,字幕 API 会返回随机的驴头不对马嘴的别的视频的字幕。
投毒具体开始时间尚不清楚,至少一个月前就存在这情况了。
也就是说,我们过去一个月存的 10k 多个视频的字幕都需要消毒。
- goo.gl 新进展
前段时间,“一位不可思议、了不起、才华横溢的志愿者”(看懂这个梗的掌声 )ーー @prnake 联系了我们,带来了从 GitHub 镜像里提取出的 goo.gl 和 page.link 链接,去重后,新增了 485966 个有效链接。
- 复活 SkinMe Mod
> SkinMe 是曾非常流行的盗版 Minecraft 皮肤站,不过早已停止服务。
@catme0w 发现 SkinMe Mod 内置了一些 fallback 服务,可惜当年的 fallback 服务们现在也都挂了,不过其中有两个已过期域名可注册。于是买下了它两并将请求重定向到 mojang 和现存的皮肤站。[repo]
- 其它项目都是小修小补,不在此列出。
- Bilibili 字幕投毒
我们发现 Bilibili 开始在视频字幕 API 里投毒。目前如果不预先访问视频详情(网页/API)或者不做 wbi 签名,字幕 API 会返回随机的驴头不对马嘴的别的视频的字幕。
投毒具体开始时间尚不清楚,至少一个月前就存在这情况了。
也就是说,我们过去一个月存的 10k 多个视频的字幕都需要消毒。
- goo.gl 新进展
前段时间,“一位不可思议、了不起、才华横溢的志愿者”(
- 复活 SkinMe Mod
> SkinMe 是曾非常流行的盗版 Minecraft 皮肤站,不过早已停止服务。
@catme0w 发现 SkinMe Mod 内置了一些 fallback 服务,可惜当年的 fallback 服务们现在也都挂了,不过其中有两个已过期域名可注册。于是买下了它两并将请求重定向到 mojang 和现存的皮肤站。[repo]
- 其它项目都是小修小补,不在此列出。
STWP 2024 第 47 周周报 None.
https://github.com/saveweb/review-2024
2024 年终总结合订本,开张了。☺️
顺带招今年的仓库维护者。
2024 年终总结合订本,开张了。☺️
顺带招今年的仓库维护者。
STWP 2024 第 47 周周报
None.
None.
https://huggingface.co/datasets/alpindale/two-million-bluesky-posts
啥?数据集里才两百万条帖子?大家根本不用慌好吧,肯定是抽样数据。
随便网上找个非全球性的、小有名气的、垂直领域的社交媒体,哪个没有千万起步的帖子量的。
还有人不知道任何人都能订阅 Bluesky 全站事件吗(这TM才是开放的互联网!
(群友谁来做个亿级的数据集,吓死业界。)
#玩笑上下文
啥?数据集里才两百万条帖子?大家根本不用慌好吧,肯定是抽样数据。
随便网上找个非全球性的、小有名气的、垂直领域的社交媒体,哪个没有千万起步的帖子量的。
#玩笑上下文
STWP 2024 第 46 周周报
> 各项目缺人,帮帮我们!呜呜~
- 我们向 CloudFlare 申请 wikiteam3 成为 verified bots,希望申请能过。祝我们好运!
- 982263/6186010 (即15.87%),这是 AcFun ~2019-3-14 前的视频的存活率。
> 各项目缺人,帮帮我们!呜呜~
- 我们向 CloudFlare 申请 wikiteam3 成为 verified bots,希望申请能过。祝我们好运!
- 982263/6186010 (即15.87%),这是 AcFun ~2019-3-14 前的视频的存活率。
STWP 2024 第 45 周周报 本周新闻: - IA S3 本周基本恢复了,现在只允许 https 访问。 倒闭观察: - Hertown 社区停运,定于 2025-1-5 完全关闭服务。 - mangaz.com 月初被信用卡公司取消支付服务合同,预计于 2024-11-26 12:00 (UTC+9) 关闭,站方称仍在寻求重启网站的办法。[link] STWP 本周趣闻: - 4号上午我们手动删库并回滚了一个 mongodb 数据库,意外发现 mongodb replicat 貌似会重用 oplog…
STWP 2024 第 45 周周报
本周新闻:
- IA S3 本周基本恢复了,现在只允许 https 访问。
倒闭观察:
- Hertown 社区停运,定于 2025-1-5 完全关闭服务。
- mangaz.com 月初被信用卡公司取消支付服务合同,预计于 2024-11-26 12:00 (UTC+9) 关闭,站方称仍在寻求重启网站的办法。[link]
STWP 本周趣闻:
- 4号上午我们手动删库并回滚了一个 mongodb 数据库,意外发现 mongodb replicat 貌似会重用 oplog 中的已被删除的文档数据来减少大量流量消耗。[link]
- AcFun 前 1,416,060 个 avid 中,只有 0.26% (3795个) 的视频目前还活着。
本周新闻:
- IA S3 本周基本恢复了,现在只允许 https 访问。
倒闭观察:
- Hertown 社区停运,定于 2025-1-5 完全关闭服务。
- mangaz.com 月初被信用卡公司取消支付服务合同,预计于 2024-11-26 12:00 (UTC+9) 关闭,站方称仍在寻求重启网站的办法。[link]
STWP 本周趣闻:
- 4号上午我们手动删库并回滚了一个 mongodb 数据库,意外发现 mongodb replicat 貌似会重用 oplog 中的已被删除的文档数据来减少大量流量消耗。[link]
- AcFun 前 1,416,060 个 avid 中,只有 0.26% (3795个) 的视频目前还活着。
STWP 2024 第 44 周周报 本周也无事🥲。(此消息无声发送)
pip(x) install git+https://git.saveweb.org/saveweb/[email protected]
aixifan_videoinfo
🧐长期,不紧急,最近没啥事,发出来大家可以跑着玩。
STWP 2024 第 44 周周报
本周也无事🥲。(此消息无声发送)
本周也无事🥲。(此消息无声发送)
ichouti.cn
抽屉居然打赢复活赛了
抽屉居然打赢复活赛了
这么酷炫一定要发出来。
@gledos_green 给 search.saveweb.org 画了个动态 icon 。
@gledos_green 给 search.saveweb.org 画了个动态 icon 。
STWP 2024 第 42 周周报
本周新闻:
- IA 即便宕机也要办活动 —— Escaping the Memory Hole 活动将于下周周三 2024-10-23 17:00 (UTC+8) 开始并线上直播。活动主题是:「在一个主要娱乐网站一夜之间消失、流媒体毫无征兆地从平台上消失的世界里,我们的数字文化面临着被抹去的风险。有哪些保障措施可以保存我们的集体记忆?」
- WordPress Foundation 向 IA 捐款十万$。究竟是人文关怀还是公关支出?
STWP 本周进展:
- 某项目:单机数据库迁副本集。重构,错误处理,Redis 队列,并行化。 @luoingly
- 天涯小筑:打好了 warc ,等待上传。 @yzqzss
- 某项目:4 号开始,已存四千万 post/comment ,预计下星期到目标高度。 @yzqzss
- 某项目:新适配了一个目标网站。 @Ovler
STWP 基建:
- 听闻 MongoDB 8.0 有性能提升,于是升级了。现在没荷载,不知性能改进的真假。
- 用超了 Grafana Cloud 的免费 10k metrics,遂自建 Grafana&Prometheus。大家都说“好用爱用”。
本周趣闻:
- 我们的三个 pypi 包本月的下载量激增到 4.9k/4.5k/2.3k。木有头绪。
- 在 IA 宕机的这段时间里, pypi 包 internetarchive 的下载量骤降。[twitter]
- 我们 biliarchiver 包的下载量大约是上游依赖包 bilix 的一半。
- Zeno 最近实现了“将 DNS 记录写进 warc 元数据”的功能,但没有实现 DNS fallback。这意外地让我们发现了 Hetzner 机子上长期以来各种对外网络请求超时的原因—— /etc/resolv.conf 中的第一个 nameserver 实际上无法使用。(hetzner 屏蔽了对外 DNS 请求,需要用它的自有 DNS,但 hetzner 没有屏蔽对这些 DNS ip 的 icmp ping。于是 systemd-resolver 发现能 ping 通 8.8.8.8/1.1.1.1 一众 DNS,延迟跟 Hetzner DHCP 下发的自有 DNS 差不太多,就在 /etc/resolv.conf 把这些实际被屏蔽的公共 DNS 设为首选,DHCP 下发的作为 Fallback)。
- 我们有台机子被禁了 UDP,时间漂了,故寻找不靠 UDP(NTP) 同步时间的优美方法。发现 HTP 这种从多个 http server 的 Date: header 取时间的方式非常地“优美”,非常 web 。还真别说,用上 HTP 这玩意后,发现它精准度还不错,误差最多十几毫秒级呢。另见:《HTP 笑传:扔掉 UDP,试试并不特殊的低精度时间同步》 by @wowjerry 。
- @rowink:matrix.org 觉得 search.saveweb.org “有些rss输出markdown,搜索结果看着会有点乱”,想给它加个 markdown 渲染。而后他创建了他来到 GitHub 以来的第一个 PR,这个 PR 没有实现目标,他在后续的 PR 中完成吗?敬请期待。
- 《我有旧硬盘可以送你们》故事主人公的后续:“硬盘已经被其他人分得七七八八了,因为实验室搬了”。
#STWP
本周新闻:
- IA 即便宕机也要办活动 —— Escaping the Memory Hole 活动将于下周周三 2024-10-23 17:00 (UTC+8) 开始并线上直播。活动主题是:「在一个主要娱乐网站一夜之间消失、流媒体毫无征兆地从平台上消失的世界里,我们的数字文化面临着被抹去的风险。有哪些保障措施可以保存我们的集体记忆?」
- WordPress Foundation 向 IA 捐款十万$。究竟是人文关怀还是公关支出?
STWP 本周进展:
- 某项目:单机数据库迁副本集。重构,错误处理,Redis 队列,并行化。 @luoingly
- 天涯小筑:打好了 warc ,等待上传。 @yzqzss
- 某项目:4 号开始,已存四千万 post/comment ,预计下星期到目标高度。 @yzqzss
- 某项目:新适配了一个目标网站。 @Ovler
STWP 基建:
- 听闻 MongoDB 8.0 有性能提升,于是升级了。现在没荷载,不知性能改进的真假。
- 用超了 Grafana Cloud 的免费 10k metrics,遂自建 Grafana&Prometheus。大家都说“好用爱用”。
本周趣闻:
- 我们的三个 pypi 包本月的下载量激增到 4.9k/4.5k/2.3k。木有头绪。
- 在 IA 宕机的这段时间里, pypi 包 internetarchive 的下载量骤降。[twitter]
- 我们 biliarchiver 包的下载量大约是上游依赖包 bilix 的一半。
- Zeno 最近实现了“将 DNS 记录写进 warc 元数据”的功能,但没有实现 DNS fallback。这意外地让我们发现了 Hetzner 机子上长期以来各种对外网络请求超时的原因—— /etc/resolv.conf 中的第一个 nameserver 实际上无法使用。(hetzner 屏蔽了对外 DNS 请求,需要用它的自有 DNS,但 hetzner 没有屏蔽对这些 DNS ip 的 icmp ping。于是 systemd-resolver 发现能 ping 通 8.8.8.8/1.1.1.1 一众 DNS,延迟跟 Hetzner DHCP 下发的自有 DNS 差不太多,就在 /etc/resolv.conf 把这些实际被屏蔽的公共 DNS 设为首选,DHCP 下发的作为 Fallback)。
- 我们有台机子被禁了 UDP,时间漂了,故寻找不靠 UDP(NTP) 同步时间的优美方法。发现 HTP 这种从多个 http server 的 Date: header 取时间的方式非常地“优美”,非常 web 。还真别说,用上 HTP 这玩意后,发现它精准度还不错,误差最多十几毫秒级呢。另见:《HTP 笑传:扔掉 UDP,试试并不特殊的低精度时间同步》 by @wowjerry 。
- @rowink:matrix.org 觉得 search.saveweb.org “有些rss输出markdown,搜索结果看着会有点乱”,想给它加个 markdown 渲染。而后他创建了他来到 GitHub 以来的第一个 PR,这个 PR 没有实现目标,他在后续的 PR 中完成吗?敬请期待。
- 《我有旧硬盘可以送你们》故事主人公的后续:“硬盘已经被其他人分得七七八八了,因为实验室搬了”。
#STWP
你们刚在说什么呢。现在显示器不是都支持800*600了吗,640*480是上个世纪的东西了🤪
(`・ω・´)