Issue 12. 2021-05-30

前段时间事务繁忙,一周下来也看不了多少内容,就连平常每日翻阅的 RSS 也不能清空。于是把更新频率从每周五周更改到了暂定的月更,这样每次也能积累更多的材料,在短时间内就同一话题进行比较阅读。

这样的变动一定会导致一篇中的内容更多,于是我也考虑了如何把一期内容更好地分类。先前的分类方式我觉得大致可行,但同一话题(例如体育)又往往会横跨「项目」和「视频」两类。倘若按照话题去分类,则又会陷入话题和子话题的无尽漩涡之中。于是索性我就不再折腾这样的细枝末节。随性一点也许会更好,本来就只是一个个人的阅读记录(或许应该改为 A subset of an Internet archive 才更为贴切)。


  • Where are the world’s airports? dataisbeautiful (reddit.com)
    • 我不认为把经纬度变成点就算是完成了一个 beautiful 的项目,其实要考虑的有很多,比如过于密集的数据点其实没有太多的意义,1000 和 5000 的差别一定没有 1000 和 200 的 差别明显。另外,机场规模也可以作为一个考虑的维度:例如在巴布亚新几内亚🇵🇬的381座机场大多数是岛与岛之间的小机场,这些在图上与每日吞吐量巨大的国际机场并没有区别。如果对这个话题感兴趣的话,YouTube 有一个频道叫 Missionary Bush Pilot,经常执飞这些航线,景色宜人。

airports

推荐语:初学 R 时候日期 / 时间类型一直让我很头疼,lubridate 包解决了不少问题。这篇文章介绍了一个同样专注于处理时间类型的年轻的 R 包 clock 并将其和 lubridate 进行对比,clock 对异常处理更得当,运算支持更多数据类型(lubridate 只支持 R 原生的 Date 和 POSIXct 类),如果你对处理日期 / 时间数据有更高要求,不妨试试 clock。

ga

watercolor

  • TidyX 是一个分享 TidyTuesday 项目录屏的 YouTube 频道。
  • 无国界记者组织的 2021 年世界新闻自由指数报告

map-of-internet-2021 map-of-internet-2014

nba-snowflake

  • hoopR (saiemgilani.github.io) 一个支持 play-by-play 篮球数据的 R 包。省却与 Basketball Reference 打交道的麻烦。
  • Visualizing Incomplete and Missing Data | FlowingData 数据清洗中对于缺省数据的处理不是什么新鲜话题了,但是到了可视化的这一步如果仍要面对缺省数据,应该如何操作?
  • Measuring Freedom by Swaminathan Nanda-Kishore | Medium 作者用自创的 Freedom Rating 作为衡量指标,可视化出足球运动员在场上的「自由」程度。足球经营模拟类游戏一般都会对球员在战术中扮演的角色有相应的指令。例如,你是希望一个边后卫「坚守位置」更加注重防守,还是「自由发挥」从边路插上助攻?作者考虑的参数是:接球位置。但我想补充的一点在于,接球位置和场上的战术定位有关系,所以对于 FR 的衡量是否要分整个赛季和单场比赛的区别?例如文中所举例的 César Azpilicueta,他在左右边后路接球的位置更多是与该场比赛所出任的位置有关,尽管从赛季的角度来看他的跑位非常自由。
  • VR Data Visualization Learnings from the Place Viewer - YouTube 从 VR 的视角去看当年 r/place 的那场著名社会实验

strava

  • Strava Global Heatmap 最近开始重新拾起跑步的习惯,也斥「巨资」加入了 Garmin 的使用者行列。不得不说,在运动手表行业,有着多年手持 GPS 设备生产经验的 Garmin 真的功能强大。每次跑完回来都能收集到一屏幕的各种数据,dashboard 呈现先不谈好看不好看,但总有着满满的成就感。而成就感,是能促进习惯养成的。巧合的是,两周前的 The Process 邮件中,Nathan Yau 用 Strava 提供的 global heatmap (for running/cycling) 作为例子说明有时候数据没有展现的,很可能和数据所揭示出来的信息一样多。Strava 的例子「只」展现出它的 app 用户的使用场景,换句话说其实也就是中产阶级的居住地点可视化;Nathan 进而提到了他在 2014 年做的类似尝试,则是太过于泛化这一类跑步的 GPS 数据。

With so much data available, it’s easy to get excited about what we can see (and rightfully so), but it’s also easy to forget that data always has its limitations.

另外,我在整理本篇的时候,忽然有了改写所引用文章标题的想法——有的时候直接照搬文章原标题并不那么合适,尤其考虑到我本身是在拿中文写作。大致做一个类似于湾区日报的修改,下次开始。🌉