不画饼周报 #8

项目 The Cultural Borders of Songs (pudding.cool) 更新了 2021 年 2 月份的 YouTube 数据。 DataCoaster Tycoon: Building 3D Rollercoaster Tours of Your Data in R – Rayverse Blog (tylermw.com) 但这是为什么呢?实在是太有趣了。这也是近期第二个 dive into visualization 的项目。 Map of Reddit (anvaka.github.io) 通过获取 reddit 上数以亿计的评论({user, subreddit})将相关联的 subreddit 进行聚类。原帖在 reddit. Predicting the Premier League standings through text analytics — Queen’s Sports Analytics Organization (qsao-queens.com) Queen’s University 的 Queen’s Sports Analytics Organization 之前做过通过分析新闻内容预测足坛冬歇转会,这回则是预测联赛冠军的归属。 “The Minard System” in R (minard....

April 2, 2021 · 4 min · Rui Qiu

不画饼周报 #7

Nathan Yau 在上周的通讯中,谈论关于网上的批评者: Sometimes the person who delivers the criticism read the chart wrong. Sometimes they haven’t had their morning coffee yet. Sometimes they simply have no idea what they’re talking about. And sometimes they are right. 以及引用到了 Mike Bostock 之前关于十年 D3 开发的感想: No matter how good your work is, if you put yourself out there someone on the internet will say something hurtful and make you feel bad....

March 26, 2021 · 2 min · Rui Qiu

不画饼周报 #6

File shares among Figma users around the world. By the numbers: one year of remote work (figma.com). 项目 Seeing CO2 (extraordinaryfacility.com) 用三维游戏的方式在浏览器中自由浏览二氧化碳排放数据。运行时对设备资源消耗比较大,另外犹豫在三维空间中场景的切换完全需要人为「驾车」控制,需要读者有一定的耐心。同种类型的数据常用视频的形式呈现;微软开发的 SandDance 也可以实现类似的效果。 Personal Art Map with R · (estebanmoro.org) 一个非常好上手的地理信息+绘图项目。用 {osmdata} 中的地理信息数据,筛选出有效内容(例如街道和告诉),再通过 {ggplot2} 一层一层绘制出来。但是到此为止只有道路信息;文中的水体信息来自于地理边界数据:TIGER/Line Shapefiles (census.gov)。最后还有从 Google Map 中提取用户自身的移动信息数据,最后就生成了一张有着个人印记的艺术品。不得不说如果打印出来,挂在墙上确实也像模像样的。但如果是 2020 年的数据,大多数人全年热点都是集中在家附近吧。我自己照猫画虎弄出来则是这个样子: How Our Club Soccer Predictions Work | FiveThirtyEight 介绍 FiveThirtyEight 在足球方面所使用的一些衡量方式和预测方式:Soccer Power Index (SPI), 与常用 Elo 的区别,球队比赛表现的衡量尺度 (adjusted goals, shot-based expected goals, non-shot expected goals),比赛和赛季结果预测,以及联赛强度。 Florence Nightingale’s “rose charts” (and others) in ggplot2 | What You’re Doing Is Rather Desperate (wordpress....

March 20, 2021 · 2 min · Rui Qiu

不画饼周报 #5

上赛季中超冠军、我的家乡球队江苏苏宁(1月改名叫「江苏足球俱乐部」了)在二月底宣布俱乐部停止运营。即便球队的最终命运目前还是悬而未决,从目前得到的消息来说,已经是「半只脚踏进了坟墓」🪦。这周逛 Transfermkt 就做了这张图看一眼江苏历史上的最佳射手,也因为如此看到了不少熟悉的名字——电动车射手 Dănălache, 曾经的曼城小将 Jo, 最好的38号 Jevtic, 以及「黑山伊布」Dejan. Build An NBA Contender With Our Roster-Shuffling Machine | FiveThirtyEight FiveThirtyEight 又做了一个可以操作的球队搭建工具,可以任意组合现有的 NBA 球员名单,以此来计算球队进入季后赛和夺冠的概率。但是实际操作起来并不会考虑到球队人数限制以及合同匹配、工资帽上限等诸多潜在限制。相比之下,还是比较喜欢去看他们的球队战力计算(并没有按照传统的 ELO 计算,而是更多基于他们自己创造的球员 RAPTOR 能力值。 2021 Digital Trends (adobe.com) Nathan Yau 在邮件通讯里提到了 Adobe 公布的这份报告,其中有些图表「试图在搞创新」,但看起来真的非常奇怪:例如用扇形代替直方图📊,但真正表达数量数量关系的只有高度。 Why People Make Bad Charts (and What to Do When it Happens) | FlowingData Nathan Yau 在 2018 年写的文章,列举了几种「怪图」的「创作动机」——有时候可能是在欺骗,有时候只是为了 make a point. Covid Pandemic: How Youyang Gu Used AI and Data to Make Most Accurate Prediction - Bloomberg Minimum Wage and Cost of Living | FlowingData 三个维度:时间、最低工资、地区等价购买力 (Region Price Parity)。 The time has arrived for cumulative charts - Junk Charts (typepad....

March 12, 2021 · 1 min · Rui Qiu

不画饼周报 #4

The Gulf Stream is among the mightiest rivers you will never see, carrying far more water than all the world’s freshwater rivers combined. Some scientists fear global warming is causing Atlantic currents to weaken. https://t.co/6AN8m0O07F pic.twitter.com/e0xzH232Ji — NYT Graphics (@nytgraphics) March 4, 2021 In the Atlantic Ocean, Subtle Shifts Hint at Dramatic Dangers - The New York Times (nytimes.com) 这种表达「flow」的可视化总是给人一种沉浸的美感。让我联想到一个很早的可视化项目:earth :: a global map of wind, weather, and ocean conditions (nullschool....

March 5, 2021 · 2 min · Rui Qiu

不画饼周报 #3

本来这周还想尝试一下用 Buttondown 这个服务把本周的内容写成邮件,但是发现它后台的设置仔细研究起来别有洞天,于是只好把这个想法延后。 我还挺喜欢二月这种「1号是周一,且28天结束」的月份,这样下个月还可以过一个数字上的「完美月份」;而不用总在想「今天是几号来着」这样的问题。 500,000 lives lost (reuters.com) 上回说到「在有时间维度和数量维度的情况下,摒弃 bar chart 来表现数据量」的方式,这周就有了一个极佳的例子。数字看起来触目惊心,但数字终究是数字,鼠标滚轮轻轻一划就略过了多少人的一生。 另外 New York Times 在传统纸张媒体上的表达则是这样的: half a million dots on A1 today, each representing one person who died from Covid-19 in the U.S. by @LazaroGamio @LaurenLeatherby @billmarshnyt @standardregular pic.twitter.com/zLkATK7b8u — ಠ_ಠ (@DeniseDSLu) February 21, 2021 Simulation: Why You Need High Vaccination Rates To Stop A Pandemic : Shots - Health News : NPR 给了三种病毒传播模式下,5%, 30% 和 75% 疫苗接种率的人群感染病毒的可能性。文末的方法介绍中提到将一个人的密切交往人数划定为「6」,但并没有解释为什么。值得深究。 Same data + same chart form = same story....

February 26, 2021 · 1 min · Rui Qiu

不画饼周报 #2

拜个晚年!春节的一周除了吃好喝好,睡眠也很重要。周报的时间搬迁到周五,发完好休息。 之前在 FlowingData 里有印象看过一个刻意用 jittered dots 代替 bar chart 的做法,并不是纯粹意义上的 scatterplot (散点图),而是将一维数据用随机数的方法再分配一个维度。例如用这种方式表现新冠感染人数,所看到的不会是渐进的、堆叠上升的一个个竖条,而是扩散的、均匀分布的数据点,会有一种「密度感」。 Live Music Jukebox (pudding.cool) The Pudding 的这个项目应当是之前 Spotify 收听品味的那个项目的后续,继续利用 raw Spotify API 加上额外的分析去比较不同歌手同一歌曲的录音室版本 vs 现场版本的异同。即便在文后的 methodology 里有介绍,但仍然是对如何定义歌曲的「energy」「valence」「liveness」等诸多概念非常有兴趣。 easystats (github.com) 最近被 GitHub 的邮件推荐了不少属于 easystats 的包。从他们的 blog 中了解到,这是一个「试图让进阶统计方法更为易用」的 eaystats-verse. 目前有的相关资料还比较少,但在他们的 GitHub 里可以看到已有的一些包,以及使用方法。总结来说就是把一些高级方法封装到一个新的包里,更易于统一调用,或是把多种函数收录到一个新函数中,将结果以表格形式批量输出。目前已经有的几个包包括: report: 📜 🎉 Automated statistical reporting of objects in R correlation: 🔗 Your all-in-one package to run correlations modelbased: 📈 Estimate effects, group averages and contrasts between groups based on statistical models bayestestR: 👻 Great for beginners or experts of Bayesian statistics parameters: 📊 Obtain a table containing all information about the parameters of your models performance: 💪 Models’ quality and performance metrics (R2, ICC, LOO, AIC, BF, …) effectsize: 🐉 Compute, convert, interpret and work with indices of effect size and standardized parameters insight: 🔮 For developers, a package to help you work with different models and packages see: 🎨 The plotting companion to create beautiful results visualizations 总结:统一是美。 How to learn D3....

February 19, 2021 · 2 min · Rui Qiu