什么是热力图?
热力图是一种数值数据的图形化显示,其中颜色用于表示值。在数据挖掘的上下文中,热力图对于两个目的特别有用——用于可视化相关表和用于可视化数据中的缺失值。在这两种情况下,信息都以二维表格的形式传达。
热力图是对需要颜色编码系统来定义多个值的数据的图形描述。热力图用于各种形式的分析,但最常用于显示用户在特定网页或网页模板上的行为。热力图可用于显示用户在页面上按下的位置、他们在页面上向下滚动了多远,或用于显示眼动追踪测试的结果。
p 个变量的相关表有 p 行和 p 列。数据表包括 p 列(变量)和 n 行(观测值)。如果多行很大,则可以使用子集。在这两种情况下,扫描颜色编码而不是值都更简单、更快。
热力图在确定大量值时很有帮助,但它们并不是更精确的图形显示(包括条形图)的替代品,因为颜色差异无法精确识别。
在缺失值热力图中,行对应于数据,列对应于变量。它需要初始数据集的二进制编码,其中 1 表示缺失值,否则为 0。此新的二进制表被着色,包括仅着色缺失值单元格(值为 1)。
数据涉及全球多个国家/地区的经济、社会、政治和“福祉”数据(每行是一个国家/地区)。变量是从多个来源合并的,并且对于每个来源,并非每个国家/地区都始终提供信息。
缺失数据热力图有助于可视化组合数据文件中“缺失”的水平和数量。一些“缺失”的设计仅仅揭示了几乎所有观测值都缺失的变量,以及缺少多个值的行的集群(国家/地区)。
缺失值较少的变量也很清楚。此数据可用于确定如何管理缺失值(例如,删除某些变量、删除某些数据、插补等)。
诸如 Google Analytics 或 Site Catalyst 之类的分析工具非常适合支持指标以显示用户访问的页面,但当试图了解用户如何使用这些页面时,它们可能需要详细的信息。热力图可以提供用户行为的更全面的概述。
热力图比标准分析报告更直观,这使得它们可以一目了然地进行分析。这使得它们更容易访问,特别是对于不习惯分析大量数据的人员。
像 CrazyEgg 这样的好的热力图工具使分析师能够细分和过滤数据。这意味着可以轻松查看多种类型的用户如何与特定页面互动。