数据验证

最细粒度的原始数据的完整性、准确性会直接影响到后续的数据分析和应用,因此使用前必须重视在接入环节的数据验证工作

总体数据概览

通过SDK/API/文件等方式向方舟上报数据时会经过接收、校验、入库等多个环节,只有入库成功的数据会参与到分析计算当中。

在数据接收环节,当上报数据中 AppKey 与当前项目 AppKey 不匹配时,数据将直接直接被丢弃

其他 Appkey 符合当前项目时,数据会被分为三类:

Debug日志

开启了调试模式(集成SDK时设置 debug =1 或 2 )时上报的数据将进入Debug 日志,用作测试环节的数据正确性和完整性校验,其中

  • debug = 1 的数据仅用于调试,不会入库参与计算

  • debug = 2 的数据既可用于调试,又会入库参与计算

入库成功数据

开启数据入库模式(集成 SDK 时设置debug = 0 或 2 )时上报的数据,将进行多重校验,通过校验的数据,将会成功入库,即可用于后续分析和应用;

入库失败数据

入库模式下,未通过校验的数据,将进入错误日志,不会参与计算,开发者也可以据此修正上报的数据。

Debug 日志

开发工程师埋点后希望快速了解埋点是否正确,可以设置Debug = 1 或 2 开启调试模式,SDK 会向浏览器的控制台中输出日志。日志中会包含一些告警、错误,也会包含上报事件的内容。

以 Chrome 为例,步骤如下:

  • 启动 Chrome,并访问已经埋好点的网站

  • 按 F12 或 Ctl/Cmd + Alt/Opt + I 打开 “开发者工具”

  • 点击 “Console” 页签进入控制台

  • 正常浏览页面,接可以看到控制台有大量的日志

除了通过客户端验证外,可以用方舟内置的 Debug 日志 模块来逐条验证,展示最新 1000 条数据,可选择日期、数据源等进一步过滤。

从左上角支持切换 事件日志用户日志 分别查看

1. 条件过滤

A. 时间过滤

当一段时间里上报的数据量过大时,可以指定到某个小时或分钟区间来查看

日期过滤是基于展示的最新的1000条日志过滤的,也就是说如果今天日志已经超过1000条,则即使昨天实际有测试日志,日期切换到昨天也查询不到结果。

B. 数据源过滤

一个项目当中会接入多个平台,比如一个应用的Android端、iOS端、网页端等,不同端通常是不同的工程师负责集成SDK,如果只想验证自己集成的数据正确性,则可以选择数据源快速过滤

C. 其他条件过滤

当要验证某个事件的属性时,可以输入事件ID 来过滤;

当有多个测试设备时,可以输入当前设备绑定的用户ID来过滤,更方便查看 ;

2. 实时更新最新数据

当停留在当前页面时,有新的事件产生会实时记录提醒,点击可以加载最新事件;

也可以开始实时刷新按钮,实时加载数据;当实时会产生大量数据时,建议关闭,手动加载最新数据,否则自动加载过快,无法准确验证。

3. Debug 日志中的错误日志

Debug日志会进行基础的格式、数据类型等校验,当校验不通过时,会直接在列表当中红色标识

也可以打开 仅查看错误日志开关 查看错误日志

4. 设置在列表中展示的列

支持自定义展示的列,比如选择展示出常用的设备品牌、型号、IP等方便快速查看

5. 展开单条事件的属性和JSON数据

点击单条事件,可以展开查看事件属性和JSON数据

入库成功数据(用于计算)

展示开启数据入库模式(集成 SDK 时设置debug = 0 或 2 )时上报的行为数据(Event)(即用于分析计算的数据),最多展示选定时间和条件下的1000条。(注:用户日志用于更新用户属性,不提供单独查询)

和Debug日志的差异

  1. 可以展示选定条件(时间、数据源、事件ID等)下的1000条

  2. 需手动点击刷新按钮更新最新数据

  3. 不单独展示用户日志

入库失败数据(错误日志)

展示关闭调试模式下(Debug=0)和调试模式下(Debug=2)入库失败的数据。通常这也是部分指标在查询时偏差的原因,所以发现错误时,请及时纠正,避免更大的影响。

同 Debug数据验证 的功能相似,同样

  • 支持按照事件ID、用户ID、时间来搜索

  • 支持筛选可展示的列

  • 支持数据的实时更新

除此之外,可以筛选某些特定错误类型下的数据;点击行时,可以展示错误的原因

错误类型说明

错误类型

正常情况示例

错误情况示例

建议解决办法

JSON 格式异常

JSON Array对象或 JSON 格式

-

上传正确JSON 格式数据

标准格式字段校验异常

-

-

上传正确标准格式字段

appkey 校验异常

-

数据中 appkey 与启动程序中appkey 不同

上传一致appkey

事件ID不符合校验规则

Java 命名规范:首位为字母或者$,后面为大小写字母、数字、下划线和$,最大长度125字符

-

上传正确事件ID

属性ID不符合校验规则

Java命名规范:首位为字母或者$,后面为大小写字母、数字、下划线和$,最大长度125字符

-

上传正确属性ID

属性值个数超过规定范围

上限为300个(包含回数的预置属性和自定义属性)

-

减少属性值个数到300个以下

属性值不符合规范

-

上传正确属性值

属性值上传和现有数值类型不一致

String

Boolean

上传一致类型的属性值

属性值类型不支持

类型仅包含:String/Number/Boolean/数组

-

上传支持的属性值类型

显示用户登录,但是数据库中不存在

-

-

确定该用户是否绑定

IP解析异常

-

-

联系运维

数据信息超过限定时间

-

-

请重新确认数据接收时间范围(以当前时间为准,前10天内和未来3小时内)

程序异常

-

-

联系易观运维

以上内容没有解答我的问题?点击我进入方舟论坛去反馈 🚀

最后更新于