數(shù)據(jù)接入規(guī)范-日志和文件
修訂歷史
日期
修改說明
部門
修改人
數(shù)據(jù)接入需求
基于數(shù)據(jù)采集需求,初步判斷數(shù)據(jù)的接入源是否可以從日志和文件進(jìn)行獲取。聯(lián)系技術(shù)研發(fā)部同事,請求數(shù)據(jù)源接入的位置參數(shù),通過配置化方式定期讀取服務(wù)器指定位置的日志和文件,通過程序清洗日志,分割成字段裝載到數(shù)據(jù)倉庫貼源層。
數(shù)據(jù)接入流程
1.數(shù)據(jù)中心分析組接到TAPD數(shù)據(jù)接入需求之后,分析接入數(shù)據(jù)屬于數(shù)據(jù)接口列表的哪個(gè)系統(tǒng),在對應(yīng)的系統(tǒng)標(biāo)題下添加模板,參照APP-app_login_log。
和需求發(fā)起人進(jìn)行溝通,確定提供數(shù)據(jù)的方式(數(shù)據(jù)庫、文件、接口等),讓需求發(fā)起人補(bǔ)充詳細(xì)的數(shù)據(jù)口徑,補(bǔ)充到需求要求里面,指定數(shù)據(jù)倉庫組或平臺組的一個(gè)人進(jìn)行轉(zhuǎn)發(fā)。
2.數(shù)據(jù)倉庫組或平臺組根據(jù)需求描述。跟數(shù)據(jù)源提供方(可以是需求發(fā)起方、也可以是技術(shù)研發(fā)部門)溝通,讓其補(bǔ)充模板里的位置參數(shù)。
3.數(shù)據(jù)源提供方根據(jù)模板要求,提供位置配置參數(shù)。
4.數(shù)據(jù)倉庫組或平臺組在接入數(shù)據(jù)后,整理數(shù)據(jù)格式,編寫日志清洗轉(zhuǎn)換腳本,并補(bǔ)充裝載目標(biāo)表信息。
5.數(shù)據(jù)中心分析組對最終接入的數(shù)據(jù)進(jìn)行驗(yàn)收,并通知需求發(fā)起人如何獲得接入數(shù)據(jù)。
數(shù)據(jù)源接入模板
需求要求(分析組補(bǔ)充)
tapd需求單號:1002513
提起人:xxx(Richard.chen)
需求單號內(nèi)容:
???
提供數(shù)據(jù)方式:
數(shù)據(jù)庫、文件、接口
詳細(xì)的數(shù)據(jù)口徑:???
位置配置參數(shù)(技術(shù)研發(fā)部補(bǔ)充)
配置參數(shù)
參數(shù)取值
服務(wù)器地址
192.168.1.1
端口類型
ftp
端口號
系統(tǒng)用戶名
user
密碼
pwd
日志路徑
日志文件通配符
xxx/yyyymmdd/AppLog
app_login_log_[yyyymmdd].json
日志內(nèi)容分割規(guī)則
文字描述
接入模型字段(倉庫組補(bǔ)充)
字段名
注釋
字段類型
必填
必填
必填
必填
必填
必填
抽取參數(shù)(倉庫組補(bǔ)充)
配置參數(shù)
參數(shù)取值
抽數(shù)周期
每天
抽數(shù)時(shí)間
7:00
文件名匹配條件
1:全量匹配抽?。ㄆヅ渫ㄅ浞闯槿。?/p>
2:日期匹配抽?。▋H抽取通配符日期字段匹配數(shù)據(jù)日期條件的文件)
數(shù)據(jù)日期格式
Yyyymmdd
Yyyy-mm-dd
數(shù)據(jù)日期條件
1:上一天日期
2:當(dāng)前時(shí)間日期
3:當(dāng)前時(shí)間歸屬周周日
4:當(dāng)前時(shí)間歸屬月一號
日志清洗轉(zhuǎn)換腳本(倉庫組補(bǔ)填)
補(bǔ)充腳本位置即可,如t8t-bi-dsc\log-app\log-app.py
裝載目標(biāo)表(倉庫組補(bǔ)填)
配置參數(shù)
參數(shù)取值
stg層表名稱
必填
stg層表描述
必填
ods層表名稱
必填
ods層表描述
必填
數(shù)據(jù)接口列表
PC
H5
APP
app_login_log
l
需求單號(分析組補(bǔ)充)
tapd需求單號:xxxxxxx
提起人:xxx(Richard.chen)
l
位置配置參數(shù)(技術(shù)研發(fā)部補(bǔ)充)
配置參數(shù)
參數(shù)取值
服務(wù)器地址
192.168.1.1
端口類型
ftp
端口號
系統(tǒng)用戶名
user
密碼
pwd
日志路徑
日志文件通配符
xxx/yyyymmdd/AppLog
app_login_log_[yyyymmdd].json
日志內(nèi)容分割規(guī)則
文字描述
l
接入模型字段(倉庫組補(bǔ)充)
字段名
注釋
字段類型
必填
必填
必填
必填
必填
必填
l
抽取參數(shù)(倉庫組補(bǔ)充)
配置參數(shù)
參數(shù)取值
抽數(shù)周期
每天
抽數(shù)時(shí)間
7:00
文件名匹配條件
1:全量匹配抽?。ㄆヅ渫ㄅ浞闯槿。?/p>
2:日期匹配抽?。▋H抽取通配符日期字段匹配數(shù)據(jù)日期條件的文件)
數(shù)據(jù)日期格式
Yyyymmdd
Yyyy-mm-dd
數(shù)據(jù)日期條件
1:上一天日期
2:當(dāng)前時(shí)間日期
3:當(dāng)前時(shí)間歸屬周周日
4:當(dāng)前時(shí)間歸屬月一號
l
日志清洗轉(zhuǎn)換腳本(倉庫組補(bǔ)填)
補(bǔ)充腳本位置即可,如t8t-bi-dsc\log-app\log-app.py
l
裝載目標(biāo)表(倉庫組補(bǔ)填)
配置參數(shù)
參數(shù)取值
stg層表名稱
必填
stg層表描述
必填
ods層表名稱
必填
ods層表描述
必填
app_diary_log
小程序