# データアーカイブとアーカイブ
# 一、データアーカイブ機能(ta_data_archive)
データアーカイブ機能は、履歴データや一時的に使用する必要のないデータ移行を安価なストレージにアーカイブする。したがって、TA クラスタのディスクリソースを解放し、使用コストを節約します。
# 1.1 アーカイブコマンド
#启动
ta-tool data_archive start
#停止
ta-tool data_archive stop
#失败重跑
ta-tool data_archive retry -jobid *******
# 1.2 アーカイブ方式
# 1.2.1 S3 方式
# 1.2.1.1 環境準備
- Amazon S3 サービス
- アーカイブに使用するバケット(Bucket)を作成し、バケットの地域提案は TA クラスタサーバと一致
- バケットにアクセスできる秘密鍵を作成します
# 1.2.1.2 コマンドサンプル
[ta@ta1 ~]$ ta-tool data_archive start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487f6b**********f9c379aa9bb
------------------------------------------------------------
请输入项目归档的开始时间:YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间:YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型(非必填)>
------------------------------------------------------------
请输入归档存储的类型:hdfs or rsync or s3 > s3
------------------------------------------------------------
请输入S3 AccesskeyID> AK************YO6G3
------------------------------------------------------------
请输入S3 secretAccessKey> J23************rZb
------------------------------------------------------------
请输入S3 区域代码> cn-****-1
------------------------------------------------------------
请输入S3 存储桶名称> ta************ive
------------------------------------------------------------
请输入S3 文件存储类(默认:STANDARD)> S*****D
------------------------------------------------------------
请输入项目归档的目标目录> data*****_test
------------------------------------------------------------
# 1.2.1.3 手順説明
- jobid を入力して、カスタマイズしたり、バックグラウンドで生成したりすることができ、タスクが失敗したときに再実行するためには jobid を指定する必要がある。
- プロジェクトを入力 appid
- 開始日を入力(直近 1 か月の範囲外)
- 終了日を入力(直近 1 か月の範囲外)
- 指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
- アーカイブストレージのタイプ選択 S3
- s3 の accesskeyid を入力
- 入力 secretAccessKey(S3IAM サービスで管理)
- を指定バケット (opens new window)地域コード
- バケット名を入力
- 選択ストレージタイプ (opens new window)します(デフォルトは標準モード)。ストレージタイプの GLACIER および DEEP_ARCHIVE ストレージクラスは、低コストのデータアーカイブ用に設計されていますが、データ復旧時に解凍が必要です。比較的面倒です。
- アーカイブのターゲットディレクトリ(ターゲットバケットの下にディレクトリが作成され、アーカイブデータがディレクトリに配置されます)
# 1.2.2 HDFS 方式
# 1.2.2.1 環境準備
- TA クラスタネットワークと相互運用する HDFS 環境を用意
# 1.2.2.2 コマンドサンプル
[ta@ta1 ~]$ ta-tool data_archive start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487************a9bb
------------------------------------------------------------
请输入项目归档的开始时间:YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间:YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型(非必填)>
------------------------------------------------------------
请输入归档存储的类型:hdfs or rsync or s3 > hdfs
------------------------------------------------------------
请输入项目归档的HFDS URL地址> hdfs-nm-url
------------------------------------------------------------
请输入项目归档的HFDS 的用户名> hdfsUserName
------------------------------------------------------------
请输入项目归档的目标目录> hdfs******test
------------------------------------------------------------
# 1.2.2.3 手順説明
- jobid を入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時に jobid 用を指定する。
- プロジェクトを入力 appid
- 開始日を入力(直近の月の範囲外)
- 終了日を入力(直近 1 か月の範囲外)
- 指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
- アーカイブストレージのタイプ選択 hdfs
- 書き込み側の hdfs アドレスを入力します。ポートがデフォルトで hostname を記入すれば
- 書き込み側の hdfs のユーザ名を入力
- アーカイブのターゲットディレクトリを入力し絶対パスを使用することをお勧めします。そうしないと/user/hdfs ユーザーディレクトリ/ターゲットディレクトリ/
# 1.2.3 rsync 方式
# 1.2.3.1 環境準備
- rsync のデーモンモードを使用してサービス側を構築し、秘密鍵テキストを TA クラスタのコマンド実行ノード
# コマンドサンプル 1.2.3.2
[ta@ta1 ~]$ ta-tool data_archive start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 548*****************9bb
------------------------------------------------------------
请输入项目归档的开始时间:YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间:YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型(非必填)>
------------------------------------------------------------
请输入归档存储的类型:hdfs or rsync or s3 > rsync
------------------------------------------------------------
请输入目标RSYNC服务器IP地址> rsyncIp
------------------------------------------------------------
请输入目标RSYNC服务器端口> rsyncPort
------------------------------------------------------------
请输入目标RSYNC服务器用户名> rsyncUser
------------------------------------------------------------
请输入目标RSYNC服务器秘钥文件位置> passwordFilePath
------------------------------------------------------------
请输入目标RSYNC服务器模块名称> modelName
------------------------------------------------------------
sending incremental file list
/tmp/
/tmp/d41d8c*****ecf8427e.data
sent 99 bytes received 15 bytes 228.00 bytes/sec
total size is 11 speedup is 0.10 (DRY RUN)
请输入项目归档的目标目录> rsync******test_dir
# 1.2.3.3 手順説明
- jobid を入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時に jobid 用を指定する。
- プロジェクトを入力 appid
- 開始日を入力(直近の月の範囲外)
- 終了日を入力(直近 1 か月の範囲外)
- 指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
- アーカイブストレージのタイプ選択 rsync
- rsync サービス IP を入力
- rsync サービスエンドポート
- tsync ユーザ名を入力
- rsync 秘密鍵のテキストの場所を入力して、あるディレクトリの下に置きます。テキスト権限は chmod 600 権限
- rsync のモジュール名を入力します(この手順では、以前に入力した情報を使用して rsync が使用可能かどうかを確認します)
- アーカイブのターゲットディレクトリを入力します
# II。データコールバック機能(ta_data_reload)
データバック機能は、以前アーカイブしたデータを TA クラスタにインポートして再利用するもので、一般的には暦年の傾向を見るときに使用する。
インポートする前にディスク容量が十分か確認してください。
# 2.1 コールバックコマンド
#启动
ta-tool data_reload start
#停止
ta-tool data_reload stop
#失败重跑
ta-tool data_reload retry -jobid *******
# 2.2 コールバック方式
# 2.2.1 S3 方式
# 2.2.1.1 環境準備
- Amazon S3 サービス
- アーカイブに使用するバケット(Bucket)を作成し、バケットの地域提案は TA クラスタサーバと一致
- バケットにアクセスできる秘密鍵を作成します
# 2.2.1.2 コマンドサンプル
[ta@ta1 log]$ ta-tool data_reload start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487f6************a9bb
------------------------------------------------------------
请输入项目归档的开始时间:YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间:YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型(非必填)>
------------------------------------------------------------
请输入归档存储的类型:hdfs or rsync or s3 > s3
------------------------------------------------------------
请输入S3 AccesskeyID> AK***********3
------------------------------------------------------------
请输入S3 secretAccessKey> J23w************b
------------------------------------------------------------
请输入S3 区域代码> cn*****-1
------------------------------------------------------------
请输入S3 存储桶名称> ta*****ve
------------------------------------------------------------
请输入项目归档的目标目录> data*******t_1
------------------------------------------------------------
# 2.2.1.3 手順説明
- jobid を入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時に jobid 用を指定するため。
- プロジェクトを入力 appid
- 開始日を入力(直近 1 か月の範囲外)
- 終了日を入力(直近 1 か月の範囲外)
- 指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
- プロジェクトアーカイブのイベントタイプ選択 S3
- s3 の accesskeyid を入力
- 入力 secretAccessKey(S3IAM サービスで管理)
- を指定バケット (opens new window)地域コード
- バケット名を入力
- 選択ストレージタイプ (opens new window)します(デフォルトは標準モード)。ストレージタイプが GLACIER と DEEP_ARCHIVE の場合は、S3 で事前にデータの解凍を行ってください
- アーカイブのターゲットディレクトリ(ターゲットバケットの下にディレクトリが作成され、アーカイブデータがディレクトリに配置されます)
注意:パラメータを入力すると、アーカイブ時のバケット名とディレクトリパスが一致することが保証されます。
# 2.2.2 HDFS 方式
# 2.2.2.1 環境準備
- TA クラスタネットワークと相互運用する HDFS 環境を用意
# 2.2.2.2 コマンドサンプル
[ta@ta1 log]$ ta-tool data_reload start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487*******************9bb
------------------------------------------------------------
请输入项目归档的开始时间:YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间:YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型(非必填)>
------------------------------------------------------------
请输入归档存储的类型:hdfs or rsync or s3 > hdfs
------------------------------------------------------------
请输入项目归档的HFDS URL地址> hdfs-nm-url
------------------------------------------------------------
请输入项目归档的目标目录> hdfs******test
------------------------------------------------------------
# 2.2.2.3 手順説明
- jobid を入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時に jobid 用を指定する。
- プロジェクトを入力 appid
- 開始日を入力(直近 1 か月の範囲外)
- 終了日を入力(直近 1 か月の範囲外)
- 指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
- プロジェクトアーカイブのイベントタイプ選択 hdfs
- 書き込み側の hdfs アドレスを入力します。ポートがデフォルトで hostname を記入すれば
- 書き込み側の hdfs のユーザ名を入力
- アーカイブのターゲットディレクトリを入力します
注意:パラメータを入力すると、アーカイブ時のディレクトリパスと一致することが保証されます。
# 2.2.3 rsync 方式
# 2.2.3.1 環境準備
- rsync のデーモンモードを使用してサービス側を構築し、秘密鍵テキストを TA クラスタのコマンド実行ノード
# 2.2.3.2 コマンドサンプル
[ta@ta1 log]$ ta-tool data_reload start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 54****************9bb
------------------------------------------------------------
请输入项目归档的开始时间:YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间:YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型(非必填)>
------------------------------------------------------------
请输入归档存储的类型:hdfs or rsync or s3 > rsync
------------------------------------------------------------
请输入目标RSYNC服务器IP地址> rsyncIp
------------------------------------------------------------
请输入目标RSYNC服务器端口> rsyncPort
------------------------------------------------------------
请输入目标RSYNC服务器用户名> rsyncUser
------------------------------------------------------------
请输入目标RSYNC服务器秘钥文件位置> passwordFilePath
------------------------------------------------------------
请输入目标RSYNC服务器模块名称> modelName
------------------------------------------------------------
sending incremental file list
/tmp/
/tmp/d41d8cd98f00b204e9800998ecf8427e.data
sent 99 bytes received 15 bytes 20.73 bytes/sec
total size is 11 speedup is 0.10 (DRY RUN)
请输入项目归档的目标目录> rsync******test_dir
# 2.2.3.3 手順説明
- jobid を入力して、カスタマイズしたり、バックグラウンドで生成したりして、タスクが失敗したとき、再実行時に jobid 用を指定するため。
- プロジェクトを入力 appid
- 開始日を入力(直近の月の範囲外)
- 終了日を入力(直近 1 か月の範囲外)
- 指定したイベントタイプ(必須ではない)を入力して、イベントタイプ
- アーカイブストレージのタイプ選択 rsync
- rsync サービス IP を入力
- rsync サービスエンドポート
- tsync ユーザ名を入力
- rsync 秘密鍵のテキストの場所を入力して、あるディレクトリの下に置きます。テキスト権限は chmod 600 権限
- rsync のモジュール名を入力します(この手順では、以前に入力した情報を使用して rsync が使用可能かどうかを確認します)
- アーカイブのターゲットディレクトリを入力します
注意:パラメータを入力すると、アーカイブ時のディレクトリパスと一致することが保証されます。