ESXI制作Linux系统模板

2019-03-20

有两种方式实现

方式一：OVF导出导入

这种方式是，在VMware Workstation Pro中创建好虚拟机，并将所需环境配置和优化完毕，然后关闭虚拟机并将其导出为OVF格式镜像，这种镜像是直接可以在ESXI中使用的。

ESXI使用：登陆ESXI客户端 – 文件 – 部署OVF模板 – 上传OVF格式镜像即可。

more >>

展开全文 >>

Mars-Hadoop Sqoop Job

2019-03-13

Sqoop Job介绍

作用：记录Sqoop命令的配置信息，包括关系型数据库连接地址、用户名、密码、数据库和表等等信息。

Job：存储在User私有目录(即linux用户的家目录)$HOME/.sqoop/下，可将此配置为共享的metastore中(供集群中多用户使用)

应用场景：多次执行同一个导入导出命令(尤其是增量导入时)

Sqoop Job帮助

sqoop job 
         --create <job-id>   #创建作业(ID或名称)
         --delete <job-id>   #删除作业(ID或名称)
         --exec <job-id>     #执行作业
         --list              #列出当前已创建的作业
         --meta-connect <jdbc-uri>   #指定共享metastore
         --help

more >>

展开全文 >>

Mars-hadoop sqoop导出实战

2019-03-13

一、可能的数据处理架构

1	Sqoop import ->Hive/HDFS ->MR Job/Spark Job/Streaming Job/ML Job/SQL -> Result Data

二、Sqoop导出通用参数

–connect 连接关系型数据库
–username 关系型数据库用户
–password/-P 关系型数据库密码

more >>

展开全文 >>

Mars-Hadoop Sqoop增量导入实战

2019-03-12

一、核心参数

–check-column

1
2
3

用来指定一些列，这些列在导入时用来检查做决定数据是否要被作为增量数据，在一般关系型数据库中，都存在类似Last_Mod_Date的字段或主键。

注意：这些被检查的列的类型不能是任意字符类型，例如Char,VARCHAR...(即字符类型不能作为增量标识字段)

–incremental

1	用来指定增量导入的模式(Mode),两种模式为: append(附加/一般是指新增的内容)和lastmodified(最新修改的内容)

–last-value

1	指定上一次导入时，检查列指定字段的最大值

more >>

展开全文 >>

Mars-Hadoop Sqoop导入实战

2019-03-12

测试数据准备如下

数据库名称：bigdata, 表名称: bigdata

MariaDB [bigdata]> select * from bigdata;
+----------+--------------------------------+-------------+---------+---------------------+
| class_id | class_name                     | class_month | teacher | last_mod_ts         |
+----------+--------------------------------+-------------+---------+---------------------+
|        1 | bigdata intro.                 |           8 | Mars    | 2019-03-08 17:03:43 |
|        2 | hadoop intro.                  |           8 | Mars    | 2019-03-08 17:03:43 |
|        3 | hadoop components              |           8 | Mars    | 2019-03-08 17:03:43 |
|        4 | hadoop arch.                   |           8 | Mars    | 2019-03-08 17:03:43 |
|        5 | hdfs                           |           9 | Mars    | 2019-03-08 17:03:43 |

Sqoop import to hdfs

# sqoop import \
  --connect jdbc:mysql://mysql_server_ip:3306/bigdata \
  --username root \
  -P \
  --table bitdata \
  --warehouse-dir /sqoopim \
  -m 1

Sqoop import to hive table

# sqoop import \
  --connect jdbc:mysql://mysql_server_ip:3306/bigdata \
  --username root \
  -P \
  --table bitdata \
  --hive-import --hive-database default --create-table \
  -m 1

more >>

展开全文 >>

hadoop hdfs用户组权限

2019-03-12

先了解下hdfs的超级用户概念

超级用户即运行name node进程的用户。例如，你使用了root用户启动了name node，那么root就是超级用户。

当name node开始运行时，进程自动判断谁现在是超级用户。HDFS的超级用户不一定非得是name node主机上的超级用户，也不需要所有的集群的超级用户都是一个。

另外，下面我们通过手动去指定一个用户作为hadoop超级管理员用户，也具有超级管理员权限。

开启hdfs权限检查

<property>
   <name>dfs.permissions.enabled</name>    #启用权限检查
   <value>true</value>
</property>

注：修改完以上配置后，需要重启namenode hdfs服务

参考：官网配置

more >>

展开全文 >>

Mars-Hadoop Sqoop介绍及安装

2019-03-08

Sqoop介绍

1
2
3

sqoop是一款数据转换工具，主要用于在Hadoop(hive)与传统的数据库之间进行数据传递。

可以将一个关系型数据库(例如：MySQL、Oracle、Postgres等)中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导出到关系型数据库中

官方网址-Apache Sqoop
使用文档-Apache Sqoop

1
2
3

截止目前共计2个版本,选择其一即可：
V1.4.7
V1.99.7

more >>

展开全文 >>

sz或rz下载乱码中断问题

2019-03-08

有时候在ssh客户端下载文件，文件没有达到4GB上限，却下载出现乱码，以致于下载的文件不完整

注：以下解决方法仅限文本文件下载

解决方法-使用-a参数：

1	-a, --ascii ASCII transfer (change CR/LF to LF)

1	sz -a filename

展开全文 >>

shell递归检索所有空目录

2019-03-08

shell脚本

[root@hostname ~]$ cat scan.sh 
#!/bin/bash

function read_dir {        #定义一个函数，名称为read_dir
  for file in `ls -R $1`   #通过ls -R来遍历目录 
  do
    if [ -d $1"/"$file ];then   #如果它是一个目录,则进行文件统计  
       NUM=`ls $1"/"$file|wc -l`  
       if [ $NUM -eq 0 ];then   #如果文件统计结果为0则说明是空目录，就追加到文件
          echo $1"/"$file >>scan_dir.log
       fi
       read_dir $1"/"$file      #读取路径，继续目录递归
    fi
  done

}

read_dir $1

脚本执行

1	time sh scan.sh [PATH...]

其他递归需求，可随意变通实现

展开全文 >>

hadoop清空回收站

2019-03-06

直接删除目录(不放入回收站)

1	hadoop fs -rm -skipTrash /path/to/file

如果不加-skipTrash，删除的目录会放入/user/hdfs/.Trash中。同时可以配置垃圾桶选项，设置时间间隔多久后自动清空

清空回收站

$ hadoop fs -expunge

输出内容大概如下：
5/03/27 14:19:45 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 1 minutes, Emptier interval = 0 minutes.
15/03/27 14:19:46 INFO fs.TrashPolicyDefault: Created trash checkpoint: /user/hdfs/.Trash/150327141946

执行完命令后，回收站的数据不会立即被清理，而是先打了一个checkpoint。提示一分钟后清除。

参考：Emptying the HDFS Trash

展开全文 >>

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true