导航：首页 > 互联网科技 >

基于Docker的大数据开发环境怎么实现

发表于：2025-01-31 作者：千家信息网编辑

千家信息网最后更新 2025年01月31日，这篇文章主要讲解了"基于Docker的大数据开发环境怎么实现"，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习"基于Docker的大数据开发环境怎么实现"吧

千家信息网最后更新 2025年01月31日基于Docker的大数据开发环境怎么实现

这篇文章主要讲解了"基于Docker的大数据开发环境怎么实现"，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习"基于Docker的大数据开发环境怎么实现"吧！

大数据开发对运行环境和数据的依赖比较重，比如开发Spark应用，往往会依赖Hive，但本地开发环境是没有Hive的，所以需要在本地和服务器之间拷贝代码，效率不高，我认为用Docker在本地搭建一套单机的大数据集群，然后将代码拷贝到容器里进行测试，可以改善这种情况。我自己对这个思路做过探索，这个镜像安装了Hadoop、Hive、Spark等组件，基本可以满足需求，但是也有一些问题存在，比如有时需要对配置进行调整来保持和生产环境的一致性，虽然可以做，但工作量也不少。

其实，CDH和HDP都提供了类似的单机镜像，其中HDP中组件的版本比较新，并且和公司的技术栈一致，因此来探索一下，如果体验更好的话，以后就用它来进行相关的开发了。

Sandbox获取

系统要求

安装Docker 17.09 或更新的版本
对于Windows和Mac，Docker需要配置10G以上的内存

脚本下载与执行

可以在浏览器里访问https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html点击页面下载，也可以直接在命令行用wget下载：

$ wget --no-check-certificate https://archive.cloudera.com/hwx-sandbox/hdp/hdp-3.0.1/HDP_3.0.1_docker-deploy-scripts_18120587fc7fb.zip

解压并执行脚本：

$ unzip HDP_3.0.1_docker-deploy-scripts_18120587fc7fb.zipArchive:  HDP_3.0.1_docker-deploy-scripts_18120587fc7fb.zip   creating: assets/  inflating: assets/generate-proxy-deploy-script.sh  inflating: assets/nginx.conf  inflating: docker-deploy-hdp30.sh$ sh docker-deploy-hdp30.sh

执行后会开始拉取docker镜像，需要下载几十G的数据，需要耐心等待。

Sandbox验证

脚本执行完毕后，使用 docker ps可以看到启动了两个容器：

CONTAINER ID        IMAGE                           COMMAND                  CREATED             STATUS              PORTS                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            NAMESdaf0f397ff6c        hortonworks/sandbox-proxy:1.0   "nginx -g 'daemon of…"   About an hour ago   Up About an hour    0.0.0.0:1080->1080/tcp, ...b925f92f368d        hortonworks/sandbox-hdp:3.0.1   "/usr/sbin/init"         About an hour ago   Up About an hour    22/tcp, 4200/tcp, 8080/tcpsandbox-hdp

其中 sandbox-proxy 这个容器先忽略，关注 sandbox-hdp 这个就可以，这时所有HDP的组件都已经启动了。

UI验证

因为已经做了端口映射，如果要访问特定的UI，直接访问localhost对应的端口就可以，可以先访问 localhost:1080的Splash页面：

这里提供了向导，点击左边的Launch Dashboard可以打开Ambari登陆页面和HDP的Tutorial页面，点击右边的Quick Links会打开下一级向导，包含Ambari、Zeppelin、Atlas、Ranger等组件的跳转链接：

其中Ambari的登陆密码可以参考https://www.cloudera.com/tutorials/learning-the-ropes-of-the-hdp-sandbox.html这个页面获取，根据不同用途可以选择不同的用户：

用户	角色	密码
admin	Ambari Admin	使用`ambari-admin-password-reset`命令初始化获得
maria_dev	Spark and SQL Developer	maria_dev
raj_ops	Hadoop Warehouse Operator	raj_ops
holger_gov	Data Steward	holger_gov
amy_ds	Data Scientist	amy_ds

Web UI的情况读者可以自行一一验证，下面来验证一下底层的存储和计算情况。

功能验证

命令行进入容器：

docker exec -it sandbox-hdp bash

HDFS验证

简单的ls一下：

[root@sandbox-hdp /]# hdfs dfs -ls /Found 13 itemsdrwxrwxrwt   - yarn   hadoop          0 2018-11-29 17:56 /app-logsdrwxr-xr-x   - hdfs   hdfs            0 2018-11-29 19:01 /appsdrwxr-xr-x   - yarn   hadoop          0 2018-11-29 17:25 /atsdrwxr-xr-x   - hdfs   hdfs            0 2018-11-29 17:26 /atsv2drwxr-xr-x   - hdfs   hdfs            0 2018-11-29 17:26 /hdpdrwx------   - livy   hdfs            0 2018-11-29 17:55 /livy2-recoverydrwxr-xr-x   - mapred hdfs            0 2018-11-29 17:26 /mapreddrwxrwxrwx   - mapred hadoop          0 2018-11-29 17:26 /mr-historydrwxr-xr-x   - hdfs   hdfs            0 2018-11-29 18:54 /rangerdrwxrwxrwx   - spark  hadoop          0 2021-02-06 07:19 /spark2-historydrwxrwxrwx   - hdfs   hdfs            0 2018-11-29 19:01 /tmpdrwxr-xr-x   - hdfs   hdfs            0 2018-11-29 19:21 /userdrwxr-xr-x   - hdfs   hdfs            0 2018-11-29 17:51 /warehouse

Hive验证

Sandbox里已经内置了一些测试数据，select一下即可。

首先启动hive命令行：

[root@sandbox-hdp /]# hive

查看有哪些数据库：

0: jdbc:hive2://sandbox-hdp.hortonworks.com:2> show databases;+---------------------+|    database_name    |+---------------------+| default             || foodmart            || information_schema  || sys                 |+---------------------+

选择foodmart，再查看有哪些表：

0: jdbc:hive2://sandbox-hdp.hortonworks.com:2> use foodmart;0: jdbc:hive2://sandbox-hdp.hortonworks.com:2> show tables;+--------------------------------+|            tab_name            |+--------------------------------+| account                        || ...                            |+--------------------------------+

可以看到有很多表，我们就选择account这张表：

0: jdbc:hive2://sandbox-hdp.hortonworks.com:2> select * from account limit 1;+---------------------+-------------------------+------------------------------+-----------------------+-------------------------+-------------------------+| account.account_id  | account.account_parent  | account.account_description  | account.account_type  | account.account_rollup  | account.custom_members  |+---------------------+-------------------------+------------------------------+-----------------------+-------------------------+-------------------------+| 1000                | NULL                    | Assets                       | Asset                 | ~                       |                         |+---------------------+-------------------------+------------------------------+-----------------------+-------------------------+-------------------------+

非常OK。

Spark验证

启动spark-sql后查询account表：

spark-sql> select * from foodmart.account limit 1;Error in query: Table or view not found: `foodmart`.`account`; line 1 pos 14;'GlobalLimit 1+- 'LocalLimit 1   +- 'Project [*]      +- 'UnresolvedRelation `foodmart`.`account`

奇怪

spark-sql> show databases;default

只有default库。

做了一些搜索，发现貌似在HDP 3.0之后，Spark访问Hive表发生了大的变化，Spark的验证还需要进一步研究。

Sandbox管理

停止Sandbox

使用docker stop命令即可：

docker stop sandbox-hdpdocker stop sandbox-proxy

重启Sandbox

使用docker start命令即可：

docker start sandbox-hdpdocker start sandbox-proxy

清理Sandbox

先stop再remove：

docker stop sandbox-hdpdocker stop sandbox-proxydocker rm sandbox-hdpdocker rm sandbox-proxy

如果要删除镜像的话：

docker rmi hortonworks/sandbox-hdp:3.0.1

感谢各位的阅读，以上就是"基于Docker的大数据开发环境怎么实现"的内容了，经过本文的学习后，相信大家对基于Docker的大数据开发环境怎么实现这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是，小编将为大家推送更多相关知识点的文章，欢迎关注！

很赞哦！

数据验证开发环境命令页面容器情况组件镜像脚本学习选择不同一致代码内容单机向导密码数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全北京软件开发团队明日之后新年新服是哪个服务器四川惠普服务器虚拟化费用数据库索引问题服务器维护与管理论文数据库如何设置密码软件开发指导工作室苏州推广软件开发哪家好戴尔服务器4黄7白什么故障警察网络技术怎么样 1500数据库入库技术难点 ios信任服务器弹窗英雄联盟手游服务器怎么修改 MySQL数据库不支持的功能是网络技术的利与弊辩论文件服务器的实现保交所软件开发江苏共享云网络技术甘肃兰州软件开发公司漫画安全网络安全科普宣传册微星b75支持服务器内存吗学校开展网络安全检查 mysql数据库如何最大值网络安全用户隐私风险在数据库中什么叫映射网络安全风险处置 163邮箱相关服务器服务器信息网络安全工程师退休免费互联网软件开发教程对接国家实名制数据库

千家信息网