[搜文档]Spark - 搜索结果

结构化流式编程指南

2201 2024-04-11 《Apache Spark 官方文档中文版》

结构化流式编程指南概述简单例子编程模型基本概念处理 Event-time 和 Late Data fault-tolerance 语义使用 Dataset 和 DataFrame 的API 创建流式 DataFrame 和流式 Dataset 输入源流式 DataFrame/Dataset 的模式推断和分区 ...

Spark 概述

2083 2024-04-11 《Apache Spark 官方文档中文版》

Spark 概述安全下载运行示例和 Shell 在集群上运行进一步学习链接 Spark 概述 Apache Spark 是一个快速的，通用的集群计算系统。它对 Java，Scala，Python 和 R 提供了的高层 API，并有一个经优化的支持通用执行图计算的引擎。它还支持一组丰富的高级工具，包括用于 SQL 和结构化数据处理的 ...

Python 2＆3解释器

2053 2024-04-11 《Zeppelin 0.7.2 中文文档》

Python 2＆3解释器配置启用Python解释器使用Python解释器 Python环境默认 Conda 用法 Docker 用法使用Zeppelin动态表单 Matplotlib集成 Pandas整合在Pandas DataFrames上的SQL 技术说明 Python解释器中尚未实现某些功能 Pyth...

Spark 安全

2046 2024-04-11 《Apache Spark 官方文档中文版》

Spark 安全 Web UI 认证事件日志加密 SSL 配置 YARN mode Standalone mode 准备 key-stores 配置 SASL 加密针对网络安全配置端口 Standalone mode only All cluster managers Spark 安全 Spark 当前支持使用 shar...

Apache Spark 官方文档中文版

2007 2024-04-11 《Apache Spark 官方文档中文版》

Apache Spark 官方文档中文版历史版本翻译进度项目看板贡献指南项目负责人联系方式建议反馈 License 下载 Docker PYPI NPM 赞助我们 Apache Spark 官方文档中文版 Apache Spark? 是一个快速的，用于海量数据处理的通用引擎。欢迎任何人参与和完善...

安装

1984 2024-04-11 《Zeppelin 0.7.2 中文文档》

安装安装下载二进制包 all 口译包 net-install编译包启动Apache Zeppelin 从命令行启动Apache Zeppelin 停止Zeppelin 与service manager一起启动Apache Zeppelin 下一步新到Apache Zeppelin … Zeppelin与Apache Sp...

构建 Spark

1963 2024-04-11 《Apache Spark 官方文档中文版》

构建 Spark 构建 Apache Spark Apache Maven 设置 Maven 的内存使用 build/mvn 构建一个可运行的 Distribution 版本指定 Hadoop 版本并启用 YARN 使用 Hive 和 JDBC 支持构建打包没有 Hadoop 依赖关系的 YARN 使用 Mesos 构建使用 Scal...

Running Spark on YARN

1804 2024-04-11 《Apache Spark 官方文档中文版》

Running Spark on YARN 启动 Spark on YARN 添加其他的 JARs 准备配置调试应用 Spark 属性重要提示在安全集群中运行配置外部的 Shuffle Service 用 Apache Oozie 来运行应用程序 Kerberos 故障排查使用 Spark History Server 来替...

Monitoring and Instrumentation

1803 2024-04-11 《Apache Spark 官方文档中文版》

Monitoring and Instrumentation Web 界面事后查看环境变量 Spark配置选项 REST API API 版本控制策略 Metrics 高级工具 Monitoring and Instrumentation 有几种方法来监视 Spark 应用程序：Web UI，metrics 和外部工具。 W...

Tuning Spark

1714 2024-04-11 《Apache Spark 官方文档中文版》

Spark 调优数据序列化内存调优内存管理概论确定内存消耗优化数据结构序列化 RDD 存储 GC优化其它考虑并行级别 Reduce任务内存使用广播大变量数据局部性总结 Spark 调优由于大多数Spark计算都在内存中，所以集群中的任何资源(CPU、网络带宽或内存)都可能成为Spark程序的瓶颈。...