AI时代 本次搜索耗时 0.188 秒,为您找到 69 个相关结果.
  • Spark 编程指南

    Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集(RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functions(函数)给 Spark 理解闭包 示例 Local(本地)vs. cluster(集群)模式 打印 RDD 的 elements 与...
  • Spark 概述

    Spark 概述 安全 下载 运行示例和 Shell 在集群上运行 进一步学习链接 Spark 概述 Apache Spark 是一个快速的,通用的集群计算系统。它对 Java,Scala,Python 和 R 提供了的高层 API,并有一个经优化的支持通用执行图计算的引擎。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 ...
  • 安装

    安装 安装 下载二进制包 all 口译包 net-install编译包 启动Apache Zeppelin 从命令行启动Apache Zeppelin 停止Zeppelin 与service manager一起启动Apache Zeppelin 下一步 新到Apache Zeppelin … Zeppelin与Apache Sp...
  • Spark 安全

    Spark 安全 Web UI 认证 事件日志 加密 SSL 配置 YARN mode Standalone mode 准备 key-stores 配置 SASL 加密 针对网络安全配置端口 Standalone mode only All cluster managers Spark 安全 Spark 当前支持使用 shar...
  • Python 2&3解释器

    Python 2&3解释器 配置 启用Python解释器 使用Python解释器 Python环境 默认 Conda 用法 Docker 用法 使用Zeppelin动态表单 Matplotlib集成 Pandas整合 在Pandas DataFrames上的SQL 技术说明 Python解释器中尚未实现某些功能 Pyth...
  • Apache Spark 官方文档中文版

    Apache Spark 官方文档中文版 历史版本 翻译进度 项目看板 贡献指南 项目负责人 联系方式 建议反馈 License 下载 Docker PYPI NPM 赞助我们 Apache Spark 官方文档中文版 Apache Spark? 是一个快速的,用于海量数据处理的通用引擎。 欢迎任何人参与和完善...
  • 构建 Spark

    构建 Spark 构建 Apache Spark Apache Maven 设置 Maven 的内存使用 build/mvn 构建一个可运行的 Distribution 版本 指定 Hadoop 版本并启用 YARN 使用 Hive 和 JDBC 支持构建 打包没有 Hadoop 依赖关系的 YARN 使用 Mesos 构建 使用 Scal...
  • Running Spark on YARN

    Running Spark on YARN 启动 Spark on YARN 添加其他的 JARs 准备 配置 调试应用 Spark 属性 重要提示 在安全集群中运行 配置外部的 Shuffle Service 用 Apache Oozie 来运行应用程序 Kerberos 故障排查 使用 Spark History Server 来替...
  • Tuning Spark

    Spark 调优 数据序列化 内存调优 内存管理概论 确定内存消耗 优化数据结构 序列化 RDD 存储 GC优化 其它考虑 并行级别 Reduce任务内存使用 广播大变量 数据局部性 总结 Spark 调优 由于大多数Spark计算都在内存中,所以集群中的任何资源(CPU、网络带宽或内存)都可能成为Spark程序的瓶颈。...
  • 快速入门

    快速入门 安全 使用 Spark Shell 进行交互式分析 基础 Dataset 上的更多操作 缓存 独立的应用 快速跳转 快速入门 本教程提供了如何使用 Spark 的快速入门介绍。首先通过运行 Spark 交互式的 shell(在 Python 或 Scala 中)来介绍 API,然后展示如何使用 Java,Scala 和 Pyt...