AI时代 本次搜索耗时 1.326 秒,为您找到 69 个相关结果.
  • 结构化流式编程指南

    结构化流式编程指南 概述 简单例子 编程模型 基本概念 处理 Event-time 和 Late Data fault-tolerance 语义 使用 Dataset 和 DataFrame 的API 创建流式 DataFrame 和流式 Dataset 输入源 流式 DataFrame/Dataset 的模式推断和分区 ...
  • Spark Streaming 编程指南

    Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext 需要记住的几点: Discretized Streams (DStreams)(离散化流) Input DStreams 和 Receivers(接收器) 要记住的几点 基础的 Sources(数据源) 高级 Sour...
  • Python 2&3解释器

    Python 2&3解释器 配置 启用Python解释器 使用Python解释器 Python环境 默认 Conda 用法 Docker 用法 使用Zeppelin动态表单 Matplotlib集成 Pandas整合 在Pandas DataFrames上的SQL 技术说明 Python解释器中尚未实现某些功能 Pyth...
  • 安装

    安装 安装 下载二进制包 all 口译包 net-install编译包 启动Apache Zeppelin 从命令行启动Apache Zeppelin 停止Zeppelin 与service manager一起启动Apache Zeppelin 下一步 新到Apache Zeppelin … Zeppelin与Apache Sp...
  • Spark 编程指南

    Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集(RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functions(函数)给 Spark 理解闭包 示例 Local(本地)vs. cluster(集群)模式 打印 RDD 的 elements 与...
  • API 文档

    API 文档 API 文档 Spark Scala API (Scaladoc) Spark Java API (Javadoc) Spark Python API (Sphinx) Spark R API (Roxygen2)
  • 构建 Spark

    构建 Spark 构建 Apache Spark Apache Maven 设置 Maven 的内存使用 build/mvn 构建一个可运行的 Distribution 版本 指定 Hadoop 版本并启用 YARN 使用 Hive 和 JDBC 支持构建 打包没有 Hadoop 依赖关系的 YARN 使用 Mesos 构建 使用 Scal...
  • Spark 安全

    Spark 安全 Web UI 认证 事件日志 加密 SSL 配置 YARN mode Standalone mode 准备 key-stores 配置 SASL 加密 针对网络安全配置端口 Standalone mode only All cluster managers Spark 安全 Spark 当前支持使用 shar...
  • 快速入门

    快速入门 安全 使用 Spark Shell 进行交互式分析 基础 Dataset 上的更多操作 缓存 独立的应用 快速跳转 快速入门 本教程提供了如何使用 Spark 的快速入门介绍。首先通过运行 Spark 交互式的 shell(在 Python 或 Scala 中)来介绍 API,然后展示如何使用 Java,Scala 和 Pyt...
  • 硬件配置

    硬件配置 存储系统 本地磁盘 内存 网络 CPU Cores 硬件配置 Spark 开发者都会遇到一个常见问题,那就是如何为 Spark 配置硬件。然而正确的硬件配置取决于使用的场景,我们提出以下建议。 存储系统 因为大多数 Spark 作业都很可能必须从外部存储系统(例如 Hadoop 文件系统或者 HBase)读取输入的数据,所以...