开始使用开源客户数据平台

作为 Segment 的开源替代方案,RudderStack 收集和路由事件流(或点击流)数据,并在您的数据仓库中自动构建您的客户数据湖。
89 位读者喜欢这篇文章。
Person standing in front of a giant computer screen with numbers, data

Opensource.com

RudderStack 是一个开源的、仓库优先的客户数据管道。 它收集和路由事件流(或点击流)数据,并在您的数据仓库中自动构建您的客户数据湖。

RudderStack 通常被称为客户数据平台(CDP)Segment 的开源替代方案。 与之相比,它提供了一个更安全、更灵活和更具成本效益的解决方案。 您可以获得所有 CDP 功能,并增加安全性和对客户数据的完全所有权。

像 RudderStack 这样的仓库优先工具被设计为在用户的数据仓库中构建功能性数据湖。 这样做的好处是提高了数据控制,增加了工具使用的灵活性,并且(通常)降低了成本。 由于它是开源的,您可以了解复杂的流程(例如构建您的身份图)是如何完成的,而无需依赖供应商的黑盒。

获取 RudderStack 工作区令牌

在开始之前,您需要从 RudderStack 仪表板获取 RudderStack 工作区令牌。 要获取它:

  1. 转到 RudderStack 仪表板
  2. 使用您的凭据登录(或者如果您还没有帐户,请注册一个帐户)。

  3. 登录后,您应该在 RudderStack 仪表板上看到工作区令牌。

安装 RudderStack

设置 RudderStack 开源实例非常简单。 您有两个安装选项:

  1. 在您的 Kubernetes 集群上,使用 RudderStack 的 Helm charts
  2. 在您的 Docker 容器上,使用 docker-compose 命令

本教程解释了如何使用这两种选项,但假设您已经在系统上安装了 Git

使用 Kubernetes 部署

您可以使用 Helm 包管理器在 Kubernetes 集群上部署 RudderStack。

如果您计划在生产中使用 RudderStack,我们强烈建议使用此方法。 这是因为 Docker 镜像的错误修复更新频率高于 GitHub 存储库(后者遵循每月发布周期)。

在 Kubernetes 上部署 RudderStack 之前,请确保您已具备以下先决条件:

完成所有先决条件后,在您的默认 Kubernetes 集群上部署 RudderStack:

  1. 在此 repo 中找到部署 RudderStack 所需的 Helm chart。
  2. 使用您选择的发布名称(在本例中为 my-release)从上一步中 repo 的根目录安装 Helm chart:
    $ helm install \
    my-release ./ --set \
    rudderWorkspaceToken="<your workspace token from RudderStack dashboard>"

这会将 RudderStack 部署到您的默认 Kubernetes 集群上,该集群已使用从 RudderStack 仪表板获取的工作区令牌配置了 kubectl。

有关 RudderStack Helm chart 中可配置参数或更新所使用镜像版本的更多详细信息,请查阅文档

使用 Docker 部署

Docker 是设置您的开源 RudderStack 实例的最简单和最快的方法。

首先,按照上述步骤从 RudderStack 仪表板获取工作区令牌。

获得 RudderStack 工作区令牌后:

  1. 下载安装所需的 rudder-docker.yml docker-compose 文件。
  2. 将此文件中的 <your_workspace_token> 替换为您的 RudderStack 工作区令牌。
  3. 通过运行以下命令在您的 Docker 容器上设置 RudderStack:
    docker-compose -f rudder-docker.yml up

现在,RudderStack 应该在您的 Docker 实例上启动并运行了。

验证安装

您可以使用捆绑的 shell 脚本发送测试事件来验证您的 RudderStack 安装。

  1. 克隆 GitHub 存储库
    git clone https://github.com/rudderlabs/rudder-server.git
  2. 在本教程中,您将通过将测试事件发送到 Google Analytics 来验证 RudderStack。 确保您拥有一个 Google Analytics 帐户并随时掌握跟踪 ID。 另请注意,Google Analytics 帐户需要具有 Web 属性。
  3. RudderStack 托管控制面板中:
    • 按照 在 RudderStack 中添加来源和目标 指南,在 RudderStack 仪表板上添加一个来源。 您可以使用 RudderStack 的任何事件流软件开发工具包 (SDK) 从您的应用程序发送事件。 此示例将 JavaScript SDK 设置为仪表板上的来源。 注意:在此步骤中,您实际上并没有在您的网站上安装 RudderStack JavaScript SDK; 您只是在 RudderStack 中创建来源。
    • 使用前面提到的指南中的说明,在 RudderStack 仪表板上配置 Google Analytics 目标。 使用您从本节的步骤 2 中保留的 Google Analytics 跟踪 ID。

  4. 如前所述,RudderStack 捆绑了一个生成测试事件的 shell 脚本。 从 RudderStack 仪表板获取 Source write key

  5. 接下来,运行:
    ./scripts/generate-event <YOUR_WRITE_KEY> https://hosted.rudderlabs.com/v1/batch
  6. 最后,登录您的 Google Analytics 帐户并验证事件是否已传送。 在您的 Google Analytics 帐户中,导航到 RealTime -> Events。 实时视图非常重要,因为某些仪表板可能需要一到两天才能刷新。

可选:设置开源控制面板

RudderStack 的核心架构包含两个主要组件:数据平面和控制平面。 数据平面 rudder-server 传递您的事件数据,而 RudderStack 托管控制平面管理您的来源和目标的配置。

但是,如果您想在本地管理来源和目标配置,您可以使用 RudderStack Config Generator 在您的环境中设置一个开源控制平面。 (您必须在系统上安装 Node.js 才能使用它。)

以下是设置控制平面的步骤:

  1. 按照上述说明,在您选择的平台上安装并设置 RudderStack。
  2. 按以下顺序运行以下命令:
    • cd utils/config-gen
    • npm install
    • npm start

现在您应该可以默认在 http://localhost:3000 访问开源控制平面。 如果您的设置成功,您将看到用户界面。

要从 RudderStack 托管控制平面导出现有工作区配置并让 RudderStack 使用它,请查阅 文档

RudderStack 和开源

RudderStack 的核心位于 rudder-server 存储库中。 它是开源的,并根据 AGPL-3.0 获得许可。 大多数目标集成位于 rudder-transformer 存储库中。 它们也是开源的,并根据 MIT 许可证 获得许可。 SDK 和 instrumentation 存储库、几个工具和实用程序存储库,甚至一些 dbt 模型存储库,用于客户旅程分析和会话化等用例,以及驻留在您的数据仓库中的数据,都是开源的,并根据 MIT 许可证获得许可,可在 GitHub 存储库中获得。

您可以在您选择的平台上使用 RudderStack 的开源产品 rudder-server。 有 DockerKubernetes本机安装开发者机器的设置指南。

RudderStack 开源产品

  1. RudderStack 事件流
  2. 15+ 个 SDK 和来源集成来摄取事件数据
  3. 80+ 个目标和仓库集成
  4. Slack 社区支持

RudderStack 云

RudderStack 还提供托管选项,即 RudderStack Cloud。它快速、可靠且高度可扩展,具有多节点架构和复杂的错误处理机制。您可以达到峰值事件量,而无需担心停机、事件丢失或延迟。

GitHub 上探索我们的开源代码库,订阅 我们的博客,并在社交媒体上关注我们:TwitterLinkedIndev.toMediumYouTube

接下来阅读
User profile image.
Amey 是 RudderStack 的内容经理。他对数据科学、内容和产品营销、游戏和音乐有着浓厚的兴趣。

评论已关闭。

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 国际许可协议获得许可。
© . All rights reserved.