Nebius

Nebius

NebiusCluster([bootstrap, image_family, ...])

在 Nebius AI Cloud 实例上运行的集群。

概览

认证

在 Nebius 上创建集群之前,您必须配置您的认证凭据。您可以使用 nebius 命令行工具来完成此操作。

获取凭据后,将其添加到您的 Dask 配置中,位于

  • cloudprovider.nebius.token

  • cloudprovider.nebius.project_id

您可以通过以下任一方式指定这些值:

  1. 在您的 YAML 配置中包含环境变量 NB_IAM_TOKEN 和 NB_PROJECT_ID。

    # ~/.config/dask/cloudprovider.yaml
    
    cloudprovider:
      nebius:
          token: "your_iam_token"
          project_id: "your_project_id"
    
  2. 在您的 shell 中将它们导出为环境变量。

    $ export DASK_CLOUDPROVIDER__NEBIUS__TOKEN=($nebius iam get-access-token)
    $ export DASK_CLOUDPROVIDER__NEBIUS__PROJECT_ID="your_project_id"
    

Dask 配置

您可以更改 server_platformserver_presetimage_family 的配置。所有可用平台和预设的列表,可以在 Nebius 文档 中找到。

class dask_cloudprovider.nebius.NebiusCluster(bootstrap: str = None, image_family: str = None, project_id: str = None, disk_size: int = None, server_platform: str = None, server_preset: str = None, docker_image: str = None, debug: bool = False, **kwargs)[source]

在 Nebius AI Cloud 实例上运行的集群。

Nebius AI Cloud 中的 VM 被称为实例。此集群管理器可在 VM 上构建并运行 Dask 集群。

配置集群时,您可能会发现安装 nebius 工具来查询 Nebius API 获取可用选项很有用。

https://docs.nebius.com/cli/quickstart

参数
image_family: str

用于主机 OS 的镜像。这应该是一个 Ubuntu 变体。您可以在此处找到可用镜像列表 https://docs.nebius.com/compute/storage/manage#parameters-boot

project_id: str

Nebius AI Cloud 项目 ID。您可以在 Nebius AI Cloud 控制台中找到。

server_platform: str

此处列出了所有平台和预设 https://docs.nebius.com/compute/virtual-machines/types/

server_preset: str

此处列出了所有平台和预设 https://docs.nebius.com/compute/virtual-machines/types/

n_workers: int

用于初始化集群的工作进程数。默认为 0

worker_module: str

为工作进程运行的 Python 模块。默认为 distributed.cli.dask_worker

worker_options: dict

要传递给工作进程类的参数。请参阅 distributed.worker.Worker 了解默认工作进程类。如果您设置了 worker_module,则请参阅自定义工作进程类的文档字符串。

scheduler_options: dict

要传递给调度器类的参数。请参阅 distributed.scheduler.Scheduler

env_vars: dict

要传递给工作进程的环境变量。

extra_bootstrap: list[str] (optional)

在引导阶段要运行的额外命令。

属性
异步

我们是否在事件循环中运行?

自动关闭
引导
从正在运行的循环中调用
命令
仪表板链接
docker 镜像
gpu 实例
循环
名称
观察到的
计划
请求的
调度器地址
调度器类
工作进程类

方法

adapt([Adaptive, minimum, maximum, ...])

开启自适应

call_async(f, *args, **kwargs)

在线程中以协程形式运行阻塞函数。

from_name(name)

创建一个此类实例,通过名称表示现有集群。

get_client()

返回集群的客户端

get_logs([cluster, scheduler, workers])

返回集群、调度器和工作进程的日志

get_tags()

生成要应用于所有资源的标签。

new_worker_spec()

返回下一个工作进程的名称和规范

scale([n, memory, cores])

将集群扩容到 n 个工作进程

scale_up([n, memory, cores])

将集群扩容到 n 个工作进程

sync(func, *args[, asynchronous, ...])

根据调用上下文同步或异步调用 func 并传入 args

wait_for_workers(n_workers[, timeout])

阻塞调用,等待 n 个工作进程就绪后继续

close

get_cloud_init

日志

render_cloud_init

render_process_cloud_init

scale_down