Nebius

Nebius¶

NebiusCluster([bootstrap, image_family, ...])

在 Nebius AI Cloud 实例上运行的集群。

概览¶

认证¶

在 Nebius 上创建集群之前，您必须配置您的认证凭据。您可以使用 nebius 命令行工具来完成此操作。

获取凭据后，将其添加到您的 Dask 配置中，位于

cloudprovider.nebius.token
cloudprovider.nebius.project_id

您可以通过以下任一方式指定这些值：

在您的 YAML 配置中包含环境变量 NB_IAM_TOKEN 和 NB_PROJECT_ID。

# ~/.config/dask/cloudprovider.yaml

cloudprovider:
  nebius:
      token: "your_iam_token"
      project_id: "your_project_id"

在您的 shell 中将它们导出为环境变量。

$ export DASK_CLOUDPROVIDER__NEBIUS__TOKEN=($nebius iam get-access-token)
$ export DASK_CLOUDPROVIDER__NEBIUS__PROJECT_ID="your_project_id"

Dask 配置¶

您可以更改 server_platform、server_preset 和 image_family 的配置。所有可用平台和预设的列表，可以在 Nebius 文档中找到。

class dask_cloudprovider.nebius.NebiusCluster(bootstrap: str = None, image_family: str = None, project_id: str = None, disk_size: int = None, server_platform: str = None, server_preset: str = None, docker_image: str = None, debug: bool = False, **kwargs)[source]¶

在 Nebius AI Cloud 实例上运行的集群。

Nebius AI Cloud 中的 VM 被称为实例。此集群管理器可在 VM 上构建并运行 Dask 集群。

配置集群时，您可能会发现安装 nebius 工具来查询 Nebius API 获取可用选项很有用。

https://docs.nebius.com/cli/quickstart

参数

image_family: str: 用于主机 OS 的镜像。这应该是一个 Ubuntu 变体。您可以在此处找到可用镜像列表 https://docs.nebius.com/compute/storage/manage#parameters-boot。
project_id: str: Nebius AI Cloud 项目 ID。您可以在 Nebius AI Cloud 控制台中找到。
server_platform: str: 此处列出了所有平台和预设 https://docs.nebius.com/compute/virtual-machines/types/。
server_preset: str: 此处列出了所有平台和预设 https://docs.nebius.com/compute/virtual-machines/types/。
n_workers: int: 用于初始化集群的工作进程数。默认为 0。
worker_module: str: 为工作进程运行的 Python 模块。默认为 distributed.cli.dask_worker
worker_options: dict: 要传递给工作进程类的参数。请参阅 distributed.worker.Worker 了解默认工作进程类。如果您设置了 worker_module，则请参阅自定义工作进程类的文档字符串。
scheduler_options: dict: 要传递给调度器类的参数。请参阅 distributed.scheduler.Scheduler。
env_vars: dict: 要传递给工作进程的环境变量。
extra_bootstrap: list[str] (optional): 在引导阶段要运行的额外命令。

属性

异步: 我们是否在事件循环中运行？
自动关闭
引导
从正在运行的循环中调用
命令
仪表板链接
docker 镜像
gpu 实例
循环
名称
观察到的
计划
请求的
调度器地址
调度器类
工作进程类

方法

`adapt`([Adaptive, minimum, maximum, ...])	开启自适应
`call_async`(f, args, *kwargs)	在线程中以协程形式运行阻塞函数。
`from_name`(name)	创建一个此类实例，通过名称表示现有集群。
`get_client`()	返回集群的客户端
`get_logs`([cluster, scheduler, workers])	返回集群、调度器和工作进程的日志
`get_tags`()	生成要应用于所有资源的标签。
`new_worker_spec`()	返回下一个工作进程的名称和规范
`scale`([n, memory, cores])	将集群扩容到 n 个工作进程
`scale_up`([n, memory, cores])	将集群扩容到 n 个工作进程
`sync`(func, *args[, asynchronous, ...])	根据调用上下文同步或异步调用 func 并传入 args
`wait_for_workers`(n_workers[, timeout])	阻塞调用，等待 n 个工作进程就绪后继续

close
get_cloud_init
日志
render_cloud_init
render_process_cloud_init
scale_down

Openstack

故障排除

Dask 云提供商 2024.9.1+4.g7c0354d 文档

Nebius

目录

Nebius¶

概览¶

认证¶

Dask 配置¶