Nebius
目录
Nebius¶
|
在 Nebius AI Cloud 实例上运行的集群。 |
概览¶
认证¶
在 Nebius 上创建集群之前,您必须配置您的认证凭据。您可以使用 nebius 命令行工具来完成此操作。
获取凭据后,将其添加到您的 Dask 配置中,位于
cloudprovider.nebius.token
cloudprovider.nebius.project_id
您可以通过以下任一方式指定这些值:
在您的 YAML 配置中包含环境变量 NB_IAM_TOKEN 和 NB_PROJECT_ID。
# ~/.config/dask/cloudprovider.yaml cloudprovider: nebius: token: "your_iam_token" project_id: "your_project_id"
在您的 shell 中将它们导出为环境变量。
$ export DASK_CLOUDPROVIDER__NEBIUS__TOKEN=($nebius iam get-access-token) $ export DASK_CLOUDPROVIDER__NEBIUS__PROJECT_ID="your_project_id"
Dask 配置¶
您可以更改 server_platform
、server_preset
和 image_family
的配置。所有可用平台和预设的列表,可以在 Nebius 文档 中找到。
- class dask_cloudprovider.nebius.NebiusCluster(bootstrap: str = None, image_family: str = None, project_id: str = None, disk_size: int = None, server_platform: str = None, server_preset: str = None, docker_image: str = None, debug: bool = False, **kwargs)[source]¶
在 Nebius AI Cloud 实例上运行的集群。
Nebius AI Cloud 中的 VM 被称为实例。此集群管理器可在 VM 上构建并运行 Dask 集群。
配置集群时,您可能会发现安装
nebius
工具来查询 Nebius API 获取可用选项很有用。https://docs.nebius.com/cli/quickstart
- 参数
- image_family: str
用于主机 OS 的镜像。这应该是一个 Ubuntu 变体。您可以在此处找到可用镜像列表 https://docs.nebius.com/compute/storage/manage#parameters-boot。
- project_id: str
Nebius AI Cloud 项目 ID。您可以在 Nebius AI Cloud 控制台中找到。
- server_platform: str
此处列出了所有平台和预设 https://docs.nebius.com/compute/virtual-machines/types/。
- server_preset: str
此处列出了所有平台和预设 https://docs.nebius.com/compute/virtual-machines/types/。
- n_workers: int
用于初始化集群的工作进程数。默认为
0
。- worker_module: str
为工作进程运行的 Python 模块。默认为
distributed.cli.dask_worker
- worker_options: dict
要传递给工作进程类的参数。请参阅
distributed.worker.Worker
了解默认工作进程类。如果您设置了worker_module
,则请参阅自定义工作进程类的文档字符串。- scheduler_options: dict
要传递给调度器类的参数。请参阅
distributed.scheduler.Scheduler
。- env_vars: dict
要传递给工作进程的环境变量。
- extra_bootstrap: list[str] (optional)
在引导阶段要运行的额外命令。
- 属性
异步
我们是否在事件循环中运行?
- 自动关闭
- 引导
- 从正在运行的循环中调用
- 命令
- 仪表板链接
- docker 镜像
- gpu 实例
- 循环
- 名称
- 观察到的
- 计划
- 请求的
- 调度器地址
- 调度器类
- 工作进程类
方法
adapt
([Adaptive, minimum, maximum, ...])开启自适应
call_async
(f, *args, **kwargs)在线程中以协程形式运行阻塞函数。
from_name
(name)创建一个此类实例,通过名称表示现有集群。
get_client
()返回集群的客户端
get_logs
([cluster, scheduler, workers])返回集群、调度器和工作进程的日志
get_tags
()生成要应用于所有资源的标签。
new_worker_spec
()返回下一个工作进程的名称和规范
scale
([n, memory, cores])将集群扩容到 n 个工作进程
scale_up
([n, memory, cores])将集群扩容到 n 个工作进程
sync
(func, *args[, asynchronous, ...])根据调用上下文同步或异步调用 func 并传入 args
wait_for_workers
(n_workers[, timeout])阻塞调用,等待 n 个工作进程就绪后继续
close
get_cloud_init
日志
render_cloud_init
render_process_cloud_init
scale_down