EKS Managed Node GroupでSpot Instancesを使う
Amazon EKSのManaged Node Groupsがスポットインスタンスに対応しました。
これまでManaged Node Groupsではオンデマンドしか利用できず、スポットを利用するには自分でAuto Scaling Groups(mixed instance types)を管理する必要がありました。今回のアップデートで簡単にスポットが利用できるようになりました。
設計で気にする点
元記事から重要と思われる点を挙げてみます。
Allocation strategy
まず、スポットインスタンスはなるべく複数のAZやインスタンスタイプに分散して配置されます。ASGでmixed instance typesを利用する場合は lowest-price と capacity-optimized が選べますが、MNGでは capacity-optimized に固定されています。両者の違いは以下です。
具体例は以下の記事が分かりやすいです。
なるべく多くのAZとインスタンスタイプを指定しておくことで、スポット価格が高騰してインスタンスが上がらない確率が低くなります。
Cluster Autoscalerとの併用
Cluster Autoscalerを利用する場合、Cluster Autoscalerが必要台数を正しく計算できるように、MNGには同じCPU数と同じメモリ量のインスタンスタイプを指定する必要があります。これはASGでmixed instance typesを利用する時と同じですね。
Cluster Autoscalerのドキュメントにも記載されています。
ノード停止時の振る舞い
ASGでスポットを利用する場合はaws-node-termination-handlerを入れる必要がありましたが、MNGでは不要です。もともとMNGではEC2インスタンスの停止時にdrainが実行されますが、スポットの停止通知にも対応したことになります。
また、ASGのcapacity rebalance機能でなるべく多くのAZやインスタンスタイプをカバーするように動的に再配置されます。 これはスポットの場合のみ有効になるようです。 詳しくは以下の記事が参考になります。
(2023-01-27 追記) ASG の rebalance 機能はスポットに限らずオンデマンドインスタンスでも有効のようです。ASG のイベントに以下が出ている場合は rebalance が原因です。MNG を AZ 単位に分割すると改善が期待できます。
instances were launched to balance instances in zones ap-northeast-1a with other zones resulting in more than desired number of instances in the group.
Launch Templateとの併用
10月のアップデートでMNGでLaunch Templateが利用できるようになりました。Launch Templateでは1種類のインスタンスタイプしか指定できませんが、MNGでは複数のインスタンスタイプを指定できます。スポットを利用する場合は複数のインスタンスタイプを指定することが望ましいので、基本的にMNGで定義することになると思います。以下のドキュメントに記載があります。
Terraformの実装例
Terraform AWS provider v3.19.0からMNGのスポットに対応しています。
ENHANCEMENTS
- resource/aws_eks_node_group: Add capacity_type argument and support multiple instance_types (Support Spot Node Groups) (#16510)
https://github.com/hashicorp/terraform-provider-aws/releases/tag/v3.19.0
aws_eks_node_group
リソースに capacity_type
という属性が増えています。デフォルトは ON_DEMAND
になっているので、 SPOT
を指定します。
resource "aws_eks_node_group" "default" { cluster_name = aws_eks_cluster.example.name node_group_name = "default" node_role_arn = aws_iam_role.example.arn subnet_ids = local.private_subnet_ids capacity_type = "SPOT" instance_types = [ # 4 vCPU and 32 GiB "r5.xlarge", "r5a.xlarge", "r5n.xlarge", "r5d.xlarge", "r5ad.xlarge", "r5dn.xlarge", ] }
なお、EKSクラスタがすでにあってTerraform AWS providerをv3.19.0にバージョンアップすると capacity_type
の差分が出てしまう場合があります。私の環境ではEKS 1.15のクラスタで差分が出てしまいました。その場合はignore changesに指定すれば差分が無視されるようになります。
resource "aws_eks_node_group" "default" { lifecycle { ignore_changes = [ # 既存クラスタでcapacity_typeの差分が出る場合 capacity_type, ] } }
既存のクラスタで capacity_type
を SPOT
に切り替える場合は、MNGが再作成されてしまうので注意が必要です。MNGが削除されるタイミングでMNG内の全ノードが停止します。
その他
12月のEKSアップデートでは、Management Consoleにノードやワークロードの一覧が確認できる画面が追加されていました。また、Management Consoleからアドオンをデプロイできるようです。この辺はGKEを意識した機能追加な感じがします。EKSはまだまだ伸び代があって継続的に進化しているので面白いですね。
AWS SSOでサードパーティツールを実行する
AWS SSOを利用すると、IAM Access KeyやIAM Secret Access Keyの代わりにブラウザベースの認証を利用してAWS APIにアクセスできます。一方で、AWS SSOに対応しているものはAWS CLI v2ぐらいしかなく、Terraformなどのサードパーティツールはそのままでは使えません。そのため、AWS SSOでサードパーティツールを利用するためのヘルパーツールがいくつか公開されています。例えば aws2-wrap などがあります。
本稿では、AWS SSOやSTSの仕組みを理解するため、手動でShort-term credentialsを取得してサードパーティツールを実行する方法を紹介します。
AWS SSOはすでに設定済みである前提とします。参考までに、AWS SSOの設定例として公式ブログにある How to use G Suite as an external identity provider for AWS SSO を挙げておきます。
Short-term credentialsの取得
SSOセッションが切れている場合は再ログインします。例えば、G Suiteと連携している場合はブラウザでGoogleのログイン画面が表示されます。
% aws s3 ls The SSO session associated with this profile has expired or is otherwise invalid. To refresh this SSO session run aws sso login with the corresponding profile. % aws sso login Attempting to automatically open the SSO authorization page in your default browser. If the browser does not open or you wish to use a different device to authorize this request, open the following URL: https://device.sso.ap-northeast-1.amazonaws.com/ ...
まず ~/.aws/config
の内容を確認します。ここにはAWS SSOでログインするための設定が格納されています。
[profile example] sso_start_url = https://d-********.awsapps.com/start sso_region = ap-northeast-1 sso_account_id = ******** sso_role_name = PowerUserAccess
~/.aws/sso/cache
にあるキャッシュファイルの内容を確認します。ここにはSSOログイン時に取得したアクセストークンが格納されています。
{"startUrl": "https://d-********.awsapps.com/start", "region": "ap-northeast-1", "accessToken": "ey********", "expiresAt": "2020-09-09T22:43:10UTC"}
必要な情報が揃ったら get-role-credentials
コマンドを実行します。以下の引数が必要です。
- --role-name:
~/.aws/config
のsso_role_name
を指定します。これはログイン時に選択したロール名になります。 - --region:
~/.aws/config
のsso_region
を指定します。これはAWS SSOを有効にしたリージョンになります。 - --account-id:
~/.aws/config
のsso_account_id
を指定します。これはログイン先のAWSアカウントになります。 - --access-token:
~/.aws/sso/cache
にあるキャッシュファイルからaccessToken
の値を指定します。
get-role-credentials
コマンドを実行すると、以下のような出力が得られます。
% aws sso get-role-credentials --role-name PowerUserAccess --region ap-northeast-1 --account-id ******** --access-token "ey********" { "roleCredentials": { "accessKeyId": "********", "secretAccessKey": "********", "sessionToken": "********", "expiration": 1599667863000 } }
上記で表示されている情報が Short-term credentials になります。
環境変数の設定とコマンドの実行
前項のコマンドで取得した情報を以下の環境変数に設定します。
% export AWS_ACCESS_KEY_ID=******** % export AWS_SECRET_ACCESS_KEY=******** % export AWS_SESSION_TOKEN=********
環境変数を設定した状態でTerraformを実行してみましょう。AWS APIの呼び出しに成功するはずです。
% terraform apply
CircleCIのmacOSビルドをOSSで利用する
kubelogin というKubernetes向けのツールをOSSで開発しているのですが、Goのビルド条件によって動作が異なる問題 *1 が出てきて、macOSでビルドを実行する必要が出てきました。ちょうど下記の記事でCircleCIがOSS向けにmacOSをサポートしていることを知りました。
CircleCIにメールで問い合わせたところ、すぐにOSS向けのmacOSビルドを有効にしてもらえました。先ほどの問題も無事に解決しました。ありがとうございます!
OSS向けのmacOSビルドを有効にするにはCircleCIのFreeプランが適用されている必要があります。私の場合はGitHub Marketplaceのプランになっていたため、GitHub Marketplace上でプランを解約したらCircleCIがFreeプランに戻りました。
CircleCIでmacOS executorを利用するのはとても簡単で、ジョブの設定を docker
から macos
に変更するだけです。今回はGoのビルドでDocker executorとmacOS executorを併用しているので、以下の点にハマりました。
- macOS executorでは自分でGoをダウンロードして配置する必要があります。Homebrewも利用できますが、ソースコードからビルドになるので時間がかかるので、ビルド済みパッケージを配置する方が時間が短くなると思います。
$GOPATH/pkg
をキャッシュしている場合はDockerとmacOSで別々にする必要があります。Docker executorで作成されたtar ballをmacOS executorで展開しようとするとエラーになります。(Go 1.14.4で確認)
$CIRCLE_BRANCH
などの環境変数はmacOS executorでも同じように使えます。
GitHub ActionsもmacOSビルドをサポートしており、こちらは問い合わせしなくても使えるのですが、今回はこれまでのビルドスクリプトをそのまま利用したかったためCircleCIを選択しました。