Site Reliability Engineer

Amiri Recruiting

Mountain View, CA, USA

Published: 6/14/2022

Technology

Full Time

Job DescriptionSite Reliability EngineerOnsite- Bay Area, CA

Skills

Relevant Skills and Experience

What You’ll Do (Day-to-Day)

Own and manage our cloud infrastructure (GCP or AWS, on-prem).
Build, maintain, and optimize Kubernetes clusters (including GPU-backed clusters).
Implement and improve CI/CD pipelines (GitHub Actions).
Write and maintain Infrastructure as Code (Terraform).
Monitor system health and performance using Grafana and other observability tools.
Ensure high availability, reliability, and uptime across platforms.
Handle infrastructure maintenance, upgrades, and scaling.
Administer and improve our platform architecture and apply general security best practices across the stack.

Note: This is an internal-facing role — no customer interaction.

Must-Have:

Nice-to-Have: