ML Engineer (Infra)

Seoul March 20, 2026 Custom Toss Careers Portal (Recruit.toss.im / Toss.im/careers)

Resume Keywords to Include

These skills appear in the job listing. Include them in your resume if they match your experience.

머신러닝,ML Engineer,Kubernetes,infra Infra Machine Learning Engineer Yes

합류하게 될 팀에 대해 알려드려요

  • 토스증권 ML Engineer(Infra)는 Product Division 내 ML Platform Team에 속해 있어요.
  • ML Platform Team의 목표는 토스증권의 다양한 AI/ML 서비스들을 효율적이고 안정적으로 개발하고 운영할 수 있는 최적의 머신러닝 플랫폼을 만드는 거예요.
  • ML Engineer(Infra)는 팀 내에서 대규모 AI 인프라의 효율성을 극대화하고 리소스 사용을 정교하게 제어하며, 인프라 성능을 최대까지 끌어올리는 고도화 작업에 집중할 예정이에요.

 

합류하면 함께 할 업무에요

  • ☑️ 초고성능 AI 컴퓨팅 환경을 안정적으로 설계 및 운영해요.
    • InfiniBand로 연결된 H100, B300 시리즈 등 최고 사양의 GPU 클러스터와 400Gbps급 고성능 스토리지를 쿠버네티스 환경에서 설계 및 운영해요.
    • 단순히 인프라를 구축하는 것을 넘어, 하드웨어 성능을 끝까지 끌어낼 수 있도록 네트워크와 스토리지를 최적화해요.

  • ☑️ AI 인프라 전체를 한눈에 보고 제어하는 시스템을 만들어요.
    • 사내 인프라와 외부 클라우드에 분산된 AI 자원 현황을 통합해서 볼 수 있는 관측 시스템을 구축해요.
    • 특정 서비스가 자원을 독점하지 않도록 제어하고, 중요도에 따라 리소스를 정교하게 할당하는 관리 기능을 개발해요.

  • ☑️ 가장 효율적인 리소스 사용을 위한 자동화 도구를 개발해요.
    • 사용자들이 무심코 낭비하는 자원이 없도록, 실제 사용 패턴을 분석해 ‘딱 맞는 리소스’를 추천해 주는 도구를 만들어요.
    • 모델의 실시간 성능이나 에러율을 감지해 자동으로 규모를 늘리거나 줄이고, 필요한 곳에 GPU를 재배치하는 기능을 구현해요.

  • ☑️ 모델 성능의 병목을 찾아 해결하는 환경을 조성해요.
    • 모델 학습이나 서빙 중에 속도가 느려지는 구간이 어디인지 정확히 찾아낼 수 있는 프로파일링 환경을 구축해요.
    • 하드웨어와 소프트웨어 사이에서 발생하는 성능 저하 원인을 분석하고 개선할 수 있도록 지원해요.

 

이런 분과 함께하고 싶어요

  • 대규모 트래픽을 처리하는 쿠버네티스 기반 ML 인프라를 구축하고 운영해 본 경험이 필요해요.
  • 단순 개발을 넘어, 실제 라이브 서비스를 안정적으로 운영하는 데에 책임감을 느끼는 분이 필요해요.
  • 장애가 발생했을 때 근본 원인을 끈기 있게 분석하고 디버깅하여 해결해 본 경험이 필요해요.
  • 시스템 리소스(GPU/CPU/Memory/Network/Storage)의 동작 원리를 잘 이해하고 있고, 이를 모니터링할 수 있는 시스템을 구축해 본 경험이 필요해요.
  • 서비스 운영 중 발생하는 다양한 문제들을 해결하며, 시스템을 더 견고하게 발전시키는 과정에 가치를 두시는 분이 필요해요.

 

이런 경험이 있다면 더 좋아요 

  • 대규모 클러스터의 자원 사용 현황을 통합 관측해 본 경험이 있으면 좋아요.
  • Quota 및 Rate Limit 등을 통해 리소스를 체계적으로 제어하는 시스템을 구축해 본 경험이 있으면 좋아요.
  • Kubeflow나 Kubernetes 등 오픈 소스 플랫폼의 내부 코드를 깊이 파악하고, 필요에 따라 직접 수정해서 사용해 본 경험이 있으면 좋아요.
  • Nsight Systems/Compute, PyTorch Profiler 같은 전문 도구를 사용해 커널 레벨에서 병목을 분석하고 최적화해 본 경험이 있으면 좋아요.
  • 워크로드 특성에 맞춰 비용을 아끼거나 성능을 높이는 업무(Rightsizing, Cost Optimization)를 직접 설계해 본 경험이 있으면 좋아요.
  • MIG, MPS 같은 GPU 가상화 기술을 도입해 자원 활용률을 극한으로 높여 본 경험이 있으면 좋아요.

 

이력서는 이렇게 작성하시는 걸 추천해요

  • 임팩트 있었던 업무/프로젝트와 그 결과(특히 효율 개선, 성능 최적화 수치 등)에 대해 구체적으로 적어주세요.
  • 기술적으로 외부 공개가 민감한 사항일 경우, 해당 부분은 제외해 주세요.
  • 해결한 문제들에 대해 어떤 방법론들을 어떤 이유로 적용했는지 자세히 적어주세요.

 

토스증권에서 사용하는 기술

  • Infrastructure: Kubernetes, Kubeflow, Argo CD, Helm
  • Cloud & Compute: AWS, Azure, H100/B300 GPU Cluster, Infiniband, NVLink, High-Performance Storage (400Gbps)
  • Serving & Optimization: vLLM, SGLang
  • Observability & Data: Prometheus, Grafana, Elasticsearch, Kafka, DCGM, Nsight
  • Languages: Python 

 

토스증권으로의 합류여정

  • 서류접수 >  직무 인터뷰 > 문화적합성 인터뷰 > 레퍼런스 체크 > 처우협의 > 최종합격 및 입사

 

꼭 확인해 주세요

  • 이력서 및 제출 서류에 허위 사실이 발견되거나 근무 이력 중 징계사항이 확인될 경우, 채용이 취소될 수 있어요.
  • 토스증권 내규에 따라 채용 금지자 또는 결격사유 해당자는 채용이 취소될 수 있어요.
  • 장애인 및 국가보훈대상자는 지원 시 관련법에 따라 우대하고 있어요.

 

함께 할 동료를 위한 한마디

"AI 인프라의 효율과 성능을 극한으로 끌어올릴 동료를 찾고 있어요"

  • 토스증권은 이미 B300 등 최고의 리소스를 확보하고, 수많은 AI 서비스를 라이브로 운영하고 있는 조직이에요. 이제 우리는 '문제없이 돌아가는' 시스템을 넘어, '가장 효율적이고 빠른' 시스템을 만드는 단계로의 도약을 준비하고 있어요.
  • 폭발하는 AI 수요를 감당하면서도 인프라 효율을 획기적으로 개선하고, 보이지 않는 병목까지 집요하게 찾아내 최적화하는 도전적인 과제들이 여러분을 기다리고 있어요. 대규모 클러스터의 현황을 한눈에 파악하고, 기술적 한계를 넘어 최고의 성능을 만들어내는 짜릿한 경험을 원하신다면 지금 바로 토스증권에 합류하세요!

 

Apply on company site

How to Get Hired at Toss Bank

  • Toss Bank is South Korea's third internet-only bank, launched October 2021, operating under Viva Republica alongside Toss, Toss Securities, Toss Insurance, Toss Place, and Toss CX.
  • The parent Viva Republica is pre-IPO and has targeted a US NYSE listing after cancelling a 2022 KOSPI attempt; equity compensation is in the private parent and its value is timing-dependent.
Read the full guide

How well do you match this role?

Check My Resume