
这个岗位的角色是将系统的可靠性和安全性引领至最高水准。
公司重视的不仅仅是要减少故障,更重要的是在故障发生时如何能够尽快发现、尽快分类、尽快恢复。这个岗位的目标是通过对这一系列流程中的人工介入部分进行自动化,持续削减运维工时。
目前正在实施的业务包括:监控和可观测性方面,使用Datadog对各服务器进行监控,进行SLI和SLO的改善,以及使用Sentry发送告警和进行日志监控;安全应对方面,负责基础设施层的脆弱性应对、应用层的脆弱性应对,以及为获取ISO27017认证进行安全强化;开发效率化方面,进行CI/CD的优化。
今后希望新负责的业务包括:在大规模高负载基础设施的进化方面,负责实时语音处理基盘的架构改善和可扩展性提升,主导以高可用性和耐故障性为前提的系统设计,以及制定能够应对同时连接数急剧增加的容量规划和自动伸缩设计;在SLA管理体制的构建方面,建立面向企业客户的SLA定义和监控机制,构建月度SLA报告的自动生成管道;在故障应对流程的建立方面,构建在线值班体制,进行故障复盘并推动改善活动;在语音AI特有的监控强化方面,对LLM和语音品质指标进行监控设计,以及通话品质劣化的早期检测和告警设计;在基础设施和应用层的成本优化方面,包括GPU实例在内的资源使用状况的可视化,以及通过资源使用状况的可视化进行合理规格调整。
在必须技能方面,首先是大规模系统的设计和运用,要求拥有大规模生产环境的设计、构建和运维经验达到3年以上,有考虑高可用性和耐故障性的架构设计实务经验,有主导过从故障检测到恢复的一整套事件应对的经验。在云基础设施方面,要求有AWS的运维经验3年以上,包括EC2、ECS或EKS、RDS等,以及有IaC工具的实务经验,如Terraform或CloudFormation。在监控和可观测性方面,要求有监控和可观测性工具的运用经验,如Datadog、Prometheus、Grafana等,以及有日志分析和分布式追踪的实装经验。在自动化和脚本编写方面,要求有使用Python、Go、Bash等的自动化经验,以及有CI/CD管道的构建和改善经验。在软技能方面,要求有事件应对经验,如有在线值班经验更佳,有SLI和SLO的制定与改善实务经验,以及有与开发团队协作的经验。
欢迎技能包括:有实时通信基盘的构建和运维经验,如音视频配信、直播流等;有在容器环境上运行GPU工作负载的运维经验,如ECS或EKS;有多云环境的运维经验,如AWS加阿里云等。
此外,还需要能够共鸣公司所珍视的三个价值观。第一个是“Output大于期待”,即以压倒性的努力和专注快速应对事物,持续推动改善循环,追求速度与品质的兼顾,始终输出超出期待的结果。第二个是“团队优先”,即每个人作为团队的一员持有高度的专业意识,以团队整体创造最高价值为目标,不以个人最优而以团队最优为思考,主动进行必要的协调、支援和拉拢,最大化团队成果。第三个是“持续反馈”,即不是为了搞好关系而是为了成果认真面对、坦诚碰撞,不放置违和感,在互相珍视诚实与尊重的同时注意表达方式并给予反馈,相信持续不断的反馈是打磨创意、产品和组织的最短路径。
语言方面需要日语商务会话以上,N1必须,英语不问。学历要求本科以上,工作经验必须,试用期为6个月且条件不变。
工作地点在半藏门的WeWork,推荐出勤但部分远程工作也可。工作体系以实际工作8小时为基础,可根据自身裁量决定。试用期为6个月,条件不变。
年薪制,600万到1000万日元,专家级别为1000万日元以上。根据前职薪资水平、技能等级等综合决定报酬。有升薪,原则上一年一次,根据本人贡献及公司业绩决定。有股票期权制度,目前处于讨论中。
各种社会保险完备。工作时间和休假可以根据个人裁量取得,采用弹性工作制,休假自由。工作环境方面,入驻WeWork,集中工位、会议室等设备充实,提供MacBook Pro和外接显示器,可使用Aeron Chair等高品质办公椅,可使用Amazon Business账户购买书籍和办公用品。生产力提升支持方面,提供Claude Code、Cursor、Devin等开发工具,还有AI工具使用补贴每月最高3万日元。
首先是书面审核,然后进行在线一次面试,接着是线下面试,根据情况可能会先进行试岗,详情会在面试中告知,最后内定。以上流程根据候选人的选考情况有调整的可能性。
这家公司是一家语音AI公司,正在用AI重新定义呼叫中心产业。他们从零开始自研语音识别、语音合成、对话控制模型,让AI完成电话的接听、拨打电话以及业务处理,构建以AI为前提的全新呼叫中心形态。公司员工九成是工程师,是技术主导型组织。这是一个在急速成长中的初创企业环境。