Call Leader (Incident Commander - Lt Sre) - Middle - Remoto

Detalles de la oferta

Empleado de tiempo completo Descripción Completa del Cargo: Call Leader (Incident Commander - LT SRE) El Call Leader o Comandante de Incidentes es el líder responsable de coordinar la respuesta a incidentes de alto impacto en Nequi. Este rol es fundamental para garantizar que los sistemas de producción mantengan su disponibilidad y estabilidad, minimizando el tiempo de afectación en los usuarios y reduciendo el impacto en el negocio. A continuación, se detalla cada una de sus responsabilidades, competencias y restricciones en el ejercicio de sus funciones. 1. Responsabilidades Principales a) Liderazgo en Incidentes Inicio de la Llamada : El Call Leader se presenta al inicio de la llamada, especificando su rol y confirmando la participación de los equipos involucrados, tales como Ingeniería, Seguridad, Operaciones y Atención al Cliente. Establecimiento del Objetivo : Define y comunica claramente el objetivo de la llamada, que es resolver el incidente lo más rápido posible y determinar la causa raíz. Manejo del Foco en la Resolución : Dirige a todos los involucrados para que se concentren exclusivamente en la resolución del incidente, evitando distracciones y temas no relacionados. Ejecución de Protocolos : Utiliza el Playbook y Runbook establecidos, asegurando que todos los procedimientos de respuesta al incidente se sigan correctamente. b) Asignación y Seguimiento de Tareas Distribución de Tareas : Asigna tareas específicas a cada miembro del equipo, basándose en su experiencia y conocimientos técnicos. Por ejemplo, un experto en bases de datos podría revisar logs, mientras que el equipo de seguridad podría realizar un análisis de amenazas. Monitoreo del Progreso : Establece tiempos específicos para cada tarea asignada y monitorea los resultados a medida que avanzan en la resolución. Documentación del Incidente : Se asegura de que cada etapa del incidente quede documentada en herramientas como Jira y que los logs de comunicación en OpsGenie se actualicen en tiempo real. c) Análisis y Toma de Decisiones Identificación de la Causa Raíz : Guiar al equipo en la recolección y análisis de datos que permitan identificar la causa raíz del incidente. Análisis de Diagnóstico : Utiliza herramientas de visualización como Grafana o Dynatrace para monitorear patrones en tiempo real, evaluar el impacto del incidente y tomar decisiones informadas. Decisiones Basadas en Datos : Emite decisiones rápidas y fundamentadas en la evidencia para minimizar el impacto del incidente, priorizando siempre la disponibilidad del servicio. d) Comunicación y Escalamiento Actualización Continua a Involucrados : Brinda actualizaciones periódicas y detalladas a todos los equipos y stakeholders de alto nivel (como COO, directores y gerentes), para asegurar una comunicación clara y constante. Escalamiento del Incidente : En caso de que el incidente se complique o afecte a múltiples áreas, el Call Leader tiene la autoridad para escalar la situación a niveles superiores, incluyendo la notificación a la alta gerencia o solicitando recursos adicionales. Canales de Comunicación : Utiliza Teams y OpsGenie como plataformas para coordinar la llamada y realizar actualizaciones, además de emplear Status Page para informar el estado del incidente a otros stakeholders. e) Postmortem y Cultura de Mejora Continua Conducción del Postmortem : Lidera el análisis post-incident, asegurándose de documentar de manera detallada las causas del problema, las acciones tomadas y las lecciones aprendidas. Facilita mesas de trabajo para examinar el incidente en profundidad. Promoción de la Mejora Continua : Evalúa los procesos de respuesta al incidente, identificando áreas de mejora para optimizar la práctica. Facilita la retroalimentación de los equipos y fomenta una cultura de aprendizaje que permita reducir la recurrencia de problemas. Indicadores y Métricas : Se encarga de analizar los KPIs asociados a la respuesta a incidentes y propone mejoras para incrementar la eficiencia de la gestión de incidentes. 2. Competencias y Habilidades Requeridas a) Habilidades Blandas Comunicación Efectiva : El Call Leader debe tener una comunicación clara, tanto verbal como escrita, capaz de transmitir instrucciones y actualizaciones de forma concisa, especialmente bajo presión. Toma de Decisiones bajo Presión : Capacidad para evaluar rápidamente diferentes opciones y tomar decisiones firmes y oportunas en situaciones de alta presión. Liderazgo y Autoridad : Tiene el carácter y liderazgo necesarios para tomar el control de la llamada, dirigiendo al equipo hacia la resolución del incidente. No teme imponer autoridad y mantener el orden, incluso cuando participen altos cargos. Pensamiento Crítico : Habilidad para analizar situaciones complejas, considerando múltiples variables y tomando decisiones informadas basadas en datos. Orientación al Cliente y Enfoque en la Resolución : Compromiso con la satisfacción del cliente y enfoque en la resolución efectiva del incidente para restaurar el servicio lo antes posible. b) Conocimientos Técnicos Familiaridad con la Infraestructura : Conocimiento básico de los sistemas y servicios de Nequi, incluyendo infraestructura en la nube (AWS), bases de datos, telecomunicaciones e integración. No se requiere experiencia técnica profunda, pero debe comprender el contexto de los sistemas involucrados. Dominio de Herramientas de Gestión de Incidentes : Experiencia con herramientas como OpsGenie para la coordinación de la respuesta y Jira para la documentación de las etapas del incidente. Capacitación en Prácticas SWAT : Debe estar familiarizado con los procesos de disponibilidad y las prácticas operativas de respuesta a incidentes en Nequi. 3. Actitudes y Comportamientos Esperados Resiliencia y Tolerancia a la Presión : Mantener la calma y concentración en situaciones estresantes, proporcionando liderazgo al equipo. Transparencia : Mantener informados a todos los participantes de la situación, brindando actualizaciones constantes y transparentes. Enfoque en la Resolución : Centrarse en el objetivo principal de resolver el incidente, evitando distracciones o desviaciones del plan de acción. Aprendizaje de los Errores : Utilizar cada incidente como una oportunidad de aprendizaje para mejorar continuamente los procesos y minimizar futuros problemas. 4. Limitaciones y Antipatrones del Rol a) Restricciones del Rol No Responde a Todas las Alertas : El Call Leader no tiene la obligación de ser el primer respondedor a cada alerta, pues existen equipos especializados que gestionan alertas iniciales. No es Solucionador Técnico Único : Aunque lidera la respuesta, el Call Leader no es responsable de solucionar todos los aspectos técnicos. Su rol es coordinar y delegar a los expertos necesarios. b) Antipatrones a Evitar Evitar Reuniones Masivas : No es necesario incluir a todo el equipo en la llamada; se deben convocar únicamente a los expertos necesarios para evitar sobrecargar la comunicación. Respetar el Tiempo de los Participantes : Permitir que los participantes abandonen la llamada cuando su rol ya no sea necesario. Evitar Actualizaciones Excesivas : Proporcionar actualizaciones en momentos estratégicos, evitando interrupciones innecesarias. Evitar el Heroísmo : Fomentar la delegación y confianza en el equipo, evitando asumir toda la responsabilidad de resolución. Protocolo de Comunicación Inicio de la Llamada : Presentación: "Este es (Nombre), soy el Call Leader para esta llamada." Objetivo: "El objetivo de esta llamada es restablecer el servicio y minimizar el impacto." Participantes: Confirmar la presencia de los equipos necesarios. Situación Actual : Descripción: "Tenemos un incidente de (Tipo) que afecta a (Áreas)." Impacto: "El impacto actual es (descripción del impacto)." Causa raíz (si se conoce): "La causa preliminar es..." Asignación de Tareas y Actualizaciones Periódicas : Designar tareas específicas y establecer tiempos de reporte. Proveer actualizaciones cada 15-30 minutos, según se requiera. Cierre de la Llamada : Confirmación de resolución: "El incidente ha sido resuelto. La causa raíz fue..." Agradecimientos y acciones de seguimiento: "Gracias a todos; se realizará una revisión postmortem para analizar el incidente y documentar las lecciones aprendidas."#J-18808-Ljbffr


Salario Nominal: A convenir

Fuente: Whatjobs_Ppc

Requisitos

Qa Automation Engineer

Are you looking for challenges and a place where you can find a close working environment while constantly learning? We are a company with a clear purpose: "...


Sofka - Antioquia

Publicado a month ago

Delivery Manager - Remote Work

At BairesDev, we've been leading the way in technology projects for over 15 years. We deliver cutting-edge solutions to giants like Google and the most innov...


Bairesdev - Antioquia

Publicado a month ago

Manual Tester

Technology is our how. And people are our why. For over two decades, we have been harnessing technology to drive meaningful change. By combining world-class ...


Endava Limited - Antioquia

Publicado a month ago

Analista De Cumplimiento

En Grupo Réditos nos interesa tener gente con calidad humana que se contagien con la cultura de nuestra organización, personas recursivas, proactivas y apasi...


Grupo Réditos - Antioquia

Publicado a month ago

Built at: 2024-11-24T23:51:25.597Z