Antes de mais nada quero realçar que esta postagem não tem fins de instrução médica. O objetivo é tão somente analisar usando técnicas de Machine Learning um conjunto de dados de insuficiência cardíaca para prever a probabilidade de ocorrências de doenças cardíacas. Os dados utilizados foram obtidos neste link do site kaggle.
Usarei a técnica chamada árvore de decisão para estimar as chances de um indivíduo ter problemas cardíacos. Uma árvore de decisão é a representação na forma de árvore de um conjunto de caminhos de decisão e a associação de um resultado para cada caminho. Disponibilizo no github o link para o programa feito em python.
Os parâmetros usados para alimentar o modelo são baseados na idade, sexo, tipo de dor no peito, colesterol, pressão sanguínea em repouso, nível de açúcar no sangue em jejum, eletrocardiograma, máxima taxa de batimento cardíaco, presença (ou ausência) de dor no peito, entre outros parâmetros.

O gráfico acima mostra a quantidade de homens (letra M) e a quantidade de mulheres (letra F) no conjunto de dados. Há uma presença muito maior de homens do que de mulheres.

No gráfico acima é estratificado os dados da quantidade de homens e mulheres que tiveram (número 1) ou não (número 0) ataque cardíaco.
Foram coletados dados de 918 indivíduos cujas idades variam entre 28 e 77 anos. A idade média dos indivíduos é de 53 anos. Dentre os indivíduos, 496 não apresentaram sintomas (contra 422 que apresentaram).
A presença de doença cardíaca foi notada em 508 indivíduos (contra 410 que não adoeceram)
Abaixo está a matriz de correlação entre os parâmetros do estudo. No geral a correlação entre as variáveis é bastante fraca. Através desta matriz é possível ver, por exemplo, que a correlação entre a idade e máximo da frequência cardíaca é negativa, e portanto, o máximo de frequência cardíaca diminui com a idade.

Por fim, o modelo apresentou acertos em 84.35% dos casos. Com esse tipo de ferramenta os médicos podem estimar as condições de ocorrência de doenças cardíacas em pacientes. É possível também estimar os parâmetros mais significativos eliminando o custo e o tempo para a obtenção de dados.
Por fim, quero lembrar que essa postagem é meramente um exercício de programação e nenhum detalhe aqui mencionado substitui qualquer orientação médica.
Credito da imagem de capa: Photo by Karolina Grabowska from Pexels
Sugestão de leitura:






Deixe um comentário