A alta letalidade e infecciosidade dos coronavírus, particularmente o SARS-CoV-2, representam uma ameaça significativa para a sociedade humana. Compreender o coronavírus, especialmente as interações entre esses vírus e os humanos, é crucial para mitigar a pandemia do coronavírus. Neste estudo, conduzimos uma comparação e avaliação abrangente de cinco métodos computacionais predominantes: mapeamento interológico, metodologia de interação domínio-domínio, metodologia de interação domínio-motivo, abordagens baseadas em estrutura e técnicas de aprendizado de máquina. Esses métodos foram avaliados usando conjuntos de dados imparciais que incluem conjuntos de teste C1, C2h, C2v e C3. Por fim, integramos essas cinco metodologias em um modelo unificado para prever interações proteína-proteína (PPIs) entre coronavírus e proteínas humanas. Nosso modelo final demonstra um desempenho relativamente melhor, particularmente com os conjuntos de teste C2v e C3, que são conjuntos de dados frequentemente usados em aplicações práticas. Com base nesse modelo, estabelecemos ainda uma rede PPI de alta confiança entre coronavírus e humanos, consistindo em 18.012 interações entre 3843 proteínas humanas e 129 proteínas do coronavírus. A confiabilidade de nossas previsões foi ainda mais validada por meio da estrutura de conhecimento atual e da análise de rede. Prevê-se que este estudo aprimore a compreensão mecanicista da relação humano-coronavírus e, ao mesmo tempo, facilite a redescoberta de vários medicamentos antivirais. Os códigos-fonte e os conjuntos de dados estão acessíveis em https://github.com/covhppilab/CoVHPPI.
Palavras-chave: coronavírus ; aprendizado de máquina; métodos de predição; interação proteína-proteína; biologia de sistemas; interação vírus-humano.