J Cheminform. 2026 Fev 9;18(1):20. doi: 10.1186/s13321-025-01149-3.
RESUMO
Propomos que os word embeddings de átomos derivados da literatura científica sejam revistos como preditores de aprendizado de máquina autônomos no design de materiais. Se os word embeddings estáticos codificam informações fisicoquímicas abrangentes, os embeddings unidos dos elementos químicos que compõem um composto químico representam uma fonte viável de conhecimento fisicoquímico. No entanto, os word embeddings estáticos são suscetíveis à variabilidade devido à heterogeneidade da informação dentro do material de treinamento. Analisamos se a variabilidade ocorre em embeddings afiliados a entidades fisicoquímicas, incluindo átomos explícitos, e se ela afeta as informações especializadas do domínio assim codificadas ou inibe a transferência de informação. Os resultados demonstram a variabilidade substancial nos embeddings atômicos individuais, que é altamente dependente dos termos de vocabulário selecionados para modelagem de linguagem. No entanto, a variabilidade não obstrui o mapeamento de preditores compostos de materiais em propriedades fisicoquímicas quando os embeddings atômicos unidos são implementados dentro de um modelo de regressão estimando a estabilidade do composto ao prever sua energia de formação. Além disso, as informações codificadas e o desempenho preditivo dos modelos mantiveram estabilidade após a calibração do vetor de composto por meio da redução dimensional. Contribuição Científica: A magnitude da variabilidade nos embeddings de palavras de entidades fisicoquímicas, incluindo elementos químicos, ocorrendo devido à heterogeneidade da informação no material de treinamento complementar da literatura científica de ciência de materiais, química e física foi observada e quantificada. A pesquisa mostra que a notável variabilidade das representações vetoriais dos elementos químicos não obstrui as propriedades estatísticas subjacentes, nem inibe a transferência de informação. De acordo com isso, independentemente de sua origem, os embeddings atômicos conju..
…
41664166 | DOI:10.1186/s13321-025-01149-3
Para ler a postagem completa, visite o original: Leia a Postagem Completa
Respostas