Inteligencia artificial generativa: capacidades de Llama-3.1-70B-Instruct en las asignaturas Bioquímica y Metabolismo y nutrición

Carlos Javier Pérez Pérez; Felicia Pérez Moya; Ángela Rosa Herrera Trocones

Autores/as

Carlos Javier Pérez Pérez Universidad de Ciencias Médicas de Sancti Spíritus, Facultad de Ciencias Médicas “Dr. Faustino Pérez Hernández”. Sancti Spíritus. https://orcid.org/0000-0003-4413-7036
Felicia Pérez Moya Universidad de Ciencias Médicas de Sancti Spíritus, Facultad de Ciencias Médicas “Dr. Faustino Pérez Hernández”. Sancti Spíritus. https://orcid.org/0000-0002-5857-5910
Ángela Rosa Herrera Trocones Universidad de Ciencias Médicas de Sancti Spíritus, Facultad de Ciencias Médicas “Dr. Faustino Pérez Hernández”. Sancti Spíritus. https://orcid.org/0009-0000-3016-2017

Palabras clave:

ChatGPT, Educación Médica, Bioquímica, Metabolismo, Inteligencia artificial, Llama3

Resumen

Introducción: Estudios recientes han mostrado el potencial de los modelos de lenguaje de gran tamaño en la educación médica, sin embargo, existe poca información respecto a las capacidades de estos en las asignaturas Bioquímica, Metabolismo y Nutrición, especialmente en modelos de código abierto o distinto de ChatGPT.

Objetivo: Evaluar las capacidades del modelo de lenguaje de gran tamaño de código abierto Llama 3.1 70B-Instruct en las asignaturas Bioquímica, Metabolismo y Nutrición.

Material y Métodos: Se llevó a cabo un estudio observacional exploratorio de enfoque mixto, mediante dos grupos de evaluadores, uno de ellos ajeno a la investigación. Los investigadores evaluaron 264 preguntas, mientras los evaluadores externos examinaron una selección aleatorizada estratificada por temas de 72 preguntas. Se utilizó para dicho proceso una escala Likert de 5 puntos, RStudio como software de análisis estadístico y Zotero para la gestión de las fuentes de información.

Resultados: Ambos grupos de evaluación mostraron resultados similares, un consenso en la calificación de estos evaluó la herramienta con 4,75 puntos. Su mayor rendimiento fue en la asignatura Metabolismo y Nutrición con 4,8, mientras en Bioquímica 4,7 puntos. Existieron temas que mostraron carencias. Las explicaciones ofrecidas por la herramienta fueron claras y útiles, con capacidad para explicar conceptos abstractos.

Conclusiones: Los resultados obtenidos fueron favorables. Sin embargo, es fundamental continuar la realización de estudios exhaustivos de modelos de lenguaje de gran tamaño en estas y otras asignaturas de la educación médica. Solo así se podrá orientar a los estudiantes en su mejor uso y explotación.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

1- Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. Attention is All you Need [Internet]. Nueva York: arXiv; 2017 [Citado 09/07/2024]. Disponible en: https://arxiv.org/abs/1706.03762

2- Uszkoreit J. Transformer A Novel Neural Network Architecture for Language Understanding 2017 [Internet]. Italia: APICe, 2023 [Citado 10/07/2024]. Disponible en: https://research.google/blog/transformer-a-novel-neural-network-architecture-for-language-understanding/

3- Stryker C, Kavlakoglu E. What is Generative AI? [Internet]. Nueva York: IBM; 2024 [Citado 10/07/2024]. Disponible en: https://www.ibm.com/topics/artificial-intelligence

4- Introduction to prompting | Generative AI on Vertex AI [Internet]. EE UU: Google Cloud; 2023 [Citado 16/07/2024]. Disponible en: https://cloud.google.com/vertex-ai/generative-ai/docs/learn/prompts/introduction-prompt-design

5-Introducing ChatGPT [Internet]. California: OpenAI; 2023 [Citado 16/07/2024]. Disponible en: https://openai.com/index/chatgpt/

6- IBM. What are Large Language Models (LLMs)? [Internet]. Nueva York: IBM; 2023 [Citado 16/07/2024]. Disponible en: https://www.ibm.com/topics/large-language-models

7- Introducing OpenAI o1. [Internet]. California: OpenAI; 2023 [Citado 26/09/2024]. Disponible en: https://openai.com/index/introducing-openai-o1-preview/

8- Artsi Y, Sorin V, Konen E, Glicksberg BS, Nadkarni G, Klang E. Large language models for generating medical examinations: systematic review. BMC Med Educ [Internet]. 2024 [Citado 5/08/2024];24(1):354. Disponible en: https://doi.org/10.1186/s12909-024-05239-y

9- Li SW, Kemp MW, Logan SJS, Dimri PS, Singh N, Mattar CNZ, et al. ChatGPT outscored human candidates in a virtual objective structured clinical examination in obstetrics and gynecology. American Journal of Obstetrics and Gynecology [Internet]. 2023 [Citado 7/08/2024]; 229(2):172.e1-172.e12. Disponible en: https://www.sciencedirect.com/science/article/pii/S000293782300251X

10- Liang W, Zhang Y, Cao H, Wang B, Ding D, Yang X, et al. Can large language models provide useful feedback on research papers? A large-scale empirical analysis [Internet]. Nueva York: arXiv; 2023 [Citado 13/08/2024]. Disponible en: http://arxiv.org/abs/2310.01783

11- Balcı Ö. The Role of ChatGPT in English as a Foreign Language (EFL) Learning and Teaching: A Systematic Review. International Journal of Current Educational Studies [Internet]. 2024 [Citado 21/08/2024]; 3(1): 10-15. Disponible en: https://www.ijces.net/index.php/ijces/article/view/107

12- Meo SA, Al-Khlaiwi T, AbuKhalaf AA, Meo AS, Klonoff DC. The Scientific Knowledge of Bard and ChatGPT in Endocrinology, Diabetes, and Diabetes Technology: Multiple-Choice Questions Examination-Based Performance. J Diabetes Sci Technol. [Internet]. 2023 [Citado 21/08/2024]:19322968231203987. Disponible en: https://doi.org/10.1177/19322968231203987

13- Soulage CO, Van Coppenolle F, Guebre-Egziabher F. The conversational AI “ChatGPT” outperforms medical students on a physiology university examination. Advances in Physiology Education [Internet]. 2024 [Citado 22/08/2024];48(4):677-84. Disponible en: https://journals.physiology.org/doi/full/10.1152/advan.00181.2023

14- Kaftan AN, Hussain MK, Naser FH. Response accuracy of ChatGPT 3.5 Copilot and Gemini in interpreting biochemical laboratory data a pilot study. Sci Rep [Internet]. 2024 [Citado 22/08/2024];14(1):8233. Disponible en: https://www.nature.com/articles/s41598-024-58964-1

15- Dhanvijay AKD, Pinjar MJ, Dhokane N, Sorte SR, Kumari A, Mondal H. Performance of Large Language Models (ChatGPT, Bing Search, and Google Bard) in Solving Case Vignettes in Physiology. Cureus [Internet]. 2023 [Citado 22/08/2024];15(8):e42972. Disponible en: https://pmc.ncbi.nlm.nih.gov/articles/PMC10475852/

16- Meo SA, Al-Masri AA, Alotaibi M, Meo MZS, Meo MOS. ChatGPT Knowledge Evaluation in Basic and Clinical Medical Sciences: Multiple Choice Question Examination-Based Performance. Healthcare [Internet]. 2023 [Citado 23/08/2024];11(14):2046. Disponible en: https://pubmed.ncbi.nlm.nih.gov/37510487/

17- IBM Data IA Team. What are Open Source Large Language Models? [Internet]. Nueva York: IBM; 2023 [Citado 9/09/2024]. Disponible en: https://www.ibm.com/think/topics/open-source-llms

18- Consecuencias del bloqueo de EE.UU. para las comunicaciones y la informática en Cuba. Trabajadores [Internet]. 31 oct 2020 [Citado 9/09/2024]. Disponible en: https://www.trabajadores.cu/20201031/consecuencias-del-bloqueo-de-ee-uu-para-las-comunicaciones-y-la-informatica-en-cuba/

19- Antón S. Bloqueo estadounidense es el principal impedimento para un más amplio acceso a internet en Cuba. Granma [Internet]. 26 may 2021 [Citado 12/09/2024]. Disponible en: https://www.granma.cu/cuba/2021-05-26/bloqueo-estadounidense-es-el-principal-impedimento-para-un-mas-amplio-acceso-a-internet-26-05-2021-17-05-40

20- Meta-llama/Llama-3.1-70B-Instruct · Hugging Face 2024 [Internet]. Nueva York: Hugging Face; 2023 [Citado 22/09/2024]. Disponible en: https://huggingface.co/meta-llama/Llama-3.1-70B-Instruct

21- HuggingChat [Internet]. Nueva York: Hugging Face; 2023 [Citado 29 de septiembre de 2024]. Disponible en: https://huggingface.co/chat

22- Arias FG. El Proyecto de Investigación Introducción a la Metodología Científica. 6 ed. Caracas-República Bolivariana de Venezuela: Episteme; 2012. 137 p.

23- Shi F, Chen X, Misra K, Scales N, Dohan D, Chi EH, et al. Large Language Models Can Be Easily Distracted by Irrelevant Context. PMLR [Internet]. 2023 [Citado 29/09/2024]; 202:31210-27. Disponible en: https://proceedings.mlr.press/v202/shi23a.html

24- Likert R. A technique for the measurement of attitudes. Archives of Psychology [Internet]. 1932 [Citado 10/10/2024];22 (140):55-55 Disponible en: https://legacy.voteview.com/pdf/Likert_1932.pdf

25- Matas A. Diseño del formato de escalas tipo Likert: un estado de la cuestión. Revista electrónica de investigación educativa [Internet]. 2018 [Citado 11/10/2024];20(1):38-47. Disponible en: https://redie.uabc.mx/redie/article/view/1347

26- Pérez Pérez CJ. Archivos de Investigación Llama-3.1-70B-Instruct Bioquímica Metabolismo y Nutrición [Internet]. Ginebra: Zenodo; 2025 [Citado 03/01/2025]. Disponible en: https://zenodo.org/records/14596114

27- Ghosh A, Bir A, Ghosh A, Bir A. Evaluating ChatGPT’s Ability to Solve Higher-Order Questions on the Competency-Based Medical Education Curriculum in Medical Biochemistry [Internet]. 2023 [Citado 19/10/2024]; 15(4): e37023. Disponible en: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10152308/

28- Ghosh A, Jindal NM, Gupta VK, Bansal E, Bajwa NK, Sett A. Is ChatGPT’s Knowledge and Interpretative Ability Comparable to First Professional MBBS (Bachelor of Medicine, Bachelor of Surgery) Students of India in Taking a Medical Biochemistry Examination?. Cureus [Internet]. 2023 [Citado 19/10/2024];15(10):e47329. Disponible en: https://pmc.ncbi.nlm.nih.gov/articles/PMC10657167/

29-Sallam M, Al-Salahat K, Eid H, Egger J, Puladi B. Human versus Artificial Intelligence: ChatGPT-4 Outperforming Bing, Bard, ChatGPT-3.5 and Humans in Clinical Chemistry Multiple-Choice Questions. Advances in Medical Education and Practice [Internet]. 2024 [Citado 19/10/2024];15:857-71. Disponible en: https://www.tandfonline.com/doi/abs/10.2147/AMEP.S479801

30- Wang Z, Bukharin A, Delalleau O, Egert D, Shen G, Zeng J, et al. HelpSteer2-Preference: Complementing Ratings with Preferences [Internet]. Nueva York: arXiv; 2024 [Citado 19/10/2024]. Disponible en: http://arxiv.org/abs/2410.01257

31- Nvidia/Llama-3.1-Nemotron-70B-Instruct-HF [Internet]. Nueva York: Hugging Face; 2024 [Citado 24/10/2024]. Disponible en: https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

32- GPT-4o mini: advancing cost-efficient intelligence [Internet]. California: OpenAI; 2024 [Citado 24/10/2024]. Disponible en: https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

33- Gravel J, D’Amours-Gravel M, Osmanlliu E. Learning to Fake It: Limited Responses and Fabricated References Provided by ChatGPT for Medical Questions. Mayo Clinic Proceedings: Digital Health [Internet]. 2023 [Citado 26/10/2024];1(3):226-34. Disponible en: https://www.sciencedirect.com/science/article/pii/S2949761223000366

34- Caruccio L, Cirillo S, Polese G, Solimando G, Sundaramurthy S, Tortora G. Can ChatGPT provide intelligent diagnoses? A comparative study between predictive models and ChatGPT to define a new medical diagnostic bot. Expert Systems with Applications [Internet]. 2024 [Citado 27/10/2024];235:121186. Disponible en: https://www.sciencedirect.com/science/article/pii/S0957417423016883

35- Kojima T, Gu SS, Reid M, Matsuo Y, Iwasawa Y. Large Language Models are Zero-Shot Reasoners [Internet]. Nueva York: arXiv; 2023 [Citado 28/10/24]. Disponible en: http://arxiv.org/abs/2205.11916

36- Zhang J, Qiao D, Yang M, Wei Q. Regurgitative Training: The Value of Real Data in Training Large Language Models [Internet]. Nueva York: arXiv; 2024 [Citado 28/10/24]. Disponible en: http://arxiv.org/abs/2407.12835

Inteligencia artificial generativa: capacidades de Llama-3.1-70B-Instruct en las asignaturas Bioquímica y Metabolismo y nutrición

Autores/as

Palabras clave:

Resumen

Descargas

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Idioma

Instrucciones para autores

Reglamentos de la Revista

Enviar un artículo

Indexada en

scopus

Uso compartido de datos

Información

Palabras clave