نویسندگان
1 استایار، گروه علم اطلاعات و دانششناسی، دانشگاه شهید بهشتی، تهران، ایران.
2 استادیار، گروه علم اطلاعات و دانششناسی دانشگاه شهید بهشتی، تهران، ایران.
3 دانشجوی کارشناسی ارشد، گروه علم اطلاعات و دانششناسی دانشگاه شهید بهشتی، تهران، ایران.
چکیده
در عصر انفجار اطلاعات، حوزه علم اطلاعات و دانششناسی به دنبال سادهسازی و ارتقای فرآیند تولید اصطلاحنامه است. این هدف با استفاده از تکنیکهای متنکاوی و الگوریتمهای یادگیری ماشین تحقق مییابد. رویکرد پیشنهادی شامل استخراج خودکار موضوعات از دادههای متنی بدون ساختار و شناسایی مفاهیم کلیدی در حوزه علم اطلاعات و دانششناسی است. هدف اصلی این پژوهش، بهبود و توسعه اصطلاحنامه با تمرکز بر تکنیکهای متنکاوی است. این رویکرد بهطور مؤثری بازیابی اطلاعات را تسهیل میکند و فرآیند تولید اصطلاحنامه را سادهسازی میکند. روششناسی پژوهش شامل چند مرحله اصلی است. ابتدا، چکیدههای مقالات مرتبط با حوزه علم اطلاعات و دانششناسی از پایگاه استنادی Web of Science در بازه زمانی 2022-1968 جمعآوری شدند. دادهها در پایتون پیشپردازش شدند تا از نویسهها و نمادهای غیرضروری پاکسازی شوند. سپس، الگوریتم TextRank با استفاده از کتابخانههای Pandas و NLTK برای کشف موضوعات پنهان در متنها اعمال شد. این فرآیند تکراری به شناسایی موضوعات رأس در حوزه موضوعی منجر شد. در نهایت، با تحلیل و مقایسه اصطلاحنامه دستی موجود و بررسی معیارهای انسجام موضوع و پوشش موضوعی، اثربخشی رویکرد پیشنهادی ارزیابی و اصطلاحات رأس انتخاب شدند. این روش بهطور مؤثری از دادههای بزرگ برای استخراج موضوعات کلیدی در حوزه علم اطلاعات و دانششناسی استفاده کرد. یافتههای پژوهش بیان میکند که این مطالعه با استفاده از تکنیکهای متنکاوی و الگوریتم TextRank، به استخراج موضوعات کلیدی و انتخاب موضوعات رأس پرداخته است. نتایج نشاندهنده شناسایی 17 موضوع اصلی در حوزه علم اطلاعات و دانششناسی است. این موضوعات شامل حوزههای مهمی مانند آرشیوها و مراکز اطلاعاتی، هوش مصنوعی، کتابشناختی، ردهبندی، توسعه مجموعه، واژگان کنترل شده، کتابخانههای دیجیتال، سازماندهی اطلاعات، بازیابی اطلاعات و استخراج دادهها، علم اطلاعات و کتابداری، نظامهای اطلاعات و منابع، مدیریت دانش، کتابخانهها و خدمات اجتماعی، فراداده، خدمات مرجع، سرعنوانهای موضوعی و علمسنجی هستند. این فهرست موضوعات رأس بهطور مؤثری نماینده مفاهیم کلیدی در حوزه علم اطلاعات و دانششناسی است و میتواند بهعنوان پایهای برای توسعه اصطلاحنامه و بهبود فرآیند بازیابی اطلاعات استفاده شود. این پژوهش با بهرهگیری از روشهای متنکاوی و الگوریتمهای پیشرفته، به استخراج و پیشنهاد موضوعات کلیدی برای اصطلاح رأس از طریق تجزیه و تحلیل دقیق منابع متنی، پرداخت.
کلیدواژهها
عنوان مقاله [English]
Recognizing Semantic Patterns and Extracting Top Topics for the Thesaurus of Information Science and Epistemology by Relying on Advanced Text Processing and Content Analysis Techniques
نویسندگان [English]
- Mohsen HajiZeinolabedini 1
- Hamid Keshavarz 2
- Mahnam Zamani Kalajahi 3
1 Assistant Professor, Department of Knowledge and Information Science, Shahid Beheshti University, Tehran, Iran
2 Assistant Professor, Department of Knowledge and Information Science, Shahid Beheshti University, Tehran, Iran.
3 Msc Student, Department of Knowledge and information Science, Shahid Beheshti University, Tehran, Iran.
چکیده [English]
In the age of information explosion, the field of information science and knowledge seeks to simplify and improve the thesaurus production process. This goal is realized by using text mining techniques and machine learning algorithms. The proposed approach includes automatically extracting topics from unstructured text data and identifying key concepts in the field of information science and knowledge. The main goal of this research is to improve and develop the thesaurus by focusing on text mining techniques. This approach effectively facilitates information retrieval and simplifies the thesaurus generation process. This study includes several main steps. First, abstracts of articles related to the field of information science and knowledge were collected from the Web of Science citation database in the period of 1968-2022. Data were preprocessed in Python to remove unnecessary characters and symbols. Then, TextRank algorithm was applied using Pandas and NLTK libraries to discover hidden topics in texts. This iterative process led to the identification of top topics in the subject area. Finally, by analyzing and comparing the existing manual thesaurus and examining the criteria of subject coherence and thematic coverage, the effectiveness of the proposed approach was evaluated and the top terms were selected. This method effectively used big data to extract key topics in the field of information science and knowledge. This study has extracted key topics and selected top topics using text mining techniques and TextRank algorithm. The results indicate the identification of 17 main issues in the field of information science and knowledge. These topics include important areas such as archives and information centers, artificial intelligence, bibliography, classification, collection development, controlled vocabulary, digital libraries, information organization, information retrieval and data extraction, information science and librarianship, information systems and resources, knowledge management, Libraries and community services are metadata, reference services, subject headings, and scientology. This list of top topics effectively represents key concepts in the field of information science and knowledge and can be used as a basis for developing a thesaurus and improving the information retrieval process. Using text mining methods and advanced algorithms, this research extracted and proposed key topics for the term Ras through detailed analysis of textual sources.
کلیدواژهها [English]
- Thesaurus
- Information Science and Knowledge
- Text Mining
- Top Topics