Scientific schools in research organization
Table of contents
Share
Metrics
Scientific schools in research organization
Annotation
PII
S111111110000050-8-1
DOI
10.33276/S0000050-8-1
Publication type
Article
Status
Published
Authors
Ivan Nevolin 
Occupation: Leading researcher
Affiliation: CEMI RAS
Address: Russian Federation, Moscow
Aleksandr Belianov
Occupation: Research fellow
Affiliation: CEMI RAS
Address: Russian Federation, Moscow
Edition
Abstract
We investigate the network analysis technique in application to the scientific communications within research organization. Citation and co-authorship are involved as “interaction tracks” between the colleagues. According to the tracks, we build and analyze two graphs. While enriching the data by the structure of the institute and the researchers’ age one could distinguish some roles of employees in activity support and interactions expansion. For example, the analysis reveals mediators in knowledge dissemination, young researchers, detached research groups.
Keywords
scientific communications; research organization; network analysis; graph theory; human capital
Received
04.09.2018
Date of publication
20.11.2018
Number of characters
19613
Number of purchasers
4
Views
417
Readers community rating
0.0 (0 votes)
Cite Download pdf

To download PDF you should sign in

1 Работа любой организации складывается из деятельности её участников (сотрудников). В сложных структурах решения о развитии человеческого капитала связаны с привлечением объективной информации, необходимой для изменения штатного расписания, обоснования бюджетов, планирования карьеры. Следы такой информации можно искать в повседневной деятельности сотрудников. Взаимодействуя друг с другом, коллеги не только выполняют свои должностные обязанности, но также участвуют в производстве новых знаний или оказывают друг другу неформальную помощь. Теоретически возможно ввести типологию взаимодействий, внутри которой проанализировать отдельные срезы коммуникаций, выявляя, таким образом, различные аспекты участия сотрудников в деятельности организации. Технически организовать анализ коммуникаций возможно, хотя и трудоёмко. Реальность анализа поддерживает корпоративная политика, которая предписывает использовать корпоративные телефоны, электронную почту, сервисы обмена сообщениями. Трудоёмкость связана с типологизацией взаимодействия, которая может потребовать анализа текстов, написанных на естественном языке. Тем не менее, анализ метаданных коммуникаций – узлов, частоты и длительности взаимодействия – тоже способен привести к интересным выводам (Borgatti et al.,. 2009) (Tichy et al., 1979).
2

Естественный аппарат для исследования коммуникаций предлагает теория графов: каждый участник представлен узлом, а взаимодействие – ребром. Типичные показатели для оценки взаимодействий внутри организации взяты из теории социальных сетей, которая описывает объекты на языке теории графов. В данной работе используются «центральность по степени» и «центральность по посредничеству». Оба этих показателя вычислены для сотрудников научной организации. Данные показатели можно вычислять различными способами. Для центральности по степени рассчитывалась двумя способами. Изначально был выбран ненормированный расчёт числа рёбер графа (числа входящих/исходящих для графов направленных), реализованный специально написанным для этих целей скриптом на языке Python. Однако по мере работы с данными всё активнее привлекался программный пакет NetworkX – обработчик графов со встроенными функциями расчёта основных метрик. В пакете NetworkX центральность для узла рассчитывается как доля узлов, с которыми данный узел соединён1. Центральность по посредничеству для узла v рассчитывается2 как

1. https://networkx.github.io/documentation/networkx-1.9/reference/generated/networkx.algorithms.centrality.betweenness_centrality.html#networkx.algorithms.centrality.betweenness_centrality

2. https://networkx.github.io/documentation/networkx-1.10/reference/generated/networkx.algorithms.centrality.betweenness_centrality.html
3

4 При обсуждении показателей будет специально отмечено, какой способ расчёта использовался в том или ином случае.
5 Данная работа демонстрирует применение указанных показателей к анализу взаимодействий внутри исследовательской организации. Безусловно, практически невозможно охватить все коммуникации научных сотрудников, однако относительно легко получить доступ к полной информации о публикациях — важной части взаимодействия учёных. (Паринов, 2016). Вокруг последних выстроена целая инфраструктура, частью которой являются разнообразные классификаторы и стандарты представления информации. Благодаря этому возможно использование метаданных научных публикаций для построения сетей коммуникации между учёными (Kas et al., 2012). Удобный доступ к данным предлагают научные информационные систем – например, Соционет3, RePEc4, Math-NET5, РИНЦ6, – где собраны коллекции публикаций, существует система навигации и рассчитаны некоторые агрегированные показатели. Содержимое и функционал информационных систем существенно влияют на способы сбора и обработки данных. Очевидно, что полнота коллекции влияет на расчётные показатели интенсивности коммуникаций. Инструменты навигации по коллекции публикаций помогают автоматизировать сбор данных для анализа. Агрегированные показатели позволяют собирать выверенные данные и упростить обработку данных.
3. https://socionet.ru/

4. http://repec.org/

5. http://www.mathnet.ru/

6. https://elibrary.ru/
6 Предметом анализа являются публикации сотрудников ЦЭМИ РАН. В качестве источника данных выбрана научная электронная библиотека eLibrary, оператор российского индекса научного цитирования (РИНЦ), как система, чьи показатели признаются научными фондами и государственными ведомствами. Представление информации в системе ограничивает анализ научных коммуникаций связями только двух типов: соавторство и цитирование. Обогатить картину взаимодействий могут не только данные о чтении и загрузки публикаций, но, например, открытое аннотирование и таксономия использования результатов, которые присутствуют в Соционет (Когаловский, Паринов, 2015).
7 Сотрудниками института признавались все авторы eLibrary, для которых в качестве основного места работы указан ЦЭМИ РАН. Таких оказалось 434 человека. Первоначальный список сотрудников был сокращен более, чем на четверть – из него удалены те авторы, которые парадоксальным образом присутствуют в системе, но к ним не привязано ни одной публикации. Итого, осталось 316 авторов. Следует явным образом отметить, что эти 316 авторов в системе аффилированы с институтом, при этом ничего не говорится о периоде работы в ЦЭМИ РАН. Сформированный список охватывает действующих и ушедших сотрудников при условии, что последние не редактировали личный профиль в системе с момента увольнения. Таким образом, представленные в настоящей статье результаты охватывают именно научные коммуникации за всё время существования института – даже через поколения.
8 Специальная компьютерная программа просматривала на сайте elibrary.ru две страницы для каждого автора из списка сотрудников. Первая страница содержит перечень статьей, цитирующих автора, на второй странице представлен список публикаций автора, включённых в РИНЦ. Первая страница позволила выписать фамилии всех цитирующих авторов и соответствующее им количество цитирований. Вторая – список соавторов сотрудника и количество совместных публикаций. Списки цитирующих авторов и соавторов сравнивались со списком сотрудников ЦЭМИ РАН. По результатам сравнений из списков были удалены те, кто не является сотрудником института. Строго говоря, для фильтрации подобного рода следует использовать идентификаторы авторов в системе. Таким идентификатором, например, является SPIN-код автора или идентификатор учётной записи, но они отсутствуют на тех веб-страницах, которые послужили источником данных. Следует помнить, что настоящая работа является отработкой методики, которая, как и полученные результаты, может быть уточнена в дальнейшем. Методическим характером работы также объясняется обезличенное представление результатов. Фамилия каждого сотрудника замечена некоторой последовательностью символов.
9 Первый граф для анализа строится по данным о цитировании публикаций внутри института. Огромное число связей существенно затрудняет визуальный анализ графа. В попытке облегчить восприятие сети и сконцентрировать внимание исследователя на устойчивых творческих партнёрствах разумным выглядит отсечение слабых связей: из анализа исключаются те сотрудники, которые редко цитируют одних и тех же своих коллег. В качестве границы выбрано значение в 10 ссылок: отброшены все связи между сотрудниками слабее 10. Изменённый граф обнаруживает один большой кластер, окруженный относительно автономными группами взаимного цитирования с численностью сотрудников от двух до пяти. Таких групп немного, однако, анализ их состава позволяет чётко установить тематическую обособленность некоторых исследований: информационное и инфраструктурное обеспечение научных исследований, финансовая статистика, оптимизация, исследование предприятий. По сравнению с исходным графом изменённый показывает заметные перестановки между сотрудниками в порядке по числу входящих ссылок. Это происходит потому, что одни сотрудники широко распространяют свои идеи: их цитирует много коллег, каждый из которых, впрочем, устанавливает связь слабее 10. Другие сотрудники, напротив, укрепляют сложившиеся однажды научные связи: их цитирует не так много коллег, зато каждый делает это на протяжении долгого времени в серии работ, усиливая связи до 10 и выше. Это ещё один аргумент в пользу анализа качества ссылок – кто и по какому поводу цитирует – при оценке научной результативности.
10 Граф с сильными связями цитирования является ориентированным, что позволяет различить наиболее цитирующих и наиболее цитируемых сотрудников (Таблица 1). Помимо изменения порядка 10 лидеров заметно различие в пропорциях между показателями сотрудников. В списке цитирующих есть явный лидер, и выбивающееся значение даёт повод для более детального анализа с привлечением дополнительных данных. В их отсутствие можно предположить, что данный сотрудник, который в списке самых цитируемых оказывается на третьем месте, является медиатором в организации: он (она) располагает разносторонней информацией о работах внутри института и активно использует результаты своих коллег в собственных научных исследованиях.
11

Таблица 1. Количество связей самых цитируемых (входящие ссылки) и самых цитирующих (исходящие ссылки) сотрудников. Ненормированные показатели центральности, рассчитанные скриптом на Python.

Цитирующие (outdegree) Значение Цитируемые (indegree) Значение
UF95MTLY 413 BT4TKTE1 268
7XINZ6E0 202 7YE20ECM 241
BT4TKTE1 148 UF95MTLY 214
R3VU0UEO 139 7XINZ6E0 167
2460NB58 114 BKQAB1YH 124
PCG4SF3A 109 T9998TS7 116
IDD2Y69Y 82 Y1B8UWI2 109
ZPX427CD 79 R3VU0UEO 103
5D58BIR2 74 3DBJDJQS 82
U2B1C20A 69 IDD2Y69Y 77
12 На списки наиболее цитирующих и наиболее цитируемых сотрудников можно посмотреть с разных сторон. Выше, в Таблице 1 использован следующий подход: сотрудники проранжированы по общему количеству цитирований. Альтернатива состоит в том, чтобы каждую связь описывать не абсолютным количеством ссылок, а количеством цитирующих авторов. Во втором случае отдельная связь показывает некоторые взаимодействия двух сотрудников независимо от того, сколько ссылок они дают друг на друга. Анализ связей между сотрудниками без учёта количества ссылок выявляет другой состав и порядок списков (Таблица 2).
13

Таблица 2. Количество сотрудников, которых цитируют их коллеги (левая часть таблицы) и которые ссылаются на работы внутри института (правая часть таблицы). Ненормированные показатели центральности, рассчитанные скриптом на Python.

Цитирующие (outdegree) Значение Цитируемые (indegree) Значение
UF95MTLY 13 7YE20ECM 12
7XINZ6E0 7 BT4TKTE1 11
2460NB58 6 UF95MTLY 8
BT4TKTE1 6 7XINZ6E0 7
PCG4SF3A 5 Y1B8UWI2 5
ZPX427CD 5 BKQAB1YH 5
R3VU0UEO 5 GFMUUH5E 4
BKQAB1YH 4 3DBJDJQS 4
IDD2Y69Y 3 IDD2Y69Y 3
U2B1C20A 3 SF4MVODK 3
14 Разрыв в относительных значениях уже не выглядит таким драматичным, различие между показателями лидеров в двух списках практически исчезает. В целом, можно говорить о том, что у каждого сотрудника крайне редко возникают сильные связи с четырьмя коллегами и более.
15 Распределение сотрудников, построенное в соответствии с центральностью по посредничеству, также характеризуется неравномерностью. Значение показателя убывает от лидера до 10-го сотрудника практически в 10 раз (Таблица 3).
16

Таблица 3. Центральность по посредничеству для лидеров по этому показателю. Нормированные показатели центральности, рассчитанные программным пакетом NetworkX.

Постредничество (betweenness) Значение
UF95MTLY 0,0453
7XINZ6E0 0,0267
BT4TKTE1 0,0223
BKQAB1YH 0,0215
R3VU0UEO 0,0179
7YE20ECM 0,0174
3DBJDJQS 0,0157
Y1B8UWI2 0,0142
G8ZULKY6 0,0111
SF4MVODK 0,0070
17

Продолжая анализ коммуникаций внутри института, следует перейти к связям между сотрудниками иного рода. А именно, к соавторству. В отличие от цитирования связи между сотрудниками оказываются ненаправленными. После отсечения слабых связей – в качестве сильных принимается граница в виде семи общих публикаций – остаётся один большой граф и несколько обособленных кластеров с численностью сотрудников до пяти человек, что сильно напоминает случай цитирования. Кластеры уже могут интерпретироваться как некоторые научной школы. Видно, что в институте существует пять кластеров численностью 4-5 человек, которые имеют достаточно много общих публикаций. Если взглянуть на основной граф, можно заметить три сети, связанные между собой одной линией через трёх сотрудников (Рисунок 1). Фактически можно говорить о том, что утрата одного из сотрудников в этом звене способна нарушить связность графа и, таким образом, ослабить взаимодействие сотрудников внутри института.

18

Рисунок 1. Самый крупный фрагмент графа соавторов внутри института. Обособленные кластеры не изображены.

19 Однако следует обратить внимание на то, что во всём центральном графе существует несколько крупных узловых точек. А именно, это сотрудники, которые чаще остальных публикуются со своими коллегами. Как правило, это руководители лабораторий. Соответственно, можно предположить, что в данном случае речь идёт о систематических исследованиях внутри подразделений и о публикации результатов большого коллектива. Сопоставляя узлы графа с возрастом сотрудников, можно заметить, что большинство связей установлены между сотрудниками старшего поколения, и, более того, сотрудники молодого поколения чаще всего связаны со своим старшим товарищем: с научным руководителем или с заведующим лаборатории. Непосредственные связи между молодыми научными сотрудниками не видны в данном графе. В этой связи можно высказать два предположения. Первое, возможно просто у них не такая длительная история взаимодействия для того, чтобы связи между молодыми сотрудниками попали на этот граф. Уместно напомнить: точка отсечения – семь общих публикаций. Второе предположение: возможно, молодые сотрудники работают в разных тематических направлениях. Заведующий лаборатории или научный руководитель, хотя имеет с каждым из них достаточное количество публикаций, тем не менее, очень редко привлекает молодых сотрудников к работе над одним проектом. Это – второе – объяснение выглядит более обоснованным, поскольку в первом случае при отсутствии достаточно длительного научного опыта молодые сотрудники полностью отсутствовали бы на графе.
20 Как и в случае цитирования, для соавторства рассчитываются показатели центральности по степени и по посредничеству. Здесь ситуацию очень сильно отличается от той, которая наблюдалась в случае связи типа цитирования. Для соавторства центральность по степени между первым и десятым в списке сотрудников отличается уже не в 10 раз (Таблица 4): различие не превышает двукратного размера, и общее распределение по этому показателю выглядит более равномерным.
21

Таблица 4. Центральность по степени для графа соавторства. Нормированные показатели центральности, рассчитанные программным пакетом NetworkX.

Центральность (total degree) Значение
UF95MTLY 0,0680
7YE20ECM 0,0680
BT4TKTE1 0,0680
2460NB58 0,0583
7XINZ6E0 0,0583
BKQAB1YH 0,0485
Q4UC6Z2E 0,0485
IDD2Y69Y 0,0388
2MB3B3N0 0,0388
GFMUUH5E 0,0388
22 Центральность по посредничеству в случае цитируемости намного меньше аналогичного показателя для графа соавторства (Таблица 5). Видна тройка лидеров, которая и образует перемычку между двумя подмножествами самого крупного графа, в 2-3 раза превышает показатель лидера центральности по посредничеству в случае цитирования. При этом абсолютные показатели посредничества заметно выше для соавторства, чем для цитируемости. Безусловно, определённую роль играет граница отсечения слабых связей, но в целом данные свидетельствуют о том, что сотрудники охотнее объединяются для проведения совместных исследований7, чем опираются на результаты своих коллег.
7. И это вполне естественно для научной организации – лаборатории создаются, в том числе, с целью формального закрепления связей научного коллектива.
23

Таблица 5. Центральность по посредничеству для графа соавторства. Нормированные показатели центральности, рассчитанные программным пакетом NetworkX.

Центральность по посредничеству (betweenness degree) Значение
2460NB58 0,1466
7YE20ECM 0,1348
IDD2Y69Y 0,1235
BKQAB1YH 0,1051
BT4TKTE1 0,0893
UF95MTLY 0,0793
FOZSUDD8 0,0350
2MB3B3N0 0,0333
7XINZ6E0 0,0310
GFMUUH5E 0,0272
24 По результатам проделанной работы можно сделать следующие выводы. Во-первых, обращение с цитируемостью существенно влияет на изменение графа научных коммуникаций. Фильтрация сильный связей или переход от публикаций к авторам для учёта связей радикальным образом влияют на выводы анализа: можно выявить как тех, кто активнее других распространяет свои идей, так и тех, кто с упорством развивает свои результаты внутри узкого коллектива. Установление границы по количеству общих публикаций позволяет полнее отследить влияние на сотрудников – на количество людей, подхвативших и развивших высказанные идеи.
25 Во-вторых, заметно расположение молодых сотрудников на периферии общего графа – они привязаны к коллективу только через своих научных руководителей. Возможно, это является следствием малого количества работ, но, тем не менее, это объективный факт. Поскольку молодой сотрудник работает с заведующим лабораторией – со старшим научным товарищем, – по-видимому, он не до конца освоился в темах института, с коллективом – с тем, кто и чем занимается. И поэтому вокруг него не формируется такая обширная сеть. Таким образом, можно утверждать, что для сохранения целостности организации формирование связей представляет некоторую ценность. Можно обратить внимание на то, что графы очень сильно рассыпаются при удалении нескольких ключевых улов, а сотрудники, которые ориентируются в работах своих коллег, помогают прямому взаимодействию своих товарищей, только начинающих карьеру. Такие сотрудники могут представлять ценность для организации именно с точки зрения насыщения связности графа, повышения кругозора, информированности о выполняемых работ.
26 В-третьих, изучение графа коммуникации хорошо знакомого института позволяет восстановить структуру – организационную и неформальную – других научных организаций. В частности, руководители научных подразделений естественным образом занимают важные узловые точки в графах научных коммуникаций.
27 В-четвёртых, расширение данных о научных коммуникациях способно существенным образом обогатить анализ. Так, научная информационная система Соционет предлагает своим пользователям широкие возможности по аннотированию публикаций, уточнению вклада авторов, конкретизации мотивов цитирования, объединению публикаций в коллекции, в том числе, по принципу развития и уточнения научных результатов. Разработчиками системы проделана большая работа в области таксономии связей, информационных сервисов, и предлагаемые инструменты могут использоваться для уточнения слоёв коммуникаций внутри научного сообщества, для выявления характеристик, поддерживающих адекватную кластеризацию данных.

References

1. Kogalovskij M.R., Parinov S.I. Taksonomiya semanticheskikh svyazej informatsionnykh ob'ektov kontenta nauchnoj ehlektronnoj biblioteki // Nauchno-tekhnicheskaya informatsiya. Seriya 2. - 2015. - № 9. - S. 15-23

2. Parinov S.I. Tekhnologii sotsial'nykh setej v organizatsii nauchnogo vzaimodejstviya // Vestnik Rossijskoj akademii nauk. - 2016. - T. 86. - № 8. - s. 706-710

3. Borgatti S.P., Mehra A., Brass D.J., Labianca G. Network Analysis in the Social Sciences // Science. – 2009. – Vol. 323. - pp. 892-892. DOI: 10.1126/science.1165821

4. Kas M., Carley K.M., Carley L.R. Trends in science networks: understanding structures and statistics of scientific networks // Social Network Analysis and Mining. - 2012 – Vol. 2. – Issue 2. - pp.169-187. DOI: 10.1007/s13278-011-0044-6

5. Tichy N.M., Tushman M.L., Fombrun C., Social Network Analysis For Organizations // Academy of Management Review. – 1979 - Vol. 4 - Issue 4. - 507-519