Н.Н.Двоерядкина, Н.А.Чалкина, Т.А.Макарчук
ИСПОЛЬЗОВАНИЕ ТЕОРИИ
НЕЧЕТКИХ МНОЖЕСТВ В СОЦИОЛОГИИ
There are considered application of non-numeric objects for estimation socio-economic showings and theirs analysis by methods of statistical interval data.
Современное исследование общественных и социально-экономических процессов в значительной степени опирается на результаты социологических исследований. Социолог-это специалист по информации, которую нужно не только собрать, но и грамотно обработать.
Используя первичную информацию, собранную в результате социологических опросов, необходимо сформировать данные, которые допускают возможность математической обработки.
Формируя данные, исследователь ставите соответствие значениям переменной, имеющей содержательный смысл, числовые значения. Такое соответствие называется шкалой измерения переменной. В зависимости от свойств переменной выделяют шкалы; номинальную, ранговую, интервальную и шкалу отношений.
Номинальная шкала является самым «низким» уровнем измерения. В этом случае используется только равенство или неравенство значений. Примерами таких переменных являются «пол», «профессия».
Часто значения признака выражают степень проявления какого-либо свойства и могут быть упорядочены. Такая шкала называется ранговой.
Интервальная шкала предполагает, что можно определить не только порядок значений, но и расстояние между значениями. Шкала отношений в дополнение к свойствам интервальной шкалы позволяет измерять пропорции значений.
Для анализа количественных (числовых) данных, заданных шкалой отношений либо интервальной, у социолога имеется богатый арсенал статистических методов (корреляционный, регрессионный анализ, законы больших чисел, центральная предельная теорема и др.). Однако часто ему приходится работать с признаками нечисловой природы, измеренными номинальной или порядковой шкалой. К ним нельзя применить многие классические методы математической статистики, что существенно затрудняет исследования.
В общем случае под нечисловыми данными понимают элементы пространств, не являющихся линейными (векторными), в которых нет операций сложения элементов и их умножения на действительное число.
Основы нечеткой логики были заложены в конце 60-х гг. в трудах американского ученного JI.A. Заде. В настоящее время активно ведутся работы по статистическому анализу нечисловых данных.
В основе алгебры нечеткой логики лежат два основных понятия: нечеткого множества и нечетких операций над ними. Элементами нечеткого множества являются лингвистические переменные.
Нечеткое подмножество А универсального множества U характеризуется функцией принадлежности f(u;A), которая ставит в соответствие каждому элементу и число f (и; А) го отрезка от [0;1].
Лингвистической переменной называют переменную, принимающую в качестве своих значений нечеткие множества.
В нечеткой логике операции: дизъюнкции (or), конъюнкции (and), отрицания (not) импликации (=>) обозначаются и определяются следующим образом:
v(p or q) = max(v(p), v(q));
v (p and q) = min(v(p), v(q));
v ( not p) = 1 - v(p);
v(p => q) = min(l, 1 - v(p) + v(q)).
Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства, а на применении симметрии и метрик в нем, поэтому существенно отличается от классического [2]. Для анализа нечисловых данных существует апробированный аппарат вне рамок классического подхода, в частности анализ соответствий, факторный анализ и др. Один из результатов статистических методов анализа нечисловой информации - возможность перевода нечисловых данных в интервальную шкалу (например, с помощью факторного анализа).
В качестве условного примера рассмотрим определение качества знаний по предмету у студентов. Для анализа выберем три переменные: успеваемость, наличие академических способностей, наличие или отсутствие интереса к изучению предмета [ 1 ].
Таблица 1
№ Способности Интерес к предмету Успеваемость
Табл. 1 не позволяет сделать какой-то объективный вывод относительно качества знаний. Методами факторного анализа, идея которого состоит в сжатии матрицы признаков в матрицу с меньшим числом переменных, сохраняющую почти ту же самую информацию, что и исходная матрица, можно сконцентрировать исходную информацию, содержащуюся в нескольких переменных в одной латентной характеристике, отвечающей за качество.
Для нахождения латентного фактора необходимо определить коэффициенты корреляции исходных данных по формуле:
_ ху-х-у
Р=-гг РГ-^& (1)
у1х -х -Уу -у
Коэффициенты корреляции показателей качества представлены в табл. 2.
Таблица 2
Переменные Коэффициенты корреляции
способность интерес успеваемость
Способности 1 0,26 0,77
Интерес 0,26 1 0,23
Успеваемость 0,77 0,23 1
Основные результаты факторного анализа выражаются в наборах факторных нагрузок и факторных весов. Факторные нагрузки являются значениями коэффициентов корреляции каждого из исходных признаков с каждым из выявленных факторов. Для построения матрицы факторных нагрузок необходимо найти собственные числа корреляционной матрицы переменных, решив уравнение:
Для полученной корреляционной матрицы, представленной в табл. 2, собственные числа Я, = 1,902, /Ц =0,228, Я, =0,866.
Согласно критерию Кайзера значимыми являются только факторы, с собственными значениями, большими 1. Нормированные координаты собственного вектора, соответствующие собственному числу Я, = 1,902, находятся путем решения системы уравнений:
-0,902*, + 0,26*2 + 0,77;с3 = 0 0,26*, - 0,902дг2 + 0,23*3=0 0,77*, + 0,23*2 - 0,902*з=0 и последующей нормировки по формуле
Координаты собственного вектора, соответствующего наибольшему собственному числу, составляют:
Iнорм
= (0,967; 0,526; 0,957)
и являются элементами матрицы факторных нагрузок
^0,967> 0,526 ,0,957^
Элементы матрицы факторных нагрузок являются коэффициентами корреляции между исходными переменными и латентным фактором, отвечающим за качество. Их абсолютные значения показывают наличие достаточно значимой линейной связи между исходными переменными и найденным фактором.
Количественные значения выделенного фактора для -каждого из имеющихся объектов содержатся в матрице факторных весов. Значения факторных весов можно рассматривать как значения индекса, характеризующего уровень развития объектов в рассматриваемом аспекте.
Элементы матрицы факторных весов находятся по формуле:
Р^А&-ЛУ-А1&^7, (3)
где А - матрица факторных нагрузок; Ъ - матрица исходных данных.
Матрица факторных весов Р представляет собой вектор-строку, содержащую 8 координат (по количеству наблюдений):
Р= (2,5; 2,95; 0,899; 2,254; 1,597; 1,147;0,899; 1,799).
Числовые значения фактора оценки качества позволяют проранжировать все наблюдения.
Предложенный способ анализа нечисловой информации позволяет решать ряд социологических задач, связанных с использованием порядковых шкал. Однако отметим, что факторный анализ лучше всего использовать д ля предварительного изучения данных, формирования рабочих гипотез. Особенно удачным может быть его применение при пилотажных исследованиях.
Мы рассмотрели применение факторного анализа к обработке объектов нечисловой информации. Данный метод анализа нечисловых данных особенно хорошо приспособлен для использования в экономике, социологии, педагогических исследований. Разумеется, он не исчерпывает все многообразие фронта научных исследований в этой области. Однако в настоящее время является наиболее доступным и широко реализуемым в различных компьютерных статистических программах.
Исследование поддержано грантом Министерства образования и науки РФ «Развитие научного потенциала высшей школыи, регистрационный номер 3.1.1/2265.