Как сделать классификацию деревьев

Классификация деревьев по хозяйственно- биологическим признакам.

При проведении рубок ухода все деревья в насаждении по хозяйственно-биологическим признакам подразделяются на три категории: I – лучшие, II – вспомогательные (полезные), III – нежелательные (подлежащие удалению).

К лучшим деревьям относятся здоровые, имеющие прямые, полнодревесные, достаточно очищенные от нижних сучьев стволы, хорошо сформированные кроны, хорошее укоренение и предпочтительно семенное происхождение. Они выбираются преимущественно из деревьев главных пород I, II, III классов роста. В сложных насаждениях такие деревья могут находиться во всех выделяемых ярусах.

При отсутствии в отдельных группах насаждения деревьев, полностью отвечающих указанным признакам, в качестве первой категории оставляют относительно лучшие в данной биогруппе.

Из числа лучших деревьев в возрасте 20-30 лет при уходе выделяются 400-600 целевых деревьев (деревьев будущего), которые обладают четкой выраженностью перечисленных признаков лучших деревьев. За ними в последующем и ведется уход. В лесах, используемых в рекреационных целях, к лучшим деревьям относятся экземпляры, обладающие высокими эстетическими, декоративными и иными признаками.

К вспомогательным относятся деревья, способствующие очищению лучших деревьев от сучьев, формированию их стволов и крон, выполняющие почвозащитные и почвоулучшающие функции. Они могут находиться в любой части полога, но преимущественно в подчиненной. Наиболее полно функции вспомогательных деревьев выполняют подгоночные теневыносливые породы: липа, клен, граб и другие.

К нежелательным деревьям, подлежащим рубке, относятся деревья любых пород, мешающие росту и формированию кроны у лучших и вспомогательных деревьев (охлестывающие, затеняющие и т.д.), сухостойные, ветровальные, снеголомные, фаутные и отмирающие деревья, искривленные, с развилками и пасынками, многовершинные, сильносбежистые деревья, если их вырубка не образует больших просветов в пологе насаждений.

Деревья, подлежащие удалению, могут быть всех классов роста и находиться во всех частях полога древостоя.

Деревья, на которых имеются жилые гнезда птиц и дупла, подлежат сохранению.

Семенные деревья, выполнившие свое назначение, своевременно не убранные единичные деревья, оставшиеся от предыдущего насаждения, если оставление их нежелательно по хозяйственным соображениям, и они не имеют ценности для поддержания биоразнообразия, вырубаются при первых приемах рубок ухода. Запас этих деревьев при определении интенсивности рубок ухода в молодняках учитывается отдельно и относится к прочим рубкам.

2. Раскройте понятие процесса смены пород. Опишите смену ели обыкновенной мягколиственными породами и обратное восстановление ели. Укажите меры по регулированию процессов смены пород.

Ответ на вопрос № 2.

Смена древесных пород – это динамический биологический процесс, это вытеснение одних древесных пород другими, происходящее, как в естественных, так и в искусственных лесных сообществах. Это переход лесного сообщества из одного качественного состояния в другое в результате взаимодействия комплекса природных и антропогенных факторов. Основоположником учения о смене пород является Г.Ф.Морозов, эти процессы он впервые описал в своем труде «Учение о лесе». Смена пород – это замена одного вида древесных растений другим на определенной территории.

Смена ели мягколиственными породами и её обратное восстановление.

Смена ели осиной и березой происходит после вырубки елового насаждения, после ветровала, пожара и в других случаях, когда ель освобождает площадь. На этой территории возникает иная обстановка, поэтому теневыносливая растительность исчезает и начинает распространяться светолюбивая. Новая обстановка соответствует жизненным требованиям мягколиственных пород – березе, осине ольхе серой. Эти породы возобновляются вегетативно, обильно и ежегодно плодоносить, семена распространяются ветром на большие расстояния. Мелкие всходы, находясь под защитой трав, не побиваются заморозками, не обжигаются солнцем и быстро растут. Смыкаясь, светолюбивые деревца притеняют почву, угнетают и изгоняют сорную светолюбивую растительность, создают лесную подстилку, улучшают почвенную среду, смягчают резкие колебания климата. В этой новой обстановке поселяются теневыносливая ель, пихта. Под пологом березы, осины всходы ели не подвергаются угнетению, благодаря рыхлой подстилке корни не вжимаются из почвы заморозками, создаются лучшие условия почвенного питания. В дальнейшем, по мере роста елового подроста, обостряются межвидовая борьба и конкуренция. Недостаточное количество света, задерживает ее рост, но теневыносливая ель продолжает расти вверх и нередко к 30-40 годам образует 2-й ярус в березово-осиновом древостое. Ель начинает охлестывать осина, особенно береза, в результате чего хвоя у ели отмирает, крона становится однобокой и некоторые деревца усыхают. После проведения рубок ухода, чтобы ускорить выход ели в верхний ярус. Через некоторое время ель обгоняет в росте березу и осину. Древостой становится двухъярусным: 1-й ярус – ель, 2-й – береза и осина. В этих условиях береза и осина начинают отмирать, так как условия освещения не соответствуют их биологическим свойствам.

Разумное вмешательство человека может регулировать смену пород в интересах народного хозяйства. Рекомендуются следующие меры, сдерживающие нежелательные смены пород и позволяющие восстановить наиболее продуктивные леса:

1. Борьба с лесными пожарами и выращиванием в случае их возникновения на гарях сосновых насаждений.

2. Правильный выбор способа главной рубки и технологии лесоразработок, позволяющие использовать потенциальные возможности самовозобновления хозяйственно ценных пород.

3. Проведение мер содействию естественному возобновлению главных пород и, в первую очередь, сохранению подроста на лесозаготовках.

4. Создание лесных культур, в том числе подпологовых.

5. Своевременное проведение РУ в молодняках.

Методы промышленной переработки древесины с каждым годом совершенствуются, в прошлом малоценные породы – осина, береза, ольха, тополь – в настоящее время считаются достаточно ценными, экономически рентабельными, т.к. за 80-90 лет береза и осина дают двойной урожай. Также эти породы являются почвоулучшающими почвоосушающими в условиях избыточного увлажнения, предохраняют почву от травянистой растительности и др.

Поэтому смену пород лиственными – используют как один из путей биологической мелиорации, как средство улучшения условий среды, напочвенных условий и почвы в целях восстановления коренных хвойных пород и повышения продуктивности леса. Правильное назначение лесов в рубку в соответствии с их природными особенностями – одно из направлений в формировании древостоев из нужных хозяйству пород и повышении продуктивности. Размещение древесных пород с учетом их биологических свойств и условий среды, а также отбор лучших быстрорастущих деревьев и жизнеустойчивых форм при формировании лесов будущего – вот основные направления регулирования процессов смены пород.

3.Раскройте понятие роста и развития леса. Дайте классификацию деревьев по росту (по Крафту) и раскройте практическое значение данной классификации.

Ответ на вопрос № 3.

Рост – это увеличение объема и веса (размеров), т. е увеличение по высоте и диаметру подземных и надземных частей.

Развитие – это закономерные количественные и качественные изменения, происходящие в процессе роста внутри растения за период его жизни от прорастания до появления на данном растении новых семян.

У деревьев происходит рост в высоту ежегодно за счет образования из верхушечных почек побегов.

Рост по диаметру происходит за счет деления клеток камбия.

Рост по объему заключает в себя рост высоты и диаметра.

Имея одинаковый рост, растения по развитию могут отличаться друг от друга. Степень развития устанавливают по внешним морфологическим, таксационным и физиологическим признакам, из которых наиболее наглядный – плодоношение. У деревьев одинакового роста и возраста плодоношение может наступить в разное время их жизни.

Деревья в лесу неодинаковы по размерам и форме. Среди них встречаются исключительно крупные и мощные деревья, чахлые и отмирающие, а также деревья на разных промежуточных стадиях жизненного состояния.

Немецкий лесовод Крафт более 100 лет назад в целях ухода за лесом предложил классифицировать деревья по росту. Он выделил следующие 5 классов деревьев:

I – исключительно крупные, прегосподствующие мощные деревья с толстыми стволами и сильно развитыми кронами (5%);

II – крупные, господствующие, с хорошо развитыми стволами и большими кронами (30-40%);

III – средние деревья, занимающие переходное положение от господствующей части полога к подчиненной, характеризующиеся меньшей высотой и диаметром ствола, более узкой кроной (20-40%);

IV – отставшие в росте деревья с узкими и слабыми кронами (10-20%); подразделяются на два подкласса:

IVа – слабые деревья с равномерной кроной,

IVб – слабые деревья, с однобокой, флагообразной кроной;

V – отмирающие и мертвые деревья (до 10%); также подразделяются на два подкласса:

Vа – деревья с ещё живой кроной;

Vб – деревья с отмирающей или мертвой кроной.

Классификация Крафта имела большое значение для лесоводов, поскольку легла в основу теоретического обоснования рубок ухода – важнейшего лесоводственного мероприятия. Однако она применима в основном для чистых одновозрастных древостоев. Существует много других классификаций деревьев по росту и развитию: В.Г.Нестерова, Б.Д.Жилкина, М.Д.Данилова и др.

4.. Раскройте понятие сплошной рубки главного пользования. Дайте определение видам рубок главного пользования, которые проводятся в Республике Беларусь. Охарактеризуйте организационно- техническим элементам: срок примыкания, направление лесосеки, длина лесосеки, форма лесосеки.

Ответ на вопрос № 4.

СПЛОШНОЛЕСОСЕЧНАЯ РУБКА (СПЛОШНАЯ РУБКА) – рубка главного пользования, при которой весь древостой на лесосеке вырубается в один прием.

Источник

Как сделать классификацию деревьев

Цель построения деревьев классификации заключается в предсказании (или объяснении) значений категориальной зависимой переменной, и поэтому используемые методы тесно связаны с более традиционными методами Дискриминантного анализа, Кластерного анализа, Непараметрической статистики и Нелинейного оценивания. Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует поэтому полагать, что его рекомендуется использовать вместо традиционных методов статистики. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами, то более результативным будет использование именно традиционных методов. Однако, как метод разведочного анализа, или как последнее средство, когда отказывают все традиционные методы, деревья классификации, по мнению многих исследователей, не знают себе равных.

Изучение деревьев классификации не слишком распространено в вероятностно-статистическом распознавании образов (см. работу Ripley, 1996), однако они широко используются в таких прикладных областях, как медицина (диагностика), программирование (анализ структуры данных), ботаника (классификация) и психология (теория принятия решений). Деревья классификации идеально приспособлены для графического представления, и поэтому сделанные на их основе выводы гораздо легче интерпретировать, чем если бы они были представлены только в числовой форме.

Как сделать классификацию деревьев

Как сделать классификацию деревьев

Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность деревьев классификации в прикладных областях, однако наиболее важными отличительными свойствами деревьев классификации является их иерархичность и широкая применимость.

Вычислительные аспекты методов деревьев классификации описаны в разделе Вычислительные методы. См. также раздел Методы разведочного анализа данных.

Характеристики деревьев классификации

Иерархическая природа деревьев классификации

Гибкость метода деревьев классификации

В классическом линейном дискриминантном анализе требуется, чтобы предикторные переменные были измерены как минимум в интервальной шкале. В случае же деревьев классификации с одномерным ветвлением по переменным, измеренным в порядковой шкале, любое монотонное преобразование предикторной переменной (т.е. любое преобразование, сохраняющее порядок в значениях переменной) создаст ветвление на те же самые предсказываемые классы объектов (наблюдений) (если используется Одномерное ветвление по методу CART, смотрите Breimen и др., 1984). Поэтому дерево классификации на основе одномерного ветвления можно строить независимо от того, соответствует ли единичное изменение непрерывного предиктора единичному изменению лежащей в его основе величины или нет, достаточно, чтобы предикторы были измерены в порядковой шкале. Иными словами, на способ измерения предикторной переменной накладываются гораздо более слабые ограничения.

Деревья классификации не ограничены использованием только одномерных ветвлений по предикторным переменным. Если непрерывные предикторы измерены хотя бы в интервальной шкале, то деревья классификации могут использовать ветвления по линейным комбинациям, подобно тому, как это делается в линейном дискриминантном анализе. При этом ветвления по линейным комбинациям, применяемые для построения деревьев классификации, имеют ряд важных отличий от своих аналогов из дискриминантного анализа. В линейном дискриминантном анализе максимальное количество линейных дискриминантных функций равно минимуму из числа предикторных переменных и числа классов зависимой переменной минус один. При рекурсивном подходе, который используется в модуле Деревья классификации, мы не связаны этим ограничением. Например, для десяти предикторных переменных и всего двух классов зависимой переменной мы можем использовать десятки последовательных ветвлений по линейным комбинациям. Это выгодно отличается от единственного ветвления по линейной комбинации, предлагаемого в данном случае традиционным нерекурсивным линейным дискриминантным анализом. При этом значительная часть информации, содержащейся в предикторных переменных, может остаться неиспользованной.

Рассмотрим теперь ситуацию, когда имеется много категорий, но мало предикторов. Предположим, например, что мы хотим рассортировать монеты различных достоинств, имея только данные измерений их толщины и диаметра. В обычном линейном дискриминантном анализе можно получить самое большее две дискриминантных функции, и монеты могут быть успешно рассортированы только в том случае, если они различаются не более чем двумя параметрами, представимыми в виде линейных комбинаций толщины и диаметра монеты. Напротив, в подходе, который используется в модуле Деревья классификации, мы не связаны ограничениями в количестве ветвлений по линейным комбинациям, которое можно проделать.

Аппарат ветвления по линейным комбинациям, реализованный в модуле Деревья классификации, может быть использован также как метод анализа при построении деревьев классификации с одномерным ветвлением. На самом деле одномерное ветвление есть частный случай ветвления по линейной комбинации. Представьте себе такое ветвление по линейной комбинации, при котором весовые коэффициенты при всех предикторных переменных, кроме какой-то одной, равны нулю. Поскольку значение комбинации фактически зависит от значений только одной предикторной переменной (коэффициент при которой отличен от нуля), полученное в результате этого ветвление будет одномерным.

Опции анализа QUEST и CART естественно дополняют друг друга. В случаях, когда имеется много предикторных переменных с большим числом уровней, поиск методом CART может оказаться довольно продолжительным. Кроме того, этот метод имеет склонность выбирать для ветвления те предикторные переменные, у которых больше уровней. Однако поскольку здесь производится полный перебор вариантов, есть гарантия, что будет найден вариант ветвления, дающий наилучшую классификацию (по отношению к обучающей выборке; вообще говоря, это необязательно будет так для кросс-проверочных выборок).

Сила и слабости метода деревьев классификации

Преимущества (по крайней мере, для некоторых областей применения) метода деревьев классификации перед такими традиционными методами, как линейный дискриминантный анализ, можно проиллюстрировать на простом условном примере. Чтобы соблюсти объективность, мы затем рассмотрим примеры с другим набором данных, где методы линейного дискриминантного анализа превосходят метод деревьев классификации.

ДАННЫЕ: Barotrop.sta 3v
LONGITUDLATITUDECLASS
59.00
59.50
60.00
60.50
61.00
61.00
61.50
61.50
62.00
63.00
63.50
64.00
64.50
65.00
65.00
65.00
65.50
65.50
65.50
66.00
66.00
66.00
66.50
66.50
66.50
67.00
67.50
68.00
68.50
69.00
69.00
69.50
69.50
70.00
70.50
71.00
71.50
17.00
21.00
12.00
16.00
13.00
15.00
17.00
19.00
14.00
15.00
19.00
12.00
16.00
12.00
15.00
17.00
16.00
19.00
21.00
13.00
14.00
17.00
17.00
18.00
21.00
14.00
18.00
14.00
18.00
13.00
15.00
17.00
19.00
12.00
16.00
17.00
21.00
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
TROP
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO
BARO

Как сделать классификацию деревьев

На Графе дерева вся эта информация представлена в простом, удобном для восприятия виде, так что для ее понимания требуется гораздо меньше времени, чем его ушло у Вас на чтение двух последних абзацев. Если теперь мы посмотрим на гистограммы терминальных вершин дерева, расположенных в нижней строке, то увидим, что дерево классификации сумело абсолютно правильно расклассифицировать циклоны. Каждая из терминальных вершин «чистая», то есть не содержит неправильно классифицированных наблюдений. Вся информация, содержащаяся в Графе дерева, продублирована в таблице результатов Структура дерева, которая приведена ниже.

Структура дерева (barotrop.sta)
ДЕРЕВЬЯ
КЛАССИФИКАЦИИ
Дочерние вершины, наблюдаемые,
предсказанный класс, условия ветвления
ВершинаЛевая
вершина
Правая
вершина
Класс
BARO
Класс
TROP
Предсказ.
класс
Ветвл. по
констант.
Ветвл. по
перемен.
1
2
3
4
5
2
4

19
9
10
9
0
18
18
0
0
18
BARO
TROP
BARO
BARO
TROP
-67.75
-62.50

Как сделать классификацию деревьев

Структура дерева (barotrop.sta)
ДЕРЕВЬЯ
КЛАССИФИКАЦИИ
Дочерние вершины, наблюдаемые,
предсказанный класс, условия ветвления
NodeЛевая
вершина
Правая
вершина
Класс
BARO
Класс
TROP
Предсказ.
класс
Ветвл. по
констант.
Ветвл. по
перемен.
1
2
3
4
5
2

19
9
10
0
10
18
1
17
17
0
BARO
BARO
TROP
TROP
BARO
-63.4716

Как сделать классификацию деревьев

Рассмотрим теперь ситуацию, в которой проявляются слабые стороны деревьев классификации. Рассмотрим другой набор данных о циклонах. Их можно найти в демонстрационном файле данных Barotro2.sta.

ДАННЫЕ: Barotro2.sta 3v
LONGITUDLATITUDECLASS
59.00
59.50
60.00
60.50
61.00
61.00
61.50
61.50
62.00
63.00
63.50
64.00
64.50
65.00
65.00
65.00
65.50
65.50
65.50
66.00
66.00
66.00
66.50
66.50
66.50
67.00
67.50
68.00
68.50
69.00
69.00
69.50
69.50
70.00
70.50
71.00
71.50
17.00
21.00
12.00
16.00
13.00
15.00
17.00
19.00
14.00
15.00
19.00
12.00
16.00
12.00
15.00
17.00
16.00
19.00
21.00
13.00
14.00
17.00
17.00
18.00
21.00
14.00
18.00
14.00
18.00
13.00
15.00
17.00
19.00
12.00
16.00
17.00
21.00
BARO
BARO
TROP
BARO
TROP
TROP
BARO
BARO
TROP
TROP
BARO
TROP
TROP
TROP
TROP
BARO
TROP
BARO
BARO
TROP
TROP
BARO
BARO
BARO
BARO
TROP
BARO
TROP
BARO
TROP
TROP
TROP
BARO
TROP
TROP
TROP
BARO

Ниже показан Граф дерева для дерева классификации в варианте анализа, в котором используется Полный перебор деревьев с одномерным ветвлением по методу CART.

Как сделать классификацию деревьев

Как сделать классификацию деревьев

Мораль всей этой истории об успехах и неудачах метода деревьев классификации можно сформулировать так: метод деревьев классификации хорош настолько, насколько удачным окажется выбор варианта анализа. Чтобы построить модель, дающую хороший прогноз, в любом случае нужно хорошо понимать природу взаимосвязей между предикторными и зависимыми переменными.
Итак, мы увидели, что методы анализа с помощью деревьев классификации можно охарактеризовать как набор иерархических, чрезвычайно гибких средств предсказания принадлежности наблюдений (объектов) к определенному классу значений категориальной зависимой переменной по значениям одной или нескольких предикторных переменных. Теперь мы готовы к тому, чтобы рассмотреть методы построения деревьев классификации более детально.

Информацию о том, для чего нужны деревья классификации, см. в разделе Основные идеи. См. также раздел Методы разведочного анализа данных.

Выбор критерия точности прогноза

Необходимость минимизировать не просто долю неправильно классифицированных наблюдений, а именно потери, возникает тогда, когда некоторые ошибки прогноза ведут к более катастрофическим последствиям, чем другие, или же когда ошибки некоторого типа встречаются чаще других. Цена ошибки классификации для игрока, поставившего все свое состояние на одну ставку, несоизмеримо больше, чем от проигрыша нескольких ставок, на которые были поставлены мелкие суммы. Может случиться и наоборот, что потери от проигрыша большого количества мелких ставок будут больше, чем от проигрыша небольшого числа крупных. Усилия, которые следует уделять для минимизации убытков от ошибок прогноза, должны быть тем больше, чем больше возможный размер этих убытков.

Выбор типа ветвления

Второй шаг анализа с помощью деревьев классификации заключается в том, чтобы выбрать способ ветвления по значениям предикторных переменных, которые используются для предсказания принадлежности анализируемых объектов к определенным классам значений зависимой переменной. В соответствии с иерархической природой деревьев классификации, такие ветвления производятся последовательно, начиная с корневой вершины, переходя к вершинам-потомкам, пока дальнейшее ветвление не прекратится и «неразветвленные» вершины-потомки окажутся терминальными. Ниже описаны три метода типа ветвления.

Дискриминантное одномерное ветвление. Если выбрано Одномерное ветвление, прежде всего нужно решить вопрос, какую из терминальных вершин дерева, построенного к данному моменту, следует расщепить на данном шаге и какую из предикторных переменных при этом использовать. Для каждой терминальной вершины вычисляются p-уровни для проверки значимости зависимостей между принадлежностью объектов к классам и уровнями каждой из предикторных переменных. В случае категориальных предикторов p-уровни вычисляются для проверки критерия Хи-квадрат для гипотезы независимости принадлежности классам от уровня категориального предиктора в данном узле дерева. В случае порядковых предикторов p-уровни вычисляются для анализа ANOVA взаимосвязи классовой принадлежности и значений порядкового предиктора в данном узле. Если наименьший из вычисленных p-уровней оказался меньше p-уровня Бонферони для множественных 0.05-сравнений, принимаемого по умолчанию, или иного порогового значения, установленного пользователем, то для разветвления этого узла выбирается та предикторная переменная, которая и дала этот наименьший. Если среди p-уровней не оказалось ни одного, меньшего чем заданное пороговое значение, то p-уровни вычисляются по статистическим критериям, устойчивым к виду распределения, например F Левена. Более подробно процедура выбора узла и предикторной переменной для ветвления в случае, когда ни один из p-уровней не опустился ниже заданного порога, описана в Loh и Shih (1997).

Дискриминантное многомерное ветвление по линейным комбинациям. Другим типом ветвления является многомерное ветвление по линейным комбинациям для порядковых предикторных переменных (при этом требуется, чтобы предикторы были измерены как минимум по интервальной шкале). Любопытно, что в этом методе способ использования непрерывных предикторных переменных, участвующих в линейной комбинации, очень похож на тот, который применялся в предыдущем методе для категоризующих переменных. С помощью сингулярного разложения непрерывные предикторы преобразуются в новый набор неизбыточных предикторов. Затем применяются процедуры создания «суперклассов» и поиска ветвления, ближайшего к среднему по «суперклассу», после чего результаты «проецируются назад» в исходные непрерывные предикторы и представляются как одномерное ветвление линейной комбинации предикторных переменных.

Каким образом определяется улучшение критерия согласия? В модуле Деревья классификации доступны три способа измерения критерия согласия. Мера Джини однородности вершины принимает нулевое значение, когда в данной вершине имеется всего один класс (если используются априорные вероятности, оцененные по размерам классов или исходя из одинаковой цены ошибок классификации, то мера Джини вычисляется как сумма всех попарных произведений относительных размеров классов, представленных в данной вершине; ее значение будет максимальным, когда размеры всех классов одинаковы). Меру Джини в качестве критерия согласия использовали разработчики пакета CART (Breiman и. др., 1984). В модуле Деревья классификации имеются еще две возможности: мера Хи-квадрат Бартлетта (Bartlett, 1948) и мера G-квадрат measure, совпадающая с мерой максимума правдоподобия Хи-квадрат, которая применяется в моделировании структурными уравнениями (см., например, документацию по модулю Моделирование структурными уравнениями). При Полном переборе деревьев с одномерным ветвлением по методу CART ищется вариант ветвления, при котором максимально уменьшается значение выбранного критерия согласия. Классификация будет абсолютно точной, если согласие окажется полным.

Определение момента прекращения ветвлений

Третий этап анализа с помощью деревьев классификации заключается в выборе момента, когда следует прекратить дальнейшие ветвления. Деревья классификации обладают тем свойством, что если не установлено ограничение на число ветвлений, то можно прийти к «чистой» классификации, когда каждая терминальная вершина содержит только один класс наблюдений (объектов). Однако обычно такая «чистая» классификация нереальна. Даже в простом дереве классификации из примера с сортировкой монет будут происходить ошибки классификации из-за того, что некоторые монеты имеют неправильный размер и/или размеры прорезей для них меняются со временем от износа. В принципе, такие ошибки можно было бы устранить, подвергая дальнейшей классификации монеты, провалившиеся в каждую прорезь, однако на практике всегда приходится в какой-то момент прекращать сортировку и удовлетворяться полученными к этому времени результатами.

Аналогично, если при анализе с помощью дерева классификации данные о классификации зависимой переменной или уровни значений предикторных переменных содержат ошибки измерений или составляющую шума, то было бы нереально пытаться продолжать сортировку до тех пор, пока каждая терминальная вершина не станет «чистой». В модуле Деревья классификации имеются две опции для управления остановкой ветвлений. Их выбор прямо связан с выбором для данной задачи Правила остановки.

Число неклассифицированных. В этом варианте ветвления продолжаются до тех пор, пока все терминальные вершины не окажутся чистыми или будут содержать не более чем заданное число объектов (наблюдений). Эта опция доступна в качестве Правила остановки в двух вариантах: По ошибке классификации или По вариации. Нужное минимальное число наблюдений задается как Число неклассифицированных, и ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданное число объектов (наблюдений).

Доля неклассифицированных. При выборе этого варианта ветвления продолжаются до тех пор, пока все терминальные вершины не окажутся чистыми или будут содержать количество объектов, не превышающее заданную долю численности одного или нескольких классов. Требуемую минимальную долю следует задать как Долю неклассифицированных и тогда, если априорные вероятности взяты одинаковыми и размеры классов также одинаковы, ветвление прекратится, когда все терминальные вершины, содержащие более одного класса, будут содержать количество наблюдений, не превышающее заданную долю объема одного или нескольких классов. Если же априорные вероятности выбирались не одинаковыми, то ветвление прекратится, когда все терминальные вершины, содержащие более одного класса, будут содержать количество наблюдений, не превышающее заданную долю объема одного или нескольких классов.

Определение «подходящих» размеров дерева

Можно высказать ряд общих соображений о том, что следует считать «подходящими размерами» для дерева классификации. Оно должно быть достаточно сложным для того, чтобы учитывать имеющуюся информацию, и в то же время оно должно быть как можно более простым. Дерево должно уметь использовать ту информацию, которая улучшает точность прогноза, и игнорировать ту информацию, которая прогноза не улучшает. По возможности оно должно углублять наше понимание того явления, которое мы пытаемся описать посредством этого дерева. Очевидно, однако, что сказанное можно отнести вообще к любой научной теории, так что мы должны более конкретно определить, что же такое дерево классификации «подходящего размера». Одна из возможных стратегий состоит в том, чтобы наращивать дерево до нужного размера, каковой определяется самим пользователем на основе уже имеющихся данных, диагностических сообщений системы, выданных на предыдущих этапах анализа, или, на крайний случай, интуиции. Другая стратегия связана с использованием хорошо структурированного и документированного набора процедур для выбора «подходящего размера» дерева, разработанных Бриманом (Breiman) и др. (1984). Нельзя сказать (и авторы это явно отмечают), чтобы эти процедуры были доступны новичку, но они позволяют получить из процесса поиска дерева «подходящего размера» некоторые субъективные суждения.

Прямая остановка по методу FACT. Начнем с описания первой стратегии, в которой пользователь сам устанавливает размеры дерева классификации, до которых оно может расти. В этом варианте мы в качестве Правила остановки выбираем опцию Прямая остановка по методу FACT, а затем задаем Долю неклассифицированных, которая позволяет дереву расти до нужного размера. Ниже описаны три возможных способа определения, удачно ли выбран размер дерева, три варианта кросс-проверки для построенного дерева классификации.

Последовательность максимальных деревьев, которая получается в процессе выполнения этого алгоритма, обладает рядом замечательных свойств. Они являются вложенными, поскольку при последовательном усечении каждое дерево содержит все вершины следующего (меньшего) дерева в последовательности. Поначалу при переходе от очередного дерева к последующему отсекается, как правило, большое число вершин, однако по мере приближения к корневой вершине на каждом шаге будет отсекаться все меньше вершин. Деревья последовательности усекаются оптимально в том смысле, что каждое дерево в последовательности имеет наименьшую цену среди всех деревьев такого же размера. Доказательства и подробные пояснения можно найти в Breiman и др. (1984).

Выбор дерева по результатам усечений. Выберем теперь из последовательности оптимально усеченных деревьев дерево «подходящего размера». Естественным критерием здесь является Цена кросс-проверки. Не будет никакой ошибки, если мы в качестве дерева «подходящего размера» выберем то, которое дает наименьшую цену кросс-проверки, однако часто оказывается, что есть еще несколько деревьев с ценой кросс-проверки, близкой к минимальной. Breiman и др. (1984) высказывают разумное предложение, что в качестве дерева «подходящего размера» нужно брать наименьшее (наименее сложное) из тех, чьи цены кросс-проверки несущественно отличаются от минимальной. Авторы предложили правило «1 SE»: в качестве дерева «подходящего размера» нужно брать наименьшее дерево из тех, чьи цены кросс-проверки не превосходят минимальной цены кросс-проверки плюс умноженная на единицу стандартная ошибка цены кросс-проверки для дерева с минимальной Ценой кросс-проверки.

Существенное преимущество «автоматического» выбора дерева состоит в том, что оно позволяет избежать как «недо-«, так и «пересогласованности» с данными. На следующем рисунке изображены типичные графики цены обучения и цены кросс-проверки для цепочки последовательно усекаемых деревьев.

Как сделать классификацию деревьев

Об основных целях анализа с помощью деревьев классификации см. раздел Основные идеи. Об иерархической природе и гибкости деревьев классификации см. раздел Характеристики деревьев классификации.
См. также Методы разведочного анализа данных.

Сравнение с другими пакетами, в которых реализован метод деревьев классификации

Для решения задачи прогнозирования принадлежности объекта (случая) к определенному классу значений зависимой категориальной переменной по данным измерений одной или нескольких предикторных переменных было разработано большое число программ, реализующих метод деревьев классификации. В предыдущем разделе Вычислительные методы мы рассмотрели методы программ QUEST (Loh & Shih, 1997) и CART (Breiman и др., 1984), предназначенные для построения бинарного дерева классификации с помощью одномерных ветвлений для категориальных, порядковых (т.е. измеренных как минимум в порядковой шкале) или смеси обоих типов предикторных переменных. Кроме того, в данном модуле имеется возможность строить дерево классификации с помощью ветвлений по линейным комбинациям для интервальных предикторных переменных.

Смещения в выборе переменной можно избежать, выбрав опцию дискриминантного одномерного или многомерного ветвления модуля Деревья классификации. При этом используются алгоритмы QUEST (Loh & Shih, 1997), предотвращающие смещение в выборе переменной. Опция Полный перебор деревьев с одномерным ветвлением по методу CART модуля Деревья классификации предназначена для тех ситуаций, когда целью анализа является отыскание системы ветвлений, дающей наилучшую классификацию обучающей выборки (которая необязательно окажется лучшей на независимом кросс-проверочной выборке). Для построения надежных вариантов ветвления, а также для большей скорости вычислений мы рекомендуем опцию дискриминантного одномерного ветвления. О построении дерева классификации см. в разделе Вычислительные методы.

Дополнительная информация по методам анализа данных, добычи данных, визуализации и прогнозированию содержится на Портале StatSoft (http://www.statsoft.ru/home/portal/default.asp) и в Углубленном Учебнике StatSoft (Учебник с формулами).

Все права на материалы электронного учебника принадлежат компании StatSoft

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *